敏捷、分布式、ALM過程自動化、企業應用架構
          posts - 14, comments - 0, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          Hadoop: The Definitive GuideHadoop權威指南),第十六頁中提到了測試數據來源來自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool編寫腳本時使用到的文件格式如下:

           

          For example, here are the first entries for 1990:

          % ls raw/1990 | head

          010010-99999-1990.gz

          010014-99999-1990.gz

          010015-99999-1990.gz

          010016-99999-1990.gz

          010017-99999-1990.gz

          010030-99999-1990.gz

          010040-99999-1990.gz

          010080-99999-1990.gz

          010100-99999-1990.gz

          010150-99999-1990.gz

           

          對于數據的來源很困惑,不知道如何下載。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 這篇帖子中發現方法。現在記錄一下

          連接http://www.ncdc.noaa.gov/


          注意到左邊的
          Free Data

          點擊后轉到的頁面向下拉,在Free Data B中友一個完全免費的FTP(紅框所示)


           

          提供ftp地址為:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/

          我使用了FileZillahttp://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)進行下載


          1w多個文件,可能是不需要完全下載的。

          (完)

          主站蜘蛛池模板: 清镇市| 元谋县| 东宁县| 怀化市| 十堰市| 时尚| 思南县| 稷山县| 德令哈市| 西峡县| 泽普县| 铁岭市| 金乡县| 卫辉市| 潮州市| 布拖县| 登封市| 和平县| 商水县| 沂水县| 阜南县| 桦甸市| 铜川市| 张家界市| 上杭县| 肃北| 江油市| 华安县| 武威市| 安仁县| 西贡区| 鱼台县| 湘西| 宜丰县| 广州市| 泾阳县| 红河县| 深州市| 兴隆县| 宁武县| 穆棱市|