敏捷、分布式、ALM過程自動化、企業應用架構
          posts - 14, comments - 0, trackbacks - 0, articles - 1
            BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

          Hadoop: The Definitive GuideHadoop權威指南),第十六頁中提到了測試數據來源來自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool編寫腳本時使用到的文件格式如下:

           

          For example, here are the first entries for 1990:

          % ls raw/1990 | head

          010010-99999-1990.gz

          010014-99999-1990.gz

          010015-99999-1990.gz

          010016-99999-1990.gz

          010017-99999-1990.gz

          010030-99999-1990.gz

          010040-99999-1990.gz

          010080-99999-1990.gz

          010100-99999-1990.gz

          010150-99999-1990.gz

           

          對于數據的來源很困惑,不知道如何下載。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 這篇帖子中發現方法。現在記錄一下

          連接http://www.ncdc.noaa.gov/


          注意到左邊的
          Free Data

          點擊后轉到的頁面向下拉,在Free Data B中友一個完全免費的FTP(紅框所示)


           

          提供ftp地址為:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/

          我使用了FileZillahttp://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)進行下載


          1w多個文件,可能是不需要完全下載的。

          (完)

          主站蜘蛛池模板: 永胜县| 滨海县| 西城区| 锡林郭勒盟| 泗阳县| 镶黄旗| 广南县| 屯门区| 牙克石市| 台山市| 观塘区| 新绛县| 双牌县| 礼泉县| 高台县| 尖扎县| 兴义市| 定结县| 大埔县| 淮安市| 彭阳县| 元谋县| 滁州市| 湖州市| 黄骅市| 囊谦县| 梅州市| 通榆县| 陕西省| 闽侯县| 广州市| 菏泽市| 横山县| 双辽市| 田东县| 堆龙德庆县| 富宁县| 永平县| 泾阳县| 西贡区| 弥渡县|