Hadoop: The Definitive Guide(Hadoop權威指南)數據獲取
Posted on 2012-03-28 10:32 一酌散千憂 閱讀(1729) 評論(0) 編輯 收藏 所屬分類: HadoopHadoop: The Definitive Guide(Hadoop權威指南),第十六頁中提到了測試數據來源來自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool編寫腳本時使用到的文件格式如下:
For example, here are the first entries for 1990:
% ls raw/1990 | head
010010-99999-1990.gz
010014-99999-1990.gz
010015-99999-1990.gz
010016-99999-1990.gz
010017-99999-1990.gz
010030-99999-1990.gz
010040-99999-1990.gz
010080-99999-1990.gz
010100-99999-1990.gz
010150-99999-1990.gz
對于數據的來源很困惑,不知道如何下載。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 這篇帖子中發現方法。現在記錄一下
連接http://www.ncdc.noaa.gov/
注意到左邊的Free Data。
點擊后轉到的頁面向下拉,在Free Data B中友一個完全免費的FTP(紅框所示)
提供ftp地址為:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/
我使用了FileZilla(http://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)進行下載
共1w多個文件,可能是不需要完全下載的。
(完)