需求:
kettletest1數據庫中有table_source數據表,結構如下:
- Id 主鍵
- t_id 數據時間
- part_id 實例ID
- yg 數據字段1
- wg 數據字段2
該表中的數據對于不同的實例ID,一分鐘一條數據,t_id字段表示數據的時間,精確到分鐘。
kettletest2數據庫中有table_target數據表,結構如下:
- Id 主鍵
- marketdate 數據日期,格式為 yyyy-MM-dd
- pointtime 時間,格式為 HH:mm
- pointnumber 時間的數字表示,00:01表示為1,00:00表示為1440
- plantcode 實例Code
- yg 數據字段1
- wg 數據字段2
需定期將table_source表中的數據獲取至table_target表中,并進行如下處理:
1、將t_id數據時間字段拆分為三個字段,分別為marketdate、pointtime、pointnumber。
a、marketdate取t_id的日期部分。
b、pointtime取t_id的時間部分。
c、pointnumber為時間的數字表示,等于hour*60+minute。
d、但當t_id的時間為某日的00:00時,需將其轉化為24:00,并且marketdate需取日期的前一天。如t_id為2008-12-04 00:00,則marketdate為2008-12-03,pointtime為24:00,pointnumber為1440。
2、將part_id字段映射為plantcode字段,并根據如下規則進行轉換:
part_id plantcode
3206 P01
3207 P02
3208 P03
測試中使用的數據庫均為mysql數據庫。
實戰:
整個轉換工作共分為三個步驟,如下圖:
1、定義需獲取的數據的日期
2、刪除table_target表中已有數據,注意一定要將“執行SQl語句”面板中的“變量替換”要選上,否則SQL語句中的變量不會被替換,我剛開始沒注意到這個地方,找問題找了半天。
3、獲取table_source中的數據,并將其插入table_target表
3-1、獲取table_source表的數據
3-2、值映射
3-3、字段選擇
3-4、對t_id字段進行處理,增加了pointnumber字段。在這一步驟中發現kettle的一個bug,就是不能在JavaScript中使用str2date函數,錯誤的具體信息參見:http://jira.pentaho.com/browse/PDI-1827。這個問題也折騰了好長時間,剛開始怎么也想不通這個函數使用時怎么會報錯呢,后來只好從字符串中截取年、月、日信息。
該步驟中還存在另外一個使人困惑的問題,就是點擊“測試腳本”按鈕,會報錯,但是執行job和transformation時則不會報錯。
3-5、增加pointnumber字段至輸出結果中
3-6、插入數據至table_target表
3-4步驟中的JavaScript代碼如下:
var pointnumber = 1;
if (pointTimeStr == "00:00") {
var marketDateStr = marketdate.getString();
var marketDateYear = substr(marketDateStr, 0, 4);
var marketDateMonth = str2num(substr(marketDateStr, 5, 2))-1;
var marketDateDay = substr(marketDateStr, 8, 2);
var date = new Date();
date.setYear(marketDateYear);
date.setMonth(marketDateMonth);
date.setDate(marketDateDay);
var temp1 = dateAdd(date, "d", -1);
marketdate.setValue(date2str(temp1, "yyyy-MM-dd"));
pointtime.setValue("24:00");
pointnumber = 1440;
} else {
var hourStr = pointTimeStr.substr(0, 2);
var hour = str2num(hourStr);
var minuteStr = pointTimeStr.substr(3, 5);
var minute = str2num(minuteStr);
pointnumber = hour * 60 + minute;
}
至此,整個轉換工作完成,小結一下:
如果對kettle等etl工具比較熟悉的話,使用etl工具進行數據轉換、抽取等事情還是比較方便的,比起寫程序還是有優勢的。但是這個轉換過程中遇到的kettle的兩個bug比較讓人頭疼,覺得kettle好像還不是很穩定。