第一個分詞問題,居然是在FTP返回字符串的解析之上,暫時還沒有想到解決的辦法。
如 /hello/this is directory/IT 類
IT 類 /civilservant/_Incoming_/公務員/專業課/ 這行記錄也已經搜到,所以下面的文檔搜不到,問題可能出在 爬蟲上,下面的文檔url沒有放到 原始數據中? // 看了一下原始數據,果然沒有包含此url,問題是出在哪里呢?
但是在測試例子中這樣做是可以的啊。。。
如 /hello/this is directory/IT 類
IT 類 /civilservant/_Incoming_/公務員/專業課/ 這行記錄也已經搜到,所以下面的文檔搜不到,問題可能出在 爬蟲上,下面的文檔url沒有放到 原始數據中? // 看了一下原始數據,果然沒有包含此url,問題是出在哪里呢?
但是在測試例子中這樣做是可以的啊。。。