spark的自留地(ofbiz/eclipse rcp/shark/opentaps)

            BlogJava :: 首頁 :: 聯系 :: 聚合  :: 管理
            54 Posts :: 0 Stories :: 112 Comments :: 0 Trackbacks
          好象有日子沒更新過blog了,寫篇來證明博主的存在吧。

          好多哥們建了網站,都不知道如何吸引別人的眼球。其實我覺得的,要么功能,要么內容。可是個人辦的網站,就是二十四小時掛在網上不停的拷貝粘貼又能做得了多少內容? 懶人自有懶辦法,寫個程序去抓去?


          嗯,想到就得動手,不然過陣就忘記了,當然嘍,還是謀定而后動,打算怎么整呢?先選擇好技術:

          1、誰去抓?好象好多人都推薦使用nutch或是herixtrix,不過我覺得象一般的小網站玩玩,就不必這么費事了,就用HTMLParser吧,抓取與解析一體化解決吧。

          2、誰來格式化數據?同上了,俺用正則習慣了,正好node + regex 夠你用了。

          3、如何存儲抓來的數據? 我是用慣JavaEE了,那就 ibatis + mysql 吧,hiberate 就不必了,雖然我沒打算做個多高負載的應用,但hibernate怎么也感覺不是很合適吧? (喜歡hiberate別拍磚,我不喜歡口水戰,各人有自喜好,而且hibernate我也很喜歡)

          4、如何把你抓來的數據表現出來呢? 這個就得看你自己的需要嘍,CMS 還是 B2B電子商務程序? 還是一個 CRM或ERP程序(如果這樣的話,倒不妨試試opentaps?)

          5、性能是不是問題? 如果你打算做個專業的搜索引擎或是阿里巴巴之類的電子商務引擎,除去硬件的考慮、數據庫的優化,也許你要更多地考慮cache的管理,還有可能考慮文件索引(如用lunece)

          6、差點忘記了,誰來調度這些爬蟲及程序之間的任務執行順序呢? 試試Quartz?!

          又犯困了,先寫這吧,正好有個朋友要我幫忙指導做個類似玩意兒,下次再記錄吧。

          posted on 2009-08-04 21:33 shanghai_spark 閱讀(1478) 評論(5)  編輯  收藏

          Feedback

          # re: 建了網站沒內容咋辦?整隊網絡爬蟲出去抓去呀(一) 2009-08-05 00:04 小人物
          對這個很感興趣,希望博主能夠寫這一系列的教程。呵呵。  回復  更多評論
            

          # re: 建了網站沒內容咋辦?整隊網絡爬蟲出去抓去呀(一) 2009-08-05 09:00 popoer
          互聯網上的垃圾信息就是這樣產生的...  回復  更多評論
            

          # re: 建了網站沒內容咋辦?整隊網絡爬蟲出去抓去呀(一) 2009-08-05 09:10 隔葉黃鶯
          自己用 HTMLParser,然后 node+regex 去解析會很麻煩的。  回復  更多評論
            

          # re: 建了網站沒內容咋辦?整隊網絡爬蟲出去抓去呀(一) 2009-08-05 16:56 r
          抓出來缺胳膊少腿的內容,垃圾網都這樣  回復  更多評論
            

          # re: 建了網站沒內容咋辦?整隊網絡爬蟲出去抓去呀(一) 2009-08-07 03:58 Bond
          對這方面很感興趣,希望能向博主請教,QQ:329069383  回復  更多評論
            


          只有注冊用戶登錄后才能發表評論。


          網站導航:
           
          主站蜘蛛池模板: 平遥县| 临桂县| 黄骅市| 兴海县| 花垣县| 尖扎县| 新巴尔虎右旗| 读书| 斗六市| 榆社县| 衡阳县| 博白县| 永春县| 简阳市| 光泽县| 永宁县| 鹤山市| 湾仔区| 沭阳县| 吉木萨尔县| 筠连县| 昆山市| 临澧县| 大英县| 墨竹工卡县| 栖霞市| 县级市| 民丰县| 北京市| 客服| 高雄县| 手机| 铜川市| 和平县| 尤溪县| 吐鲁番市| 通州区| 丽江市| 德州市| 黎城县| 漾濞|