-- 關注搜索引擎的開發(fā)

日歷

2006年10月

日

一

二

三

四

五

六

統(tǒng)計

隨筆 - 82
文章 - 2
評論 - 228
引用 - 0

隨筆分類(45)

隨筆檔案(82)

文章檔案(2)

2006年4月 (2)

Java Spaces

Alanb(Sun) (rss)
FreeRoller (rss)
JavaBlogs
JavaWorld (rss)

搜索

積分與排名

積分 - 65874
排名 - 816

閱讀排行榜

評論排行榜

2006年10月21日

微軟的新搜索引擎

微軟從未放棄搜索引擎的競爭，一直和Google暗暗較勁。盡管live search在內部員工里像是一個joke，但老大一直毫不猶豫地往里砸錢。

說實話，我盡量使用微軟的產品，操作系統(tǒng)放棄了linux，開發(fā)工具放棄了perl和java，當然這些是工作使然。但map我以前用 MapQuest，現在改用live map，瀏覽器也棄Firefox改用IE8，但凡能用的，我都會改用微軟的產品，不過對于搜索引擎，感覺實在太爛了，搜出來的東西總不是自己想要的，往后翻了10來頁也不見有用的。后來就偷偷把Google設為默認引擎。見到一個同事比我更過分，連outlook的搜索都改用Google Desktop來搜索。

后來，3月初的時候，內部就發(fā)布了一個新的搜索引擎，叫Kumo(酷摸？)。據說是因為live這個名字不好，不信把它反過來念念看看是什么？我覺得只是一個名字的更換沒有什么意義。后來還是忍不住上去試了試，發(fā)現確實比原來的那個好一些。沒事的時候也會用Kumo 摸一把。

今天，鮑老大又宣布發(fā)布一個新的搜索引擎，叫Bing。感覺怎樣？我怎么讀的像有病的‘病’？還不叫Search Engine,改叫Decision Engine，夠新潮的概念。我不太清楚為什么取這樣一個名字（據鮑老大說，是因為它短小好記），不過從一個日文名字變成一個中文名字，我感覺這是陸奇上臺登上Search老大交椅之后的一個成功。記得前兩天Search主頁的封面就開始用上內部某員工拍的中國陽朔的風景照片。不管猜測對不對，新的搜索引擎還是要試一試，結果有好事之徒一上來就搜了個“六四”，結果出來的全是大學四六級考試，讓人有些瀑布寒。還沒有公開release，公關就已經做得這么好了。

讓人更囧的是，為慶祝新的release，search組的人每人發(fā)了一件T-shirt。據說前面是"I Bing"，后面是“U Bing”。聽起來像“我有病，你也有病”。不過Search組的人并以為然，因為他們?yōu)?#8220;Bing”取了一個中文名字叫“必應”。比“谷歌”好一點么？

其他組的好事之徒可沒那么友好，測試了一段時間之后，把這個“bing”的搜索引擎親切地叫做Mr. Bean。

當然，面對新鮮事物，我們還應該抱著積極的態(tài)度。我想因為在測試階段，我更愿意相信這是因為沒有足夠的用戶行為數據導致的短暫的發(fā)育不良。這個“必應”在下周可能就會正式發(fā)布了。讓我們試目以待。

posted @ 2009-05-29 13:20 Dedian 閱讀(3662) | 評論 (14) | 編輯收藏

我們需要什么樣的應用程序？

我先前有說過，“很多的軟件做成web-based是web3.0的一個趨勢”。從技術角度上說，這些web-based的應用程序和以前裝在本地硬盤的軟件有些不一樣，確切地可以理解那些具有服務功能的網站或者應用程序為能夠瀏覽器所容納的對象，而瀏覽器只是一個可以支持多種對象的容器，可對象的后臺的服務應用程序正是 deploy在各種web服務器上的軟件。

而那些所謂的腳本語言只是容器與各種對象的通訊語言。

一直以來，容器和后臺服務應用程序一直在改進。但更多的是一個又一個鮮活的對象通過瀏覽器展現在我們眼前，默默地改變我們的生活。

其實，說很多的軟件做成web-based就是變成一個個可以為瀏覽器所接納的對象模型只概括了其中的一部分。它只是說到軟件的表現形式。這很容易讓大家忽略數據的存儲形式，而默認這樣的web-based的服務讓我們更多的是享受網絡上的數據或者搜索引擎上的數據。我們不用經常下載軟件占據自己的硬盤，有了網絡電視，我們也不用下載電影，甚至也無需下載音樂。我們自己的數據比如email，blog,訂閱的雜志，收藏的信息也都存放在各個網站的服務器上，而無需下載下來。

我們似乎已經習慣了在線的狀態(tài)。淡忘了脫機的那個年代。而一向標新立異的Google似乎又找到回歸的需求，那就是最近推出的的Google Gears。它提供人們一個瀏覽器的插件，通過這個插件我們下載數據到本地硬盤，并且提供一個小型數據庫引擎(SQLite)在本地硬盤幫助存儲，建立索引和搜索數據。另外提供接口實現后臺的數據同步而無需占用瀏覽器資源。

目前Google Gears的API應用在Google Reader上，即用戶可以下載訂閱的電子雜志到本地硬盤，方便整理和收藏。

一句話，軟件有放在網上的趨勢，人們也同樣關注個人數據的搜集和存放。舉個例子，我一直用Del.icio.us來收藏一些技術網站或者文章，可有一天我查閱技術文章的時候，點擊鏈接過去，卻是物是人非頁已去。這時我就想當時文章要是可以自動下載到自己硬盤并整理好那該多好。當然，手工的Copy+Paste就算了，我希望的是像Del.icio.us的一鍵操作。

posted @ 2007-05-31 14:27 Dedian 閱讀(1928) | 評論 (1) | 編輯收藏

what comparison function is in linux sorting ?

Got a question, when I apply sort command line in linux to sort some domain names by dictionary order, no matter which option i used, it will sort some domains like this:

...
abca.com
abc-d.com
abce.com
...

I am curious what comparison function it applys in its' sorting function. I supposed it should be a string comparison, like strcmp function, but it is not. coz strcmp will compare ascii code of characters in string one by one, thus above sorting should like this:

abc-d.com
abca.com
abce.com

one guess is that when sorting names the special characters like "." "-" will be skipped. but still got some problem when sorting following names:

abc---d.com
abc--d.com
abc-d.com

why can linux sorting keep this order? if it skips some special characters, above names should be compared equally and maybe sorted as a random order.

confused, anybody has thought about that?

-----
p.s.

Haven't got updated here for quite a long time, coz I am back to program with c under linux and I believe it is a place for Java programmers.

-----

update:

Linux sorting compares unicode of strings … more about unicode is here

posted @ 2007-02-02 07:10 Dedian 閱讀(1421) | 評論 (1) | 編輯收藏

創(chuàng)建自己的搜索引擎

隨著網絡上信息量的日益增加，人們的學習和工作越來越離不開網絡搜索引擎(有些生活中的小例子在《Google 今天8歲》文中有提到)。

但是，另外一方面，我們會對搜索出來的成千上萬的結果束手無措，使得我們基本上對第一頁的搜索結果保持興趣，從而引發(fā)各種為爭取出現在搜索引擎的第一頁的各種技術(如SEO)或手段(Spamdexing)出現，惡劣的則大打出手，甚至搜索引擎公司出現各種幕后黑手。

對于用戶來說，則需要一點智商，來迅速地達到自己的搜索目的。

對于搜索引擎的老大Google顯然注意到這一事實以及這一事實帶來的客戶需求：即搜索引擎應該滿足客戶自定義化(Customizable).

最近，Google推出的產品 custom search service 則適應了這一需要。

idea很簡單，就是用戶可以自己根據自己的興趣所在設置一些自己經常去的或者感興趣的又信息量比較大的一些網站。這樣就可以制定Google的搜索引擎就搜索這幾個網站，或者以這幾個網站的為主。

例外，這個簡單idea的產品還具備web2.0的色彩。也就是可以幾個興趣相投的人一起編輯網站列表，從而類似一個搜索圈(搜索社區(qū))搜索出大家共同感興趣的東西。

有興趣的大家可以自己玩玩。我初步自定義了一個與Blog有關的搜索引擎。

點擊這里。或者連接：
http://www.google.com/coop/cse?cx=006688650489436466578%3Ac7-4rxi0jf4

或者點擊這個簡單的域名地址：

http://blogdigger.info

大家有興趣可以一起玩，只要你們有gmail的賬號。

加入的方法很簡單，就是點擊主頁上的鏈接：

Volunteer to contribute to this search engine.

當然，你需要一個Google 的賬號（沒有也沒有關系，只需要用你們的email注冊一個就可以了，很簡單）

這樣，你就可以成為這個搜索引擎的一員了，平時，你覺得那個網站很好，里面的信息量也比較大，你可以把這個網站添加到Blog Digger的網站列表中。也可以為你感興趣的一些搜索添加搜索條目。

如果慢慢的覺得這個自定義的Google好玩，就記住這個鏈接吧：http://blogdigger.info

posted @ 2006-10-27 06:04 Dedian 閱讀(2398) | 評論 (3) | 編輯收藏

Again, Problem or Bug for URLConnection ?

Not sure if it is a bug of (Http)URLConnection, but it hang sometimes for some URLs while calling any functions to get information from connection (includes getResponseCode, getInputStream, getContent, getContentLength, getHeaderField blabla..) after connection has been built (even I have set the read timeout and connect time out).

the functions openConnection() and connect() are ok, curious about that problem.

anybody has the same problem or similar problem with URLConnection?

posted @ 2006-10-21 07:20 Dedian 閱讀(1316) | 評論 (0) | 編輯收藏


Copyright © Dedian	Powered by: 博客園模板提供：滬江博客

導航

常用鏈接

留言簿(8)