tss中文Q开源面向对象的数据库db4o 5.5版发布了
q日db4objects发布了开源面向对象数据库
db4o 5.5 版本. q个版本的焦Ҏ(gu)提高了性能降低了内存耗用Q特别针对资源紧张的嵌入式开发提供了支持?br />
具体的改q特?
- cȝ引用新BTree架构Q极大减了事务提交的时_(d)对象个数?0万之1千万的烦引时表现极ؓ(f)明显?br />-通过更好的群集插槽方式,改进字符串和数组的序列化方式Q在插入和修Ҏ(gu)提高了效率?/font>
-提供了诊断工具包Q帮助程序员更容易开发出高效E序?/font>
-本次改进效率的提升可以让内存耗用更低?/font>
原文Q?db4o open source object database v 5.5 released
伴随着 q次发布Qdb4objects q提供了用户交流CQ?/font>
q里
。 ?/p>
]]>
垂直搜烦引擎的三个特点:(x)
1、垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点Q?br> 比如Q找工作的搜索引?www.deepdo.com 的数据来源于Qwww.51job.com , www.zhaoping.com , www.chinahr.com {等Q?br> 股票搜烦引擎 www.macd.cn 的数据来源于Q?www.jrj.com.cn , www.gutx.com {股站点;
2、垂直搜索引?span style="font-weight: bold;">抓取的数据們于结构化数据和元数据Q?br> 比如Q我们找工作x的:(x)
职位信息Q?软g工程师;
公司名称Q行业名Uͼ(x)软g公司Q外包行业等Q?br> 地点Q北京,h(wn)Q?br>3、垂直搜索引擎的搜烦行ؓ(f)是基于结构化数据和元数据的结构化搜烦Q?br> 比如Q?找:(x)h(wn) 软g工程?的工作等?br>
垂直搜烦引擎站点?条准则:(x)
1?span style="font-weight: bold;">选择一个好的垂直搜索方?/span>。俗话说h选错行,q一点对于搜索引擎来说也是一L(fng)Q除了选择的这个行业有垂直搜烦的大量需求外Q这个行业的数据属性最好不要和
Yahoo,Google{通用搜烦的的抓取方向重叠?br> 目前热门的垂直搜索行业有Q购物,旅游Q汽车,工作Q房产,交友{行业。搜索引擎对动态url数据不敏感也是众所周知的,q些可以作ؓ(f)垂直搜烦引擎的切入点Q?br>
2?span style="font-weight: bold;">评h(hun)所选垂直搜索行业的|站、垂直搜索内宏V行业构成等情况Q?br> 我们都知道垂直搜索引擎ƈ不提供内Ҏ(gu)源,它的数据依赖爬虫搜集Qƈ做了深度加工而来的。因此考虑垂直搜烦引擎的所处的大环境和定位臛_重要?br>3?span style="font-weight: bold;">深入分析垂直搜烦引擎的烦引数据特?/span>Q?br> 垂直搜烦引擎的烦引数据过于结构化Q那么进入的门槛比较低,行业竞争?x)Ş成一H蜂的局面;如果搜烦数据特点是非l构化的Q抓取,分析q样的数据很困难Q进入壁
垒太高,很可能出师未杰n先死?br>4?span style="font-weight: bold;">垂直搜烦引擎的烦引数据們于结构化数据和元数据Q这个特Ҏ(gu)区别于yahoo,google{通用搜烦引擎的,q是垂直搜烦引擎的立点。而垂直搜索引擎是Ҏ(gu)于某一个行?Q因此行业知识,行业专家q些也是通用搜烦引擎不具备的。也是?a target="_blank">q入垂直搜烦是有门槛?/a>?br>5?span style="font-weight: bold;">垂直搜烦引擎的搜索结果要覆盖整个行业Q搜索相x要高于通用搜烦引擎Q脓(chung)q用h索意图,搜烦l果要及(qing)?/span>?br>6?span style="font-weight: bold;">垂直搜烦引擎的web 2.0 需?/span>Q?br> 垂直搜烦引擎的搜索数据由于带有结构化的天性,相对于通用搜烦引擎的全文烦引而言Q更昄而精。因此,设计的时候要提供攉用户数据的接口,同时提供tag,U?
分等机制Q搜烦l果更加“垂直”?br>7?span style="font-weight: bold;">垂直搜烦引擎的目标是帮助用户解决问题Q而不只是向通用搜烦引擎一样发C?/span>Q?br> q一Ҏ(gu)垂直搜烦引擎的终极目标?在做垂直搜烦引擎的时候你需要考虑Q什么问题是q个行业内的Ҏ(gu)性问题,什么问题是一般性问题。keso多次提到google的目标是
?
用户快dgoogleQ而垂直搜索引擎应该粘住用戗一般来_(d)使用垂直搜烦引擎的用户都是和用户的利益需求密切相关的。所谓利益需求是我自q?
的,大意是和用户工作密切相关Q生zM必不可少的需求,而求有持l性。比如:(x)学生找论文,业主找装修信息等{这L(fng)需求。因此粘住用P让用h反馈的?
径是一个关键部分?br>8?span style="font-weight: bold;">垂直搜烦引擎的社区化特征Q?br> q一条和W?条是相关的?br> 俗话说物以类聚,Z分Q垂直搜索引擎定位于一个行业,服务于一特定需求的人群Q这个特点决定了垂直搜烦的社区化行ؓ(f)。h们利用垂直搜索引擎解决问题,分n回馈。现在做|站都讲求社区化Q所以垂直搜索引擎本质上q是Q?a target="_blank">对垂直门户信息提供方式的一ơ简化性的整合?br>
相关q接Q?a target="_blank">什么是垂直搜烦引擎
最q因为需要从大量的文本中索字W串Q于是想比较一下java jdk提供?nbsp;indexof 法Q和其他字符串搜索算法的效率。字W串搜烦法有多U,其中比较有名的是boyer-moore法。在Moore 先生的主?/FONT>上有关于 boyer-moore法的详l介l?BR> moore先生介绍的通俗易懂Q相信大安能看明白?/FONT>
同时q看刎ͼ(x)Boyer-Moore串查找JAVA法q篇文章 Q可惜是安徽工业大学的内部刊物,无法看到文章的详情,真是遗憾?nbsp;
相关q接Q?BR> boyer-moore 法文档中心
多么?/A>
Z(zhn)方便的获取(zhn)所兛_|站的alexa|站量数据Q多么乐特的为?zhn)制作了这ƑַP使用Ҏ(gu)很简单,只要按照要求输入|站地址和?zhn)的邮件地址q制定邮件发送的旉Q我们就?x)定期给?zhn)? 发送alaxel计数据?
在以后我们还?x)对数据q行q一步分析,提供更加满意的服务!
Alaxe排名 | 百万用户到达?/span> | 用户览| |
156 | 2750 | 8.0 |
自从 多么?搜烦引擎 索引?l计报告发布一来已l有100多位站长登陆使用Qؓ(f)了把q部分数据主动送到各位站长手中Q我特地制作?q个周报功能Q他会(x)在没周六下午3?0分,l?zhn)提供늫在google,baidu,yisou,msn{主搜索引擎上的烦引量数据?/FONT>
如果(zhn)想也用这功能,(zhn)可以在Q?/FONT> 搜烦引擎l计 上登陆?zhn)的网址Q(注意按照要求填写。)
q提供?zhn)的Email地址?/FONT>
如果有意见和请发信到Q?xiaodingdong@gmail.com
下面是一个邮件例子:(x)
|址 | 日期 | 搜烦引擎 | q_索引?/TD> |
blogchina.com | 2005-06-12 | baidu | 8,770,000.0 |
blogchina.com | 2005-06-12 | 2,520,000.0 | |
blogchina.com | 2005-06-12 | msn | 212,088.00 |
blogchina.com | 2005-06-12 | yisou | 5,632,696.0 |
blogchina.com | 2005-06-13 | baidu | 8,740,000.0 |
blogchina.com | 2005-06-13 | 1,210,000.0 | |
blogchina.com | 2005-06-13 | msn | 224,448.00 |
blogchina.com | 2005-06-13 | yisou | 5,788,532.0 |
blogchina.com | 2005-06-14 | baidu | 9,320,000.0 |
blogchina.com | 2005-06-14 | 1,110,000.0 | |
blogchina.com | 2005-06-14 | msn | 212,176.00 |
blogchina.com | 2005-06-14 | yisou | 5,904,606.0 |
blogchina.com | 2005-06-16 | baidu | 41,670,000. |
blogchina.com | 2005-06-16 | msn | 1,068,831.0 |
blogchina.com | 2005-06-16 | yisou | 27,161,082. |
blogchina.com | 2005-06-17 | baidu | 42,030,000. |
blogchina.com | 2005-06-17 | msn | 109,929.00 |
blogchina.com | 2005-06-17 | yisou | 27,369,993. |
blogchina.com | 2005-06-18 | baidu | 46,900,000. |
blogchina.com | 2005-06-18 | 9,310,000.0 | |
blogchina.com | 2005-06-18 | yisou | 30,492,025. |
itpub.net | 2005-06-12 | baidu | 862,000.00 |
itpub.net | 2005-06-12 | 261,000.00 | |
itpub.net | 2005-06-12 | msn | 14,070.00 |
itpub.net | 2005-06-12 | yisou | 42,090.00 |
itpub.net | 2005-06-13 | baidu | 857,000.00 |
itpub.net | 2005-06-13 | 132,000.00 | |
itpub.net | 2005-06-13 | msn | 13,538.00 |
itpub.net | 2005-06-13 | yisou | 42,100.00 |
itpub.net | 2005-06-14 | baidu | 866,000.00 |
itpub.net | 2005-06-14 | 132,000.00 | |
itpub.net | 2005-06-14 | msn | 12,994.00 |
itpub.net | 2005-06-14 | yisou | 41,274.00 |
itpub.net | 2005-06-16 | baidu | 3,861,000.0 |
itpub.net | 2005-06-16 | msn | 57,906.00 |
itpub.net | 2005-06-16 | yisou | 180,648.00 |
itpub.net | 2005-06-17 | baidu | 3,906,000.0 |
itpub.net | 2005-06-17 | yisou | 178,585.00 |
itpub.net | 2005-06-18 | baidu | 4,360,000.0 |
itpub.net | 2005-06-18 | 1,040,000.0 | |
itpub.net | 2005-06-18 | yisou | 198,450.00 |
现在几乎每天都有朋友l我写信Q要求交小叮咚中文分词的实现。我现在实现的有java和C#两个版本。同L(fng)法逻辑Q用 java ?C#写两边可不是有趣的事?。于是自然而然惌v? 关于lucene发展和多语言实现的方?/a> 中采用的Ҏ(gu)Q于是决定以后主要更新java版本的中文分词算法,?net版本的中文分词则在java class基础上{化过来?/font>
很早的时候我的一blog介绍q:(x)Z.NET的Java虚拟机IKVM介绍 。于是今天就试了一把,整个q程q算利。下面是我的转换q程Q?/font>
X:\ikvmbin-0.14.0.1\ikvm\bin>ikvmc -target:library
X:\XXXX\chinese_sentence_splitter.jar
Note: output file is "chinese_sentence_splitter.dll"
Note: automatically adding reference to "e:\programming\java&.net\ikvmbin-0.14.0.1\ikvm\bin\ikvm.gnu.classpath.dll"
通过上面的命令可以把 java jar 文g转换?nbsp; 同名?.net dll?/font>
在java中测试的l果如下Q?br>
但在.net中测试的l果却不正确Q?br>
q很昄是IKVM.NET在{换过E中出现了问题?/font>
׃W一ơ用IKVM.NETQ因此这个问题还需要在以后有时间解决一下。也希望有相关经验的朋友多多指导.
相关q接Q?/font>
多么?/a>最q关于中文分词的处理逐渐多了hQ我以前的文章也零星的介l过许多q方面的技术。L一些朋友来信烦要中文分词的代码Q而且要不同版本的Q鉴于这个情况,我把我对分词的理解,按照java,C#语言各自实现了一份。C++的版本,q是用中U院的ICTCLAS 毕竟q个分词E序是很多分词的ȝ?/FONT>
大家可以刎ͼ(x)叮咚中文分词主?/FONT>查看详情?/FONT>
E序q有很多不完善的地方Q功能列表和开发文档现在都不完_(d)希望有这斚w爱好的朋友一起参与进来,完善Q提高?/FONT>
也欢q大家来信讨论:(x) xiaodingdong@gmail.com
田春?/FONT>
相关联接Q?
多么乐互联网 google索引量统?/A>
(zhn)想知道自己主页在google的烦引量的统?/SPAN>吗?你想知道自己主页?SPAN style="BACKGROUND-COLOR: rgb(255,255,0)">google上的索引量是如何变化的吗Q?BR> 如果惻I不妨刎ͼ(x)http://www.domolo.com/domolo/domoloindex/index.aspx 输入(zhn)的|址Q我们会(x)为?zhn)免费q行google索引量的l计?BR> 我们?x)每时一ơ统计,每天生成一份统计报告,l计报告面如下Q?/FONT>
http://www.domolo.com/domolo/domoloindex/google2005-04-16.html
上面的地址是当?0050416的google索引量的l计。统计数据的来源是每时google索引量的q_倹{?BR>
如果(zhn)想l计自己|站的google索引量,(zhn)可以在
http://www.domolo.com/domolo/domoloindex/index.aspx
q个地址上,录入(zhn)的|址Q我们就可以为?zhn)自动l计늫的google索引了?BR>
讉K方式Q?BR>http://www.domolo.com/domolo/domoloindex/google2005-04-16.html
?SPAN style="BACKGROUND-COLOR: rgb(153,204,0)">上面链接中的日期换成当前日期卛_Q?BR>
Ƣ迎(zhn)的参与使用Q?BR>q希望提出?zhn)的宝贉|见:(x)田春峰的留言?/A>
------------
今天刚加了对baidu索引?/FONT>的统计,W一天运行,有几个朋友注册Q不错呀?/FONT>
http://www.domolo.com/domolo/domoloindex/google2005-04-17.html
生成旉Q?/FONT>
|址 | l计ơ数 | q_索引?/FONT> |
soufun.com | 15 | 1141533 |
domolo.com | 15 | 7 |
sohu.com | 30 | 1473400 |
sina.com.cn | 15 | 1080066 |
donews.com | 15 | 374333 |
donews.net | 15 | 169186 |
www.myknots.com | 11 | 4170 |
diyinside.com | 3 | 167 |
www.dearbook.com.cn | 1 | 123000 |
相关链接Q?