|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
您现在的位置: ChinaBeta.cn 中文IT资讯 >> 资讯中心 >> 视点·互动 >> 文章正文
普通文章《刀魂4》发布时间确定 将推收普通文章PC版《Mass Effect》硬件需求
普通文章AMD发布官方正式版催化剂8.4普通文章微软遭遇Windows XP SP3疯狂重
普通文章互联网视频监管“维新”普通文章eBay澳大利亚强迫用户使用贝宝
普通文章Apple发布Safari 3.1.1 for Wi普通文章ATI Catalyst 8.4 显卡驱动发布
普通文章Mozilla Firefox 2.0.0.14 简体普通文章ffdshow r1943 2008-04-16
普通文章Koepi's XviD Codec 1.1.3普通文章微软 Windows Mobile 6.1 模拟
普通文章QQ2007(PocketPC)正式版 Build推荐文章Microsoft Device Emulator 启
普通文章中联通知识产权曝隐患 “世界风普通文章Gidot TypeSetter 3.03 文章自
普通文章Process Monitor 1.31 汉化版普通文章Windows Live Hotmail注册验证
普通文章中移动暂停小区广告试点 启动垃普通文章谷歌:“永不作恶”的争议
普通文章Sun Java SE Runtime Environm普通文章Media Player Classic v6.4.9.
普通文章小红伞 Avira Premium Securit普通文章微软拼音输入法2007词库升级(2
普通文章微软确认年底发布SQL Server 2普通文章奥运官方游戏《北京2008》封面
普通文章《超级玛丽银河》版Wii主机MOD普通文章《Crysis》引擎《上古卷轴》Mo
[多图]中文分词技术实验:百度、雅虎、谷歌大比拼
Www.ChinaBeta.Cn 更新时间:2007-8-30

【ChinaBeta.Cn中文IT资讯网】
本 人是搜索引擎优化技术的爱好者,这篇文章将采用大部分人都可以看得懂的简单方式,让大家欣赏一下中国三大搜索引擎的分词技术。很幸运,我们的三大搜索引擎 都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。 腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。雅虎跟易搜使用相同的搜索核心,这次我使用的是易搜,也就是以前“悲情谢幕”的一搜,现在马云同志好马勇吃回头草,变成了易搜,继续造福中国人民。

分词技术第一例:红色摇滚很搞笑



从拆词的情况来看,谷歌竟然并没有把“摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索“摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”



雅虎比谷歌更懂中文!人家起码知道摇滚是一个词。



呵呵,这就是业界一直盛传的百度很牛逼的分词技术了,把“红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!

分词技术第二例:比尔盖茨正在重装操作系统



谷歌果然不给微软面子,连“盖茨”这个名儿都不算一个词,“重装”自然也不算了,更不要提“操作系统”了,感觉谷歌就像一个绝世武林高手,把一张 纸 抛向空中,然后吆喝一声,用手中的宝剑唰唰唰唰地把那张纸碎尸万段。一个美眉泪奔:人家写给盖茨的情书,你怎么把它喜唰唰了?谷歌道:查无此人。



谷歌拆分的本领太幼稚了,雅虎当然胜出,“比尔盖茨”和“重装”都成了词,可见马云忽悠大家说雅虎搜索最好还不算太离谱,起码分词比谷歌先进。



百度大亨闪亮登场,一切完美,可以认出“操作系统”。宏哥果然厉害,叹服。

分词技术第三例:谁在用吉它弹奏一曲十八摸



谷歌又来喜唰唰了,不服不行,“吉它”“弹奏”都被棒打鸳鸯两头散。注意:我的搜索词里头有一个“在”字,谷歌一脚把它踢飞,我也泪奔~



雅虎还行吧,咦?曲十八是什么?是一个风流才子吗?反正我是不知道,大家有知道的M我。

终于轮到终极Boss出场了,老实说,我不写这篇文章还不知道宏哥的分词技术能够强大到如此的地步!它将我的查询词用三种方法来分词。先下一下这三张快照:







为什么百度会存在多种分词版本?正如我在“授谷歌绝杀百度的独孤九剑”那篇文章里提到,优秀的分词策略是这样:尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。

当然,这是原则,执行过程中却并不一定严格按照这种拆分来排序,要看别的参数。在百度里搜“谁在用吉它弹奏一曲十八摸”,有三条搜索结果,其中只 有第二条是包括了完整的“谁在用吉它弹奏一曲十八摸”,排在第一条的结果是“谁在用吉他弹 奏一曲十八摸”,注意,红色部分与使用的查询语句不同。使用“吉它”百度一下,找到相关网页约2,490,000篇,使用“吉他”百度一下,找到相关网页 约22,600,000篇。由此可见,“吉他”是比“吉它”更常使用的词语,百度把查询语句拆分之后,发现“吉它”的同义词“吉他”可能是更好的词,于 是,百度将更常用的词“吉他”代替“吉它”之后将更合适的搜索结果放到第一!兄弟们,不服不行啊!

百度拥有如此强大的分词技术,加上产品稳定、可靠、河蟹,再拥有贴吧、知道等用户贴性很高的产品,拥有hao123作为把菜鸟导入百度怀抱的利器,怪不得宏哥可以放心地去东京打小日本的主意。正如百度产品部出来的一位朋友说:“竞争对手太不争气。”

百度的分词技术有什么弊端吗?

有。

我上次提到过,在搜“上海紫园”的词时,百度不知道凭什么,把“上海紫”看成了一个词,并且在搜索结果里含有一大堆“上海紫”的结果,严重违背了 先 不拆,后小拆的原则。在这个词上,谷歌反倒比百度要好,虽然谷歌的词库很小,可是它用两个词相近则拥有更高优先级的办法来弥补。我的本意是表扬一下百度的 “先不拆”的良好原则,不料却发现了百度的一个弊端。百度应当调整拆词的参数,不要把“上海紫”这样的也看作一个词。呵呵,应该是我的记忆出问题,我上次 本意应该是让大家搜索“紫园一号”的。这个词就大概能看出谷歌跟百度的搜索差别。

由于两词相近优先级高,所以谷歌的分词技术弊端并没有想象的那么严重,但是在搜索很多的词之后,会发现它的结果总差那么一点儿,这就是差距了,在 此 做个小猜测,谷歌使用的词库来自新华字典,还可能是小学生版。雅虎的词库则来自汉语大词典,百度……估计是自创的词典,连“红色摇滚”都算词了呀。

其实我是谷歌的Fans,不喜欢百度和雅虎的商业气味太重,写这个排名出来,是希望谷歌的领导注意谷歌自身水平的提高,而不是用拉拢迅雷、天涯这样的招术,这是旁门左道,对谷歌的进步毫无用处。

版权声明:
作者:SEO独孤九剑(http://www.seo9.org
友情提示:转载文章保留作者的声明与链接将提升您的网站形象。


转自:ChinaBeta.Cn

(责任编辑:hahack)

Google
发表评论】【加入收藏】【告诉好友】【打印此文】【关闭窗口
热门文章 相关报道
普通文章 [游戏资讯]《刀魂4》发布时间确定 将推收藏 (04-17)最新文章
普通文章 [游戏资讯]PC版《Mass Effect》硬件需求 (04-17)最新文章
普通文章 [软件资讯]AMD发布官方正式版催化剂8.4 (04-17)最新文章
普通文章 [IT资讯]微软遭遇Windows XP SP3疯狂重启 (04-17)最新文章
普通文章 [视点·互动]互联网视频监管“维新” (04-17)最新文章
普通文章 [IT资讯]eBay澳大利亚强迫用户使用贝宝 政 (04-17)最新文章
普通文章 [软件资讯]Apple发布Safari 3.1.1 for Wind (04-17)最新文章
普通文章 [软件资讯]ATI Catalyst 8.4 显卡驱动发布 (04-17)最新文章
普通文章 [软件资讯]Mozilla Firefox 2.0.0.14 简体中 (04-17)最新文章
普通文章 [软件资讯]ffdshow r1943 2008-04-16 (04-17)最新文章
  • 谷歌:“永不作恶”的争议

  • 微软不排除联手新闻集团收购

  • 百度梦想成世界最具竞争力的

  • 雅虎向Google抛媚眼 员工声

  • 《互联网周刊》:谷歌的新魔

  • 《第一财经周刊》:谷歌 - 先

  • 微软声明称反对雅虎与谷歌开

  • 雅虎与Google尝试合作

  • 联合国携手Google在全球搜索

  • 微软“吃定”雅虎了

  •   网友评论内容:(只显示最新10条。评论内容只代表网友观点,与本站立场无关!)
    I D *
    邮 箱
    主 页
    评 分 1分 2分 3分 4分 5分
    评 论

    易尚防火墙 | 无线宽带路由器 | 3com无线路由器 | d-link无线路由器 | tp-link无线路由器 |东软防火墙

    关于我们  中国·国家信息产业部{粤ICP备06006652号}{陇ICP备06002562号}
    版权所有:『AK网盟基地』站长:Hahack | QQ:80505955 | E-mail:Hahack@Gmail.com
    Copyright (C) 2005-2007  akhack.org|chinabeta.cn All Rights Reserved