|
三,百度的搜索技术真的先进吗
1,李_彦_宏总是吹嘘他的技术在美国获得专利,他发明了搜索技术,我们不防来看看百度总裁李_彦_宏在接受Forbes采访时扬言Google始创于1998年的Pagerank技术专利为其持有,Google抄袭了百度的Pagerank技术等
这里是笔者在网上找到的关于google和百度专利对比介绍文字说明
Li Yanhong的美国专利号:5,920,859。专利提交日期为1997年2月5日,批准日期为1999年7月6日 Lawrence Page(即Larry Page)于1998年1月9日提交,于2001年9月4日被批准,美国专利号6,285,999。
“两个专利申请的区别在于,他们谈的根本就是两回事。要解决的问题和实施方法都不一样,虽然研究对象是一样的,都是链接。
李_彦_宏的超链分析技术要解决的是文件与搜索关键词的相关性。李_彦_宏提出的方法是,除了文件本身对关键词的引用外,还需要考虑反向链接中的关键词。具体来说,一个文件被索引进数据库的时候,会连同指向这个文件的超链接,以及每个超链接当中使用的锚文字(链接文字),一同记录在案。而搜索词也会建立一个数据库,每个词连同含有这个词的超链接,以及这些超链接所指向的文件一同被记录在案。当一个关键词被搜索的时候,含有以关键词为链接文字的反向链接数目最多的那个文件或网页,将被作为最相关的结果排在前面。这是基本思路,当然还有其他变量考虑进去。比如说搜索字符串含有几个词的时候,每一个词都是搜索矢量的一个维度。
而Google的PR专利显然是专注在已经应用了超链分析之后还不能解决的问题。在Google的专利申请中,明确提到即使在考虑了指向文件的链接及链接锚文字之后,搜索引擎还有重要问题需要解决,那就是来自不同文件的链接有不同的权重值。你不能指望来自白宫网站的链接和非洲某小镇上一个学生的个人网站上的一个链接,投票值相同。而Google PageRank就是衡量网页重要性的一个方法。指向一个网页的链接越多,而这些链接本身的权重越高,那么这个被指向的网页的重要性及PageRank就越高。Google的专利申请当中给出了具体怎样计算这一重要性指标,他们取名为网页级别。网页级别的计算需要进行多个循环的替代计算,才能得到近似于最终结果的PR值。“
笔者还在网上找到一个笑话:“李_彦_宏说上世纪90年代中期,他在澳大利亚讲超链分析,有两个斯坦福的学生坐在台下,后来这两个学生做出了Google。不过我一直没太搞清楚这事儿的先后次序,到底是李_彦_宏的启蒙在前,还是Page和Brin的实践在前。终于梁冬的书中找到了答案,这个会议的时间是1998年4月,地点是澳大利亚的布里斯班。如果没有搞错,这应该就是第七届国际WWW大会。不过这时候,Google的前身BackRub已经在斯坦福大学的网络上运行了两年多。 Larry Page和Sergey Brin著名的论文,《一种大规模超文本Web搜索引擎的分析》就是在这次大会上提交的,作为对PageRank技术最早的公开阐述,这个论文后来被大量引用。“
我有点喷饭了.
2,百度的搜索技术到底如何先进? 其实从上面的介绍我们就可以看到。
Google是按照网页级别(PageRank)来收录的,网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则采用的是来者不拒的原则,百度则不管三七二十一上来就抓整个站,对于网站内容不做分析就快速收录,公认的其爬虫数量非常庞大,如果你的ISP服务商对你有流量限制.那么,你就倒大霉了,你的流量全部被占掉了.
说白了,百度的搜索方法就是大量派出爬虫,大量收集尽可能快和尽可能多的搜集页面,这样一来大家就会发现,百度好像更新特别快,可是这样是以牺牲有效性为代价.大家可以做一个测试,随机抽取若干词语分别在google和百度里面搜索看看,还是那句老话:不怕不识货,就怕货比货.特别是在搜索专业性的资料的时候,百度的搜索基本上是胡扯.
百度甚至不遵守robots规则,笔者曾经有一个网站,这个网站内容有些敏感,主要是跟朋友们一起交流的,所以就不想被搜索引擎收录,按照惯例在根目录下放了robots文件,明确规定拒绝收录全站,可是过了一过多月居然还在百度搜索里面发现了这个网站的全部内容,更搞笑的是这个网站只有100多页,百度居然显示收录2万多页.
网上有评论指出:"中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。"
我们来看看百度是如何吹嘘的: “自从2000年公司成立以来的六年中,百度一直专注于互联网搜索引擎技术的研发,在高性能搜索引擎网络系统架构、搜索引擎相关算法(网页抓取、内容索引、查询检索、超链分析、相关性评估以及作弊网页识别)、中文信息处理(分词、命名实体识别、拼音转换和查询纠错等)、网页文本挖掘、基于社区的搜索引擎、以及搜索引擎商业应用等方面,勇于创新实践,积累形成了一系列具有自主知识产权的核心技术,确保了百度在中文搜索领域的激烈竞争中一直处于领先地位。 ”
不明白一点,“处于领先地位”的百度准确率怎么会那么低呢,这里随便举两个词:“猫”“鸟”,大家搜索一下,看看百度与google有什么不同。
四,强盗的市场营销
1,不掏钱就封你没商量
网上有这么一条消息:"2005年年中,百度官方宣布对许多作弊站点进行集中整顿,清除了一批通过技术手段或软件恶意欺骗搜索引擎、欺骗用户,把本身无内容或内容含量不高的垃圾网站排除在自身搜索结果之外,给予封杀,随后网友“踏雪无痕”成立“反百度联盟”,通过签名、揭发的方式,收集百度对待站长和网友不公正的证据,促进监督百度公司走向公正,如今该站点签名总数已有6675条,基本上都是遭遇封杀的个人站长在控诉。反百度联盟的观点是:百度借清理作弊之名封杀个人站点是虚,借机威胁个人站点买单竞关键字广告才是真。"
这一点笔者以及周围的朋友都有亲身体验,好好的从百度搜索过来的访问全都没有了,过不了几天,百度的代理商电话就打过来了.如果不做"搜索关键字服务",这些搜索过来的访问全都没有了,更为恶劣的是居然在搜索拒绝购买"搜索关键字服务"的网站时,把竞争对手的网站结果列出来.
有网友这样反映:“由于我的小站在GOOGLE、BAIDU、等几个搜索引擎上同时推广,看不到每个搜索引擎的效果到底怎么样,所以想到先把BAIDU停掉几天试试,礼拜5联系BAIDU客服,让她从后台把我的全部关键字停掉,当时BAIDU客服设定是下午 4点开始停止推广,但到晚上我下班回家搜索几个常见的关键字时,发现找遍了前10页都没看到我的站,以前这几个关键字我的站自然排名都在第一页。更为糟糕的是搜索我自己网站的名字都搜不到了,只能通过搜索我的玉米 才能搜出我的站。”
2,收多少钱宰你没商量
百度自2006年6月1日起,大幅提高竞价排名的底价,升幅由几倍到十几倍,完全不是根据客户竞价了,百度美其名说根据商业价值来定,而没有任何标准、根据,就将竞价底价随意提高十几倍,这就是明火执仗对已预付了钱的客户无异于抢钱的行为,也是没有信用的表现。以前一个关键词的起价统一是0.3元,但调整后,关键词分了档次,有的起价达到了几元钱,有的价格保持在0.3元左右,还有部分关键词的价格有所下降,但总体来看,涨的多降的少,所谓商业价值,是指市场的需求大小,有的关键字只有一家使用,也被涨价6、7倍以上,而且是强加的。有的关键字的起价远远超过了第三名第二名的现有价格,请问这样的价格是如何制定的?既然是竞价,应该是使用者之间的竞价,百度这样做说的好听点叫店大欺客,骗子说的难听点实在是太毒辣,太无耻。
|