八评周鸿祎之一:生不逢时的360搜索

类别:移动互联网 | 发布时间:2012-8-24 12:22:15 | 网迅科技  |  阅读次数: 

一、周鸿祎的搜索情结

  军事上可以从一个统帅的性格,来判断他可能的指挥方式。同样,从一个企业的产品、企业运作,我们可以看到一个企业领导人的性格,从而从这个性格又可以进一步推测他下一步可能的行动。

  360最近推出了搜索,这个徽剑我在07年的时候就说过,我说周鸿祎早晚还会做搜索,因为他不是那种愿意做最原始的信息贡献的性格,而是喜欢整合资源,或者说投机取巧的人。无论是早期的3721,还是后来奇虎聚合等,都可以看到这点。

  周鸿祎其实是有很强的搜索情节的,因为他的第一桶金就来自一款搜索产品—3721,尽管后来这款产品被人评价为流氓软件,但是不可否认一点,那就是在中国互联网普及的阶段,对于大批连com和net是啥都分不清楚的人来说,3721让他们使用熟悉的中文就可以在网上畅游了。

  当初3721是这么宣传的:“3721公司提供的中文上网服务――3721“网络实名”,是第三代中文上网方式,用户无需记忆复杂的域名,直接在浏览器地址栏中输入中文名字,就能直达企业网站或者找到企业、产品信息。”但是在网络上3721被称为是最大的流氓软件之一,现已停止运营。

  “3721网络实名插件由奇虎公司现任董事长周鸿祎一手创办,它通过地址栏实现中文搜索。2003年11月,雅虎1.2亿美元收购3721公司,该软件更名雅虎助手。2005年10月,阿里巴巴宣布完成对雅虎中国全部资产收购,3721业务随之并入马云手中。2006年,互联网业内掀起“反恶意软件”的热潮,周鸿祎率领360安全卫士成为反恶意软件先锋,曾经由他一手创办的3721软件(雅虎助手)则成了他“围剿”的重点目标之一。当年9月,阿里巴巴宣布投资1亿元继续开发与推广雅虎助手,但随后并未看到有实质的市场举动。”这是网上对3721的一段描述。

  3721最大的争议,就在于他的传播方式,还有安装后排斥竞争对手、独占用户电脑的网络查询接口的技术手段。3721虽然给那些菜鸟网民提供了极大的方便,但是对于那些掌握一定技术能力的熟练网民,还有就是被3721所干扰的竞争对手,都会采取各种手段针对3721。从而使得3721在几年后变得越来越被更多的人所排斥。

  当年的3721一出来,采用的是利用WINDOWS 98的系统漏洞,用病毒的方法进行传播,在短期内就积累了海量的用户。有人曾经问过徽剑“你觉得中国最大的黑客是谁?”我当时回答“我也许不好说中国技术最牛的黑客是谁,但是我可以肯定周鸿祎是商业上最成功、规模最大的黑客。别的黑客只能赚点小钱,他可以通过病毒等黑客手段赚到以亿来计算的财富”。

  当然,时过境迁,我们今天再来评价3721已经有些过时,下面就让我们来看看360的搜索吧。

  二、搜索的技术门槛

  最原始的搜索,就是建立在数据库基础上的关键字匹配,后来进一步延伸到所谓模糊查询、统计分析、知识发现等系列技术的应用。因为搜索,可以让网民从海量的信息中找到他需要的资源,减少了他挨个去查找的时间,提高了他的使用效率,从而使得今天的网民,在上网的时候,已经无法离开搜索。

  很多人把搜索看的神乎其神,其实根本没那么复杂。只要一个会做网页的技术人员、一个懂得存储应用开发的技术人员、一个对C或者C++开发TCP/IP应用比较熟悉的技术人员、一个对索引检索开发熟悉的技术人员,就可以组成一个搜索引擎开发团队。

  1、会做网页的,去做跟用户对接的那部分。

  2、懂得存储应用开发的技术人员,负责搭建存储系统,一个最简单的方式,就是搭建一批服务器,每个服务器分门别类,比如A组服务器负责存储新闻,B组服务器负责存储娱乐等。再细分下去,A1服务器负责存储人民网的,A2服务器负责存储新华网的,B1服务器负责存储李宇春的信息、B2服务器负责存储周杰伦的信息等等,如此类推,

  3、对C或者C++开发TCP/IP应用比较熟悉的技术人员,就可以开发一个所谓“网络蜘蛛”的爬虫程序,其实说白了就是一个“离线下载”工具,下载下来后,对页面里面的链接进行分析,继续不停找新的来源。

  4、对索引检索开发熟悉的技术人员,负责对抓下来的文本做进一步分析,利用单词和短语库,对文本进行分析,按照存储服务器的配置,把不同的信息,存储到对应的服务器里面。同时他还需要和1合作,对于网页上用户提出的查询要求,他要做出文本分析,然后导引到指定服务器上调出相应结果。

  以上就是一个搜索引擎的技术的大致体系,当然,实际中的搜索引擎,远比这个复杂。区别就好比钻天猴的烟花和火箭的那么大。但是基本的架构原理还不会变化的。其实我们都知道,很多时候,理论很好明白,但是实际做起来会在细节上面临大量问题。那么这里有哪几个地方会比较难呢?

  依照徽剑我对搜索引擎技术差不多十来年的关注,我总结出搜索引擎技术的两大门槛:

  第一个门槛:海量的数据搜集和存储,

  第二个门槛:搜索结果的优化

  下面分别表述:

  第一个门槛:海量的数据搜集和存储,因为搜索引擎需要查询大量的网络数据,并且把这些数据抓回爬虫服务器,在做进一步的处理,最后存储在自己的存储系统里面,对于大多数搜索引擎的来说,更多是通用查询,也就是“乱查一气”,你不知道上亿网民会通过你的网页接口,提交什么样的查询关键词。所以你只能尽可能多的搜集各种信息,以备不测。

 

  这这个海量数据的搜集就需要大量的爬虫服务器、还有大量的时候去处理。问题在于不光是搜集过来,这边还得储存,这就需要大量的存储系统,说白了就是需要海量的硬盘。你想想,你要把差不多整个互联网上的各种网站的数据都要抓一部分,甚至全部。这数据量多大可想而知。

  第二个门槛:搜索结果的优化,这个就涉及到好几个方面,一是存储系统的数据检索需要做到快捷方便,需要定期对搜索行为做出分析,对于不同热度的查询数据,用不同优先权的缓存服务器来处理。二是对网民查询内容的优化,很多时候,网民在查询时,并不能很好的表达他的意思,所以如何去理解,给出尽可能近似的结果,是非常关键的事情,打个比方,用户搜索张柏芝,也许是要找谢霆锋相关的,也可能是要找跟陈冠希相关的。三是存储时要对网页进行语义分析,如何准确识别一个网页的主要内容,还有这个网页在网络上的价值,比如是不是第一个发布的?是不是有跟类似网页区别的?等等,这些都需要做很复杂的工作。

此文关键字:周鸿祎,360搜索

在线项目合作

网迅科技结合创新的设计理念与专业技术,为客户制定从策划到创意再到技术的系列支持,帮助企业通过全新的媒体展示平台实现更多价值。如果您喜欢我们的项目,有兴趣合作?请您联系我们,以便我们能够为您提供可行的价值服务。