没有搜索引擎或者搜索引擎不成熟的互联网时代,多数都是门户网站获取信息的,老一辈的计算机人总有习惯上163的习惯就是因为这个,在搜索引擎没发明之前,网络上的站点也是非常有限的,估计都有限到了几乎每个人都能知道大部分的网站的程度,慢慢的,网站越来越多,信息越来越杂了,就有了搜索引擎,产品都是根据需求来的。
有没有网上前辈,告诉一下,在没有百度搜索引擎之前,中国人是如何上网的?
在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。
现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage想到了开发一个可以以文件名查找文件的系统,于是便有了Archie。
Archie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。
当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。
世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。
与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。
随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-Based Software Engineering (RBSE) spider最负盛名。
然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨!
随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi(已被Yahoo收购),它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo,已被Yahoo收购)、LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类(注1),搜狐和新浪用的就是它的技术(注2)。因此从这个意义上说,它们是搜索引擎的搜索引擎。
(注1):百度已于2001年9月开始提供公共搜索服务。
(注1):搜狐二级网页搜索现已改为中搜的引擎,而新浪则已转用Google的搜索结果。
在没有搜索引擎的年代人们是如何上网的?
印象中最早上网的时候搜索引擎确实好像还没有兴起,对于网站和信息来源大多数时候是通过263网址导航、hao123网站导航什么的获取的,那些新闻、娱乐、音乐这些主流的大战都是从哪里看到的。
而至于很多科技BBS、漫画交流站都是通过口口相传来的,好像那个时候手里都有一个小本本,里面抄着很多网址,去网吧或者回家的时候,要一个个字母把他们敲进去。
那时候上网因为不喜欢看什么国家大事,新闻什么的,所以更多的时候都是混迹于各个BBS,那时候BBS是属于互联网最主流的产品,就和现在的APP是的,几乎你想要的所有东西都可以在各种BBS里面找到。
小时候在男生女生杂志的BBS混过,在易建联球迷会BBS里面混过,还有什么小说交流的啊,什么互联网技术交流论坛啊,都有留下了我的足迹。那时候搜索引擎用的还真是不多,基本上想解决的问题,在手里的几个BBS里面都能找到。
即使已有帖子里面没有,发一个问答帖,也会马上找到答案,说到这个,忘记是看的哪本书里面写的,几乎现在有的所有互联网产品形态都是从BBS演变出来的。
其实咱们这个问答的形态和BBS是完全一致的,以前BBS里面的二手市场慢慢演变成电商平台,信息类的版块变成了门户网站,交友版块变成了现在的社交软件,很多事物的演变都是从BBS来的。
那个时候大家对于信息的获取渠道还比较单一,所以好像还没有现在这么渴求,很多事情如果在现有资源里面找不到答案可能就放弃不着了,知道搜索引擎的出现,也算是改变了我们吧。
请讲一下搜索引擎的历史
搜索引擎的发展历史
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。
1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Google第一个在非英语国家起的名字。
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。
1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。
2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) 。
2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。
如何收集资料
资料决定了人的认知程度和水平,掌握第一手资料,获取可靠的资料,都能对我们的工作和学习有极大的提升,那么收集资料最重要的方法是什么呢?
收集资料,狭义讲是使用各类工具或途径获取某类资料,这类工具或途径较为常见的是搜索引擎,比如百度、谷歌、360搜索、搜狗,或者是各类专业性的网站,比如政府网站、学术性网站、新闻媒介网站、专业资讯类网站、各类论坛,而近年来兴起的豆瓣、知乎、今日头条或是抖音、快手,其实都可以归为获取资料的手段和途径。
而广义的讲收集资料,则是一个由点到面,系统性的工作,建立个人的知识体系或是资料库,这是需要付出相当长久的功夫,方法也更复杂,然而后期使用却会便利许多。
资料的分类有很多中,一手资料最为可贵,但也很难获得,二手或是三手、四手的资料,往往需要鉴别真伪,避免使用带来负面影响。信息社会中,资料的表现形式,也不只是纸质的文字资料,包括了数字化的资料,涵盖的类型也不只是图表、图片、音频、视频。
收集资料最重要的方法是什么?
掌握搜集资料的方法,并不难,只需要日积月累的功夫,而且互联网时代,知识的共享,方便我们获取各类所需的搜集渠道,网友都有分享,虽然入门很难,但日积月累,也能够有所收获,只是最重要的东西,还是以下几点:
1、确定需要搜集的资料的主题、关键点、概念,确定好边界
信息泛滥和选择恐慌是普遍存在的现象,反映到资料的搜索过程中,南辕北辙、徒劳无功是常事,没有事先厘清楚搜索的主要目标,而是在漫天的资料海洋中,翻腾半天,资料找到的很多,但最终却是一团乱麻,待到使用时,除了资料的堆砌,毫无用武之地,白白耗费了时间和精力。
因此,在搜索之前,就要严格的划定资料的搜索边界,一旦超过了范围,偏离了搜索意图就要停止,避免出现无知而忙的境地。
一个小方法是从资料的用途出发,比如“七夕”方面的资料,基本的故事大部分人都是了解的,所以到底要了解哪方面的东西,历史人文角度的,还是情感美文方面的,或者是广告软文,不同的使用者,关注的重点是不同的。
2、注重资料的质量,选择可靠的信息来源,确保资料的客观性
选择权威性的资料发布源,不要随意截取片面的信息,选择立场客观、没有过度倾向性的资料来源,同时要通过不同的信息来源验证资料的真实性,避免搜集到假资料。
我们阅读广告软文时,很容易被某个观点立即说服,事实上,那个观点并不正确,但是为了营销产品,文章为我们展现的多半是正面性的东西,而负面的东西反而被刻意忽略或省略。
3、资料的整理与维护
任何资料的收集,最终作用不是为了存储,毕竟互联网时代,电脑能够替代人脑获得很多知识。一次费心劳力的资料收集,最终在使用一次之后,就散迭殆尽,等到下次使用时,又要重新走一遍流程,这就凸显了资料整理的重要性。
网络上有许多工具可以帮助,比如印象笔记、有道云笔记等,个人也可以在电脑中建立文档结构树,分门别类的建立起属于自己的资料库或者数据库。
后期维护资料库也是非常重要的,定期的增添、更新和清理,可以帮助我们更全面的掌握资料,许多知识,在某一段深入了解之后,可能就入脑入心,不再需要靠资料来理解了,就可以删除掉;而许多并不怎么用的资料,也不必有明珠蒙尘、美人迟暮的遗憾,果断的删除。
总之,资料收集的最终目的是方便我们的工作生活,入门很难,真的坚持做到了,也会觉得方便异常。
搜集资料的方法有哪些?网络搜索时要注意什么?
搜集资料的方法有:
1、阅读、笔记法。
通过阅读有关的文件、报刊、杂志、图书、资料等,从中筛选、获取所需的信息,并将其记录在笔记本上。这种方法是最常用也最实用的,可以不受网络等其他条件的限制。
如果缺少书籍、资料等,可以去借阅、也可以去购买。向一些权威机构、权威出版社或者新华书店等去借阅、购买,然后阅读并做笔记。
2、问卷调查法。
有些信息或资料是最新出现的或者没有固定的来源,无处可查找,那么,就可以采用问卷调查法来收集资料。
自己可以提前设计好问卷内容,以及问卷过程中所需要知道的相关信息,设置好问卷之后,可以打印出来,去找问卷对象填写,并收集起来分析。如果问卷对象离你太远,那就可以发起网上问卷,通过网络,让对方填写并提交。
3、实地考察法。
如果你要收集的资料,别人描述不清楚,也无法准确辨别,并且没有经验也找不到,那么,就需要你实地考察,实地收集了。
来到实地之后,可以通过详细观察,采集标本,实地分析推理,当面采访,面对面交谈,电话询问,向有经验者打听等方式,最终收集到自己所需要的资料。
4、查找文献法。
有些资料和信息,已经过去很久了或者在生活中很难去找到,那就需要你采用查找文献法了。到一些专业的或者大型的图书馆等地方。
去翻阅查找相关文献,包括图书、报刊、论文、科学报告、档案等书面印刷品,还包括文物、影片、录音录像带、幻灯片等形态的各种材料。查找到相关文献,并将有用资料记录下来或拍照保存,以备研究使用。
5、网上查阅法。
有些专业类的或稀缺性的资料,在生活中可能比较的难收集,那就需要利用网络资源,在网上查阅。找一些相关的网站去查阅,在不同的搜索引擎上进行搜索,找到相关的资料,立即进行复制、粘贴,或者下载、录音、拍照等,收集在自己的电脑上或者某个专门的文件夹之内。
6、实验研究法。
有些资料和信息,只有通过自己亲自去做实验,才能得到相应的数据和资料,那就只能采用实验研究法了。
网络搜索需要注意事项:
找准搜索平台:找寻正确的搜索大数据入口能得到海量内容。
组合搜索词:搜索的时候应将自己的搜索行为具体化,并加上具体要求和限定,通常搜索词决定搜出来结果的精确度。
相关搜索推荐:在搜索引擎的下拉框,输入词汇的时候,一般会有一些长尾词的推荐下拉框,若刚好有想要搜索的可以直接点击搜索。具有一定的指导性和参考性。
学会辨识标题:选择和你搜索的关键词匹配度最高的标题,同时也要观察搜索的结果。注意查看标题里面的内容描述是否相符,避免浪费时间和精力。
学会进行检索:一般网站的导航栏是有一定的提示作用,或者有些在右上角会有一个检索框,可以输入自己想要的进行检索。
搜索引擎历史
一、简述:"搜索引擎发展历史"
搜索引擎的发展史 1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System puting Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
Robot(机器人)一词对编程者有特殊的意义。puter Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。
ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程序工作原理作了些改进。
其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。
JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个索引Html文件正文的搜索引擎,也是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎。
Excite 的历史可以上溯到1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目Architext,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。
(注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile) 1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Tel搜索。
1994年4月,Stanford University的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo(Jerry Yang Alerts a Use group to the Yahoo Database ,1996年的Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Wanderer只抓取URL,但URL信息含量太小,很多信息难以单靠URL说清楚,搜索效率很低。
Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。(注:Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务;2002年10月9日,Yahoo放弃自己的网站目录默认搜索,改为默认Google的搜索结果,成为一个真正的搜索引擎。
并于2002年12月23日收购inktomi,于2003年7月14日收购包括Fast和Altavista在内的Overture) 1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(注:后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile) Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。
Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的。
二、简述:"搜索引擎发展历史"1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。 虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System puting Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
扩展资料 搜索引擎的作用 搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的 一个有效工具”。 高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。
1、从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用; 2、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销; 3、就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。 参考资料来源:百度百科-搜索引擎。
三、请讲一下搜索引擎的历史搜索引擎的发展历史 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。
当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。
用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。
所以,Archie被公认为现代搜索引擎的鼻祖。 Robot(机器人)一词对编程者有特殊的意义。
puter Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司。
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。 1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。
除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。 1994年底,Infoseek正式亮相。
其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。 1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。
用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。
1995年12月,DEC的正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如AND, OR, NOT等)。
用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。
AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。
它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。
1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。
声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。
1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop ,它有出色的Current News、7,100多出版物组成的Special Collection、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。
1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。
Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文。
四、搜索引擎发展历程1990年:第一个互联网上的搜索引擎Archie出现,用于搜索FTP服务器上的文件。
1993年:6月,第一个Web搜索引擎World Wide Web Wandere出现,它只用来收集网址。10月,第二个Web搜索引擎ALIWEB出现。开始索引标题标签等信息。
1994年:1月,早起最重要的搜索引擎之一Infoseek创立。(百度创始人李彦宏就是其核心工程师之一)
4月,雅虎Yahoo!创立。同月,第一个全文搜索引擎(索引文件全部内容)WebCrawler推出。
6月,Lycos创立。迅速成为最受欢迎的搜索引擎之一。
1995年:4月,雅虎Yahoo!正式成立。
12月,Infoseek成为网景浏览器的默认搜索引擎。同月,Alta Vista创立,迅速成为搜索引擎发展中最受欢迎的,堪称当时的谷歌Glloge。
1996年:4月,雅虎Yahoo!上市。
1997年:4月,Ask Jeeves上线,唯一一个至今仍真实存在并有一定市场份额的早起搜索引擎。
1998年:9月,谷歌Google正式成立。
1999年:6月,曾经流行一时的搜索引擎Infoseek消失。
2000年:1月18日:百度成立。
7月,雅虎Yahoo!使用谷歌Google搜索数据。
2001年:10月,百度作为搜索引擎正式上线。
2002年:3月,谷歌Google Ad 推出PPC形式,也就是按点击付费。
2003年:7月,雅虎Yahoo!将除了谷歌Google之外的几乎所有主流搜索技术收归旗下。2004年:8月,谷歌Google上市。
2005年:8月,百度上市。
2006年:9月,MSN网络品牌全部改为Live、并做了大量推广,Google仍然占最大地位。
2007年:3月,谷歌Google开始提供类似网站联盟的按转化付费的广告形式。
2009年:6月,微软Live Search 改名为必应(Bing)
7月29,雅虎Yahoo!被自己亲手培养的Google谷歌彻底打败在搜索引擎战场。
2010年:8月,Yahoo!雅虎开始使用必应Bing搜索数据。
2011年:2月,Google谷歌推出Panda更新,旨在减少搜索结果中低质量页面。对seo优化业绩影响深远。
2010年8月,NetMarketShare 统计数据,全球搜索引擎市场份额中谷歌Google占据.73,占世界绝对领先地位,百度由于中国搜索用户数量庞大,搜索量排在第三位。但是国外使用百度者很少。
五、搜索引擎发展史有哪些互联网历史:搜索引擎发展史(本文转自于:《新浪科技 @科技时代》) 1990年以前,没有任何人能搜索互联网。
所有搜索引擎的祖先,是1990年由Montreal的McGill University学生Alan Emtage、Peter Deutsch、Bill Wheelan发明的Archie(Archie FAQ)。当时World Wide Web还未出现。
Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。 Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告 你的网络游戏联盟 新浪点点通个性 *** sDIY 海纳百川 候车亭媒体 轻松填问卷开心拿大奖 诉用户哪一个FTP地址可以下载该文件。
由于Archie深受欢迎,受其启发,Nevada System puting Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider(Spider FAQ)程序。世界上第一个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。
刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。 与Wanderer相对应,1993年10月Martijn Koster创建了ALIWEB(Martijn Koster Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。
ALIWEB不使用网络搜寻Robot,如果网站主管们希望自己的网页被ALIWEB收录,需要自己提交每一个网页的简介索引信息,类似于后来大家熟知的Yahoo。 1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是:Scotland的JumpStation、Colorado 大学Oliver McBryan的The World Wide Web Worm(First Mention of McBryan's World Wide Web Worm)、NASA的Repository-Based Software Engineering (RBSE) spider。
1993年2月,6个Stanford(斯坦福)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。这就是Excite。
后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile 1994年1月,第一个既可搜索又可浏览的分类目录EINet Galaxy(Tradewave Galaxy)上线。除了网站搜索,它还支持Gopher和Tel搜索。
1994年4月,Stanford两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。
因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。搜索效率明显提高。
(Yahoo以后陆续使用Altavista、Inktomi、Google提供搜索引擎服务) 1994年初,Washington大学CS学生Brian Pinkerton开始了他的小项目WebCrawler(Brian Pinkerton Announces the Availability of Webcrawler)。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。
WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。(后来webcrawler陆续被AOL和Excite收购,现在和excite一样改用元搜索引擎Dogpile) Lycos(Carnegie Mellon University Center for Machine Translation Announces Lycos )是搜索引擎史上又一个重要的进步。
Carnegie Mellon University的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。1994年7月20日,数据量为54,000的Lycos正式发布。
除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量:1994年8月--394,000 documents;1995年1月--1.5 million documents;1996年11月--over 60 million documents。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服务) Infoseek(Steve Kirsch Announces Free Demos Of the Infoseek Search Engine)是另一个重要的搜索引擎,虽然公司声称1994年1月已创立,但直到年底它的搜索引擎才与公众见面。
起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它的发展史和后来受到的众口称赞证明,起初第一个登台并不总是很重要。
Infoseek友善的用户界面、大量附加服务(such as UPS tracking, News, a directory, and the like) 使它声望日隆。而1995年12月与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。
(注:Infoseek后来曾以相关性闻名,2001年2月,Infoseek停止了自己的搜索引擎,开始改用Overture的搜索结果) 1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索。
搜索引擎是如何搜索到信息
随着互联网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找自己所需的信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。搜索引擎是指互联网上专门提供检索服务的一类网站,这些站点的服务器通过网络搜索软件(例如网络搜索机器人)或网络登录等方式,将Intemet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库,从而对用户提出的各种检索作出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索(如企业、人名、电话黄页等)。下面以网络搜索机器人为例来说明搜索引擎技术。
1.网络机器人技术
网络机器人(Robot)又被称作Spider、Worm或Random,核心目的是为获取Intemet上的信息。一般定义为“一个在网络上检索文件且自动跟踪该文件的超文本结构并循环检索被参照的所有文件的软件”。机器人利用主页中的超文本链接遍历WWW,通过U趾引用从一个HT2LIL文档爬行到另一个HTML文档。网上机器人收集到的信息可有多种用途,如建立索引、HIML文件合法性的验证、uRL链接点验证与确认、监控与获取更新信息、站点镜像等。
机器人安在网上爬行,因此需要建立一个URL列表来记录访问的轨迹。它使用超文本,指向其他文档的URL是隐藏在文档中,需要从中分析提取URL,机器人一般都用于生成索引数据库。所有WWW的搜索程序都有如下的工作步骤:
(1)机器人从起始URL列表中取出URL并从网上读取其指向的内容;
(2)从每一个文档中提取某些信息(如关键字)并放入索引数据库中;
(3)从文档中提取指向其他文档的URL,并加入到URL列表中;
(4)重复上述3个步骤,直到再没有新的URL出现或超出了某些限制(时间或磁盘空间);
(5)给索引数据库加上检索接口,向网上用户发布或提供给用户检索。
搜索算法一般有深度优先和广度优先两种基本的搜索策略。机器人以URL列表存取的方式决定搜索策略:先进先出,则形成广度优先搜索,当起始列表包含有大量的WWW服务器地址时,广度优先搜索将产生一个很好的初始结果,但很难深入到服务器中去;先进后出,则形成深度优先搜索,这样能产生较好的文档分布,更容易发现文档的结构,即找到最大数目的交叉引用。也可以采用遍历搜索的方法,就是直接将32位的IP地址变化,逐个搜索整个Intemet。
搜索引擎是一个技术含量很高的网络应用系统。它包括网络技术、数据库技术动标引技术、检索技术、自动分类技术,机器学习等人工智能技术。
2.索引技术
索引技术是搜索引擎的核心技术之一。搜索引擎要对所收集到的信息进行整理、分类、索引以产生索引库,而中文搜索引擎的核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为自动索引做好准备。目前的索引多采用Non—clustered方法,该技术和语言文字的学问有很大的关系,具体有如下几点:
(1)存储语法库,和词汇库配合分出句子中的词汇;
(2)存储词汇库,要同时存储词汇的使用频率和常见搭配方式;
(3)词汇宽,应可划分为不同的专业库,以便于处理专业文献;
(4)对无法分词的句子,把每个字当作词来处理。
索引器生成从关键词到URL的关系索引表。索引表一般使用某种形式的倒排表(1nversionUst),即由索引项查找相应的URL。索引表也要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻关系或接近关系,并以特定的数据结构存储在硬盘上。
不同的搜索引擎系统可能采用不尽相同的标引方法。例如Webcrawler利用全文检索技术,对网页中每一个单词进行索引;Lycos只对页名、标题以及最重要的100个注释词等选择性词语进行索引;Infoseek则提供概念检索和词组检索,支持and、or、near、not等布尔运算。检索引擎的索引方法大致可分为自动索引、手工索引和用户登录三类。
3. 检索器与结果处理技术
检索器的主要功能是根据用户输入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的方法是按网页的重要性或相关性给网页评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。能见度也是常用的衡量标准之一。一个网页的能见度是指该网页入口超级链接的数目。能见度方法是基于这样的观点:一个网页被其他网页引用得越多,则该网页就越有价值。特别地,一个网页被越重要的网页所引用,则该网页的重要程度也就越高。结果处理技术可归纳为:
(1)按频次排定次序 通常,如果一个页面包含了越多的关键词,其搜索目标的相关性应该越好,这是非常合平常理的解决方案。
(2)按页面被访问度排序 在这种方法中,搜索引擎会记录它所搜索到的页面被访问的频率。人们访问较多的页面通常应该包含比较多的信息,或者有其他吸引入的长处。这种解决方案适合一般的搜索用户,而因为大部分的搜索引擎都不是专业性用户,所以这种方案也比较适合一般搜索引擎使用。
(3)二次检索 进一步净化(比flne)结果,按照一定的条件对搜索结果进行优化,可以再选择类别、相关词进行二次搜索等。
由于目前的搜索引擎还不具备智能,除非知道要查找的文档的标题,否则排列第一的结果未必是“最好”的结果。所以有些文档尽管相关程度高,但并不一定是用户最需要的文档。
搜索引擎技术的行业应用:
搜索引擎的行业应用一般指类似于千瓦通信提供的多种搜索引擎行业与产品应用模式,大体上分为如下几种形式:
1、 政府机关行业应用
n 实时跟踪、采集与业务工作相关的信息来源。
n 全面满足内部工作人员对互联网信息的全局观测需求。
n 及时解决政务外网、政务内网的信息源问题,实现动态发布。
n 快速解决政府主网站对各地级子网站的信息获取需求。
n 全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
n 节约信息采集的人力、物力、时间,提高办公效率。
2、企业行业应用
n 实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。
n 及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。
n 为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。
n 大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。
n 提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,是提高企业核心竞争力的神经中枢。
3、新闻媒体行业应用
n 快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。
n 支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。
n 支持对所需内容智能提取、审核。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
4、 行业网站应用
n 实时跟踪、采集与网站相关的信息来源。
n 及时跟踪行业的信息来源网站,自动,快速更新网站信息。动态更新信息。
n 实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。
n 针对商务网站提出商务管理模式,大大提高行业网站的商务应用需求。
n 针对资讯网站分类目录生成,提出用户生成网站分类结构。并可以实时增加与更新分类结构。不受级数限制。从而大大利高行业的应用性。
n 提供搜索引擎SEO优化专业服务,快速提高行业网站的推广。
n 提供与CCDC呼叫搜索引擎的广告合作。建立行业网站联盟,提高行业网站知名度。
5) 网络信息监察与监控
n 网络舆情系统。如“千瓦通信-网络舆情雷达监测系统”
n 网站信息与内容监察与监控系统,如“千瓦通信-网站信息与内容监测与监察系统(站内神探)”
随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就象大海捞
针一样,搜索引擎技术恰好解决了这一难题(它可以为用户提供信息检索服务)。目前,
搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。
搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来
的技术。据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前
的网页超过8亿,有效数据超过9T,并且仍以每4个月翻一番的速度增长。用户要在如此浩
瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航
"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解
、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。搜索引擎提供
的导航服务已经成为互联网上非常重要的网络服务,搜索引擎站点也被美誉为"网络门户"
。搜索引擎技术因而成为计算机工业界和学术界争相研究、开发的对象。本文旨在对搜索
引擎的关键技术进行简单的介绍,以起到抛砖引玉的作用。
分 类
按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类:
1.目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人
工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏
览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高
,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是
:Yahoo、LookSmart、Open Directory、Go Guide等。
2.机器人搜索引擎:由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互
联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输
入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜
索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关
信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Ligh
t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:"天网"、悠游、O
penFind等。
3.元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜
索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用
户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更
全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引
擎的代表是WebCrawler、InfoMarket等。
性 能 指 标
我们可以将WEB信息的搜索看作一个信息检索问题,即在由WEB网页组成的文档库中检索
出与用户查询相关的文档。所以我们可以用衡量传统信息检索系统的性能参数-召回率(R
ecall)和精度(Pricision)衡量一个搜索引擎的性能。
召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系
统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量
的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全
其美:召回率高时,精度低,精度高时,召回率低。所以常常用11种召回率下11种精度的
平均值(即11点平均精度)来衡量一个检索系统的精度。对于搜索引擎系统来讲,因为没
有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系
统都非常关心精度。
影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询
的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相
关度反馈的机制。
主 要 技 术
一个搜索引擎由搜索器、索引器、检索器和用户接口等四个部分组成。
1.搜索器
搜索器的功能是在互联网中漫游,发现和搜集信息。它常常是一个计算机程序,日夜
不停地运行。它要尽可能多、尽可能快地搜集各种类型的新信息,同时因为互联网上的信
息更新很快,所以还要定期更新已经搜集过的旧信息,以避免死连接和无效连接。目前有
两种搜集信息的策略:
● 从一个起始URL集合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深
度优先或启发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常
是一些非常流行、包含很多链接的站点(如Yahoo!)。
● 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽
搜索。 搜索器搜集的信息类型多种多样,包括HTML、XML、Newsgroup文章、FTP文件、
字处理文档、多媒体信息。 搜索器的实现常常用分布式、并行计算技术,以提高信息
发现和更新的速度。商业搜索引擎的信息发现可以达到每天几百万网页。
2.索引器
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生
成文档库的索引表。
索引项有客观索引项和内容索引项两种:客观项与文档的语意内容无关,如作者名、
URL、更新时间、编码、长度、链接流行度(Link Popularity)等等;内容索引项是用来
反映文档内容的,如关键词及其权重、短语、单字等等。内容索引项可以分为单索引项和
多索引项(或称短语索引项)两种。单索引项对于英文来讲是英语单词,比较容易提取,
因为单词之间有天然的分隔符(空格);对于中文等连续书写的语言,必须进行词语的切
分。 在搜索引擎中,一般要给单索引项赋与一个权值,以表示该索引项对文档的区分
度,同时用来计算查询结果的相关度。使用的方法一般有统计法、信息论法和概率法。短
语索引项的提取方法有统计法、概率法和语言学法。
索引表一般使用某种形式的倒排表(Inversion List),即由索引项查找相应的文档
。索引表也可能要记录索引项在文档中出现的位置,以便检索器计算索引项之间的相邻或
接近关系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。当数据量很大时,必须实现即时
索引(Instant Indexing),否则不能够跟上信息量急剧增加的速度。索引算法对索引器
的性能(如大规模峰值查询时的响应速度)有很大的影响。一个搜索引擎的有效性在很大
程度上取决于索引的质量。
3.检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与
查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。
检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型四种。
4.用户接口
用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要的
目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。
用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。
用户输入接口可以分为简单接口和复杂接口两种。
简单接口只提供用户输入查询串的文本框;复杂接口可以让用户对查询进行限制,如
逻辑运算(与、或、非;+、-)、相近关系(相邻、NEAR)、域名范围(如.edu、.com)
、出现位置(如标题、内容)、信息时间、长度等等。目前一些公司和机构正在考虑制定
查询选项的标准。
未 来 动 向
搜索引擎已成为一个新的研究、开发领域。因为它要用到信息检索、人工智能、计算
机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和
技术,所以具有综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所
以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃,
并出现了很多值得注意的动向。
1.十分注意提高信息查询结果的精度,提高检索的有效性 用户在搜索引擎上进行
信息查询时,并不十分关注返回结果的多少,而是看结果是否和自己的需求吻合。对于一
个查询,传统的搜索引擎动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解
决查询结果过多的现象目前出现了几种方法:一是通过各种方法获得用户没有在查询语句
中表达出来的真正用途,包括使用智能代理跟踪用户检索行为,分析用户模型;使用相关
度反馈机制,使用户告诉搜索引擎哪些文档和自己的需求相关(及其相关的程度),哪些
不相关,通过多次交互逐步求精。二是用正文分类(Text Categorization)技术将结果分
类,使用可视化技术显示分类结构,用户可以只浏览自己感兴趣的类别。三是进行站点类
聚或内容类聚,减少信息的总量。
2.基于智能代理的信息过滤和个性化服务
信息智能代理是另外一种利用互联网信息的机制。它使用自动获得的领域模型(如We
b知识、信息处理、与用户兴趣相关的信息资源、领域组织结构)、用户模型(如用户背景
、兴趣、行为、风格)知识进行信息搜集、索引、过滤(包括兴趣过滤和不良信息过滤)
,并自动地将用户感兴趣的、对用户有用的信息提交给用户。智能代理具有不断学习、适
应信息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可以在用户端进行
,也可以在服务器端运行。
3.采用分布式体系结构提高系统规模和性能
搜索引擎的实现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。但
当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某种分布式方法,以提高
系统性能。搜索引擎的各个组成部分,除了用户接口之外,都可以进行分布:搜索器可以
在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度;索引器可
以将索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在不同的机器上.
搜索引擎的发展史
搜索引擎的发展史和应用
1990年以前,没有任何人能搜索互联网.
1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie.当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源.Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件. 用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件.虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源,建立索引,提供检索服务.所以,Archie被公认为现代搜索引擎的鼻祖.
Robot(机器人)一词对编程者有特殊的意义.Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序.由于专门用于检索信息的Robot程序象蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序.
1993年Matthew Gray开发了 World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的"机器人(Robot)"程序.开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL).
1994年4月,斯坦福大学(Stanford University)的两名博士生,美籍华人Jerry Yang(杨致远)和David Filo共同创办了Yahoo.随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索.因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录.雅虎于2002年12月23日收购inktomi,2003年7月14日收购包括Fast和 Altavista在内的Overture,2003年11月,Yahoo全资收购3721公司.
1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler.1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容.WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字.
1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos.除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量.
1994年底,Infoseek正式亮相.其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表.
1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup).用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果, 集中起来处理后再返回给用户.第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.
1995年12月,DEC的正式发布AltaVista.AltaVista是第一个支持自然语言搜索的搜索引擎,第一个实现高级搜索语法的搜索引擎(如 AND, OR, NOT等).用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字,搜索 Titles,搜索Java applets,搜索ActiveX objects.AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线.AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站.在面向用户的界面上,AltaVista也作了大量革新.它在搜索框区域下放了"tips"以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能.这系列功能,逐渐被其它搜索引擎广泛采用.1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的.
1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前.声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容.HotBot也大量运用cookie储存用户的个人搜索喜好设置.
1997年8月,Northernlight搜索引擎正式现身.它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News,7,100多出版物组成的Special Collection,良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类.
1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub.1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的共同参与下,BachRub开始提供Demo.1999年2月,Google完成了从Alpha版到Beta版的蜕变.Google公司则把1998年9月27日认作自己的生日.Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性大大增强.Google公司的奇客(Geek)文化氛围,不作恶(Don't be evil)的理念,为Google赢得了极高的口碑和品牌美誉.2006年4月,Google宣布其中文名称"谷歌",这是Google第一个在非英语国家起的名字.
Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品.1999年5月,发布了自己的搜索引擎 AllTheWebi.Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之.Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索,图像搜索,视频,MP3,和FTP搜索,拥有极其强大的高级搜索功能.(2003年 2月25日,Fast的互联网搜索部门被Overture收购).
1996年8月,sohu公司成立,制作中文网站分类目录,曾有"出门找地图,上网找搜狐"的美誉.随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应.sohu于2004年8月独立域名的搜索网站"搜狗",自称"第三代搜索引擎".
Openfind 创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室.Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪,奇摩,雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分.2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域.
2000年1月,两位北大校友,超链分析专利发明人,前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度 (Baidu)公司.2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索.Baidu搜索引擎的其它特色包括:百度快照,网页预览/预览全部网页,相关搜索词,错别字纠正提示,mp3搜索,Flash搜索.2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快.后推出贴吧,知道,地图,国学,百科等一系列产品,深受网民欢迎.2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU.开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录.
2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索.2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway) .
2005年6月,新浪正式推出自主研发的搜索引擎"爱问".
搜 索 引 擎 分 类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine),目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine).
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,国内著名的有百度(Baidu). 它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎.
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称"蜘蛛"(Spider)程序或"机器人" (Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎.
目录索引
目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已.用户完全可以不用进行关键词(Keywords) 查询,仅靠分类目录也可找到需要的信息.目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎.其他著名的还有Open Directory Project(DMOZ),LookSmart,About等.国内的搜狐,新浪,网易搜索也都属于这一类.
元搜索引擎
元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户.著名的元搜索引擎有 InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎.在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo.
除上述三大类引擎外,还有集合式搜索引擎,门户搜索引擎,免费链接列表等几种非主流形式:
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎.
几种搜索引擎的特点
百度搜索引擎的特点
百度搜索引擎使用了高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制,高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息.百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆,香港,台湾,澳门,新加坡等华语地区以及北美,欧洲的部分站点.百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长.由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒.
它主要具有以下的特点和功能:
1)基于字词结合的信息处理方式.
2)支持主流的中文编码标准.
3)智能相关度算法.
4)检索结果能标示丰富的网页属性(如标题,网址,时间,大小,编码,摘要等),并突出用户的查询串,便于用户判断是否阅读原文.
5)百度搜索支持二次检索(又称渐进检索或逼进检索).
6)相关检索词智能推荐技术.
7)运用多线程技术,高效的搜索算法,稳定的UNIX平台,和本地化的服务器,保证了最快的响应速度.
8)可以提供一周,二周,四周等多种服务方式.可以在7天之内完成网页的更新,是目前更新时间最快,数据量最大的中文搜索引擎.
9)检索结果输出支持内容类聚,网站类聚,内容类聚+网站类聚等多种方式.
10)智能性,可扩展的搜索技术保证最快最多的收集互联网信息.
11)分布式结构,精心设计的优化算法,容错设计保证系统在大访问量下的高可用性,高扩展性,高性能和高稳定性.
12)高可配置性使得搜索服务能够满足不同用户的需求.
13)先进的网页动态摘要显示技术.
14)独有百度快照.
15)支持多种高级检索语法,使用户查询效率更高,结果更准.
Google搜索引擎特点
Google搜索引擎是一个利用蜘蛛程序(Spider)以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服的互联网信息查询系统.
它主要具有以下的特点和功能:
1)采用了先进的网页级别(PageRankTM)技术.
2)在同一个界面下,用户可以定制语言和到何种网站中进行搜索.
3)具有超链分析的功能.
4)遵从关键字的相对位置.
5)提升了中文搜索引擎的相关性,而且更好地实现了检索字串与网页中文字的语义上的匹配.
搜狐搜索引擎的特点
搜狐网站的内容丰富多彩,与我们的生活联系十分紧密.搜狐分层目录是专为中国用户设计的高质量的分类目录系统,把超过15万个精选的中文站点链接归为18个大类,如:娱乐,计算机与互联网,工商经济,科学,艺术,文学,生活服务,科学技术,政治法律等等.而有价值的用户往往只关心自己需要的专门信息.所以我们在每个最初目录下,都建立全面丰富的目录树系统,构成了四通八达的信息高速公路,方便迅速地把您带到目的地.分层目录系统不仅使用户找到最需要的专门信息,也使广告客户更便捷地找到特定的用户群,达到最佳的宣传效果.在搜狐分层目录之外,还同时设立了七项搜狐频道:搜狐新闻,财经报道,搜狐体育,网猴, 多媒体,外国资源,搜狐社区.
它主要具有以下的特点和功能:
1)最先进的人工分类技术;2)友好的全中文界面;3)符合中文语言文化习惯;4)18个部类,近15万条链接构成的树杈型网页结构;5)最直观,最轻松为网上用户提供所需要的内容.
北大天网搜索引擎的特点
北大天网收录 135 万网页和 9 万新闻组文章,更新较快;功能规范;反馈内容完整,包括网页标题,日期,长度和代码;可在反馈结果中进一步检索;支持电子邮件查询.无分类查询.另提供北京大学,中国科院等FTP站点的检索.
它主要具有以下的特点和功能:
1)在语种上支持中英文搜索.国内大部分的搜索引擎都只收录中文网站,用来查找国内的英文网站.
2)在文件格式上即支持www文件传输格式,也支持FTP文件传输格式.天网将FTP文件分成电影,动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件.
如何使用搜索引擎
搜索引擎可以帮助您在Internet上找到特定的信息,但它们同时也会返回大量无关的信息.如果您多使用一些下面介绍的技巧,将发现搜索引擎会花尽可能少的时间找到您需要的确切信息.
在类别中搜索
许多搜索引擎(如Yahoo!)都显示类别,如计算机和Internet,商业和经济.如果您单击其中一个类别,然后再使用搜索引擎,您将可以选择搜索整个Internet还是搜索当前类别.显然,在一个特定类别下进行搜索所耗费的时间较少,而且能够避免大量无关的Web站点.
当然,您或许还想搜索整个Internet,以搜索特定类别之外的信息.
使用具体的关键字
如果想要搜索以鸟为主题的Web站点,您可以在搜索引擎中输入关键字"bird".但是,搜索引擎会因此返回大量无关信息,如谈论羽毛球的"小鸟球 (birdie)"或烹饪game birds不同方法的Web站点.为了避免这种问题的出现,请使用更为具体的关键字,如"ornithology"(鸟类学,动物学的一个分支).您所提供的关键字越具体,搜索引擎返回无关Web站点的可能性就越小.
使用多个关键字
您还可以通过使用多个关键字来缩小搜索范围.例如,如果想要搜索有关佛罗里达州迈阿密市的信息,则输入两个关键字"Miami"和"Florida".如果只输入其中一个关键字,搜索引擎就会返回诸如Miami Dolphins足球队或Florida Marlins棒球队的无关信息.一般而言,您提供的关键字越多,搜索引擎返回的结果越精确.
使用布尔运算符
许多搜索引擎都允许在搜索中使用两个不同的布尔运算符:AND和OR.如果您想搜索所有同时包含单词"hot"和"dog"的Web站点,只需要在搜索引擎中输入如下关键字:
hot AND dog
搜索将返回以热狗(hot dog)为主题的Web站点,但还会返回一些奇怪的结果,如谈论如何在一个热天(hot day)让一只狗(dog)凉快下来的Web站点.
如果想要搜索所有包含单词"hot"或单词"dog"的Web站点,您只需要输入下面的关键字:
hot OR dog
搜索会返回与这两个单词有关的Web站点,这些Web站点的主题可能是热狗(hot dog),狗,也可能是不同的空调在热天(hot day)使您凉爽,辣酱(hot chilli sauces)或狗粮等.
留意搜索引擎返回的结果
搜索引擎返回的Web站点顺序可能会影响人们的访问,所以,为了增加Web站点的点击率,一些Web站点会付费给搜索引擎,以在相关Web站点列表中显示在靠前的位置.好的搜索引擎会鉴别Web站点的内容,并据此安排它们的顺序,但其他搜索引擎大概不会这么做.
此外,因为搜索引擎经常对最为常用的关键字进行搜索,所以许多Web站点在自己的网页中隐藏了同一关键字的多个副本.这使得搜索引擎不再去查找Internet,以返回与关键字有关的更多信息.
正如读报纸,听收音机或看电视新闻一样,请留意您所获得的信息的来源.搜索引擎能够帮您找到信息,但无法验证信息的可靠性.因为任何人都可以在网上发布信息.
什么是搜索引擎、它是在什么背景下产生的、搜索引擎的发展历史、最早的搜索引擎是哪一个、出现的时间?
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。
互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。 1990年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出Archie。当时,万维网(World Wide Web)还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。
所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。
相关推荐: