五步陷阱泡男人:网络搜索引擎

来源:百度文库 编辑:中财网 时间:2024/05/09 12:18:15
第一节 搜索引擎概述
第二节 常用的英文搜索引擎
第三节 常用的中文搜索引擎
第四节 多元搜索引擎
搜索引擎是定期对网络信息进行收集、整理并提供查询的计算机工具,其拥有自己独有的搜索软件、数据库和查询系统。搜索引擎提供多种形式的信息搜索服务,包括网站、网页、新闻、图像、声音、讨论组、FTP、电话号码、邮件地址等等,搜索结果列出包含所需信息的网址列表,有的搜索引擎还提供网页文档的全文。
一、搜索引擎的起源和类型
从80年代Internet商业化以来,网络发展历经了三个时期,网络搜索工具也随之发展着变化,从最早的Archie到Gopher从而发展到现在的搜索引擎,目前,Internet的资源以WWW超文本信息内容最为丰富,因此WWW网络搜索工具的开发成为近年来网络发展的热点,对于网络搜索工具的分类有许多角度和标准,一般有如下分类:
(一)目录型搜索引擎
信息工作人员采用人工分类方法按照主题分类体系编制的一种可供检索的等级结构式目录。每个目录下包含子类,子类下提供相应的网络资源站点地址,并给以简单的描述,用户可以通过浏览的方式,在目录结构体系的导引下,查找、检索到有关的信息。由于目录型搜索引擎是经过专业信息人员的人工设计和编制的,所收录的信息资源经过了专业的鉴别,选择和组织。保证了检索的质量,检索返回不准确检索结果的可能性降低了,提高了检索的准确性。也正因为如此,目录型搜索引擎在信息的鉴别、选择、收集、编排和注释标引等方面花费了大量的人力和时间,其更新及维护的速度会受到限制,导致新颖性不够,而对用户而言,必须对搜索引擎的分类体系有一定了解,否则也会影响检索的质量。目录型搜索引擎适合查找综合性、概括性的主题概念,或对检索准确度要求较高的信息。
(二)索引型搜索引擎
索引型搜索引擎是利用网络自动搜索技术,对各种网络信息资源进行标引,并为检索者提供检索的工具。其使用一种智能软件来自动查找、收集并标引网页,建立数据库,以Web形式提供给用户检索界面,供用户输入关键词、短语或词组等检索项进行检索。索引型搜索引擎由于是采用自动软件生成数据库,收录加工信息的范围广、速度快,能及时向用户提供新增信息。与目录型搜索引擎相比,索引型搜索引擎更突出的是检索功能,用户在检索时直接输入关键词,而非目录型搜索引擎那样需要判断所属类目去进行浏览,但由于标引过程中缺乏人工干预,准确性较差,在检索中虽一次输入结果可能很多,而检索的误差也较大,会包含重复和虚假的信息。比较而言,索引型搜索引擎更适合于检索较专、深的特定信息或者类属不太明显的信息。
(三)多元搜索引擎
Internet网络搜索引擎可分为单一搜索引擎和多元搜索引擎,我们前面所述的目录型搜索引擎与索引型搜索引擎都属于单一搜索引擎,它们都有自己的数据库,所覆盖的学科领域、资源类型等等都不同,同样的检索提问在不同的搜索引擎会产生不同的检索结果。而元搜索引擎是指在查询时要调用其他多个独立的搜索引擎的检索工具,它将多个搜索引擎集成在一起,提供一个统一的检索界面,并将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,再经过聚合、去重之后输出检索结果。其本身不一定有数据库。与独立搜索引擎最大的区别在于:可以同时使用多个搜索引擎进行查询,这也是元搜索引擎的最大优点,不用就同一提问一次次访问多个搜索引擎即可实现检索目的,检索的综合性、全面性也有所提高。其工作方式又分为串行处理和并行处理。
值得注意的是,随着搜索引擎的不断发展,上述三种搜索引擎中的目录型搜索引擎和索引型搜索引擎之间的界限变得越来越模糊。目前互联网上的大部分搜索引擎都可以同时提供两种方式的检索,其都将目录型工具的组织、导引功能与搜索引擎的检索功能更好的结合起来。这种将网络资源主题指南和索引双重结合起来的混合型检索工具代表了网络检索工具的发展趋势。如:著名的目录型检索工具Yahoo!曾与搜索引擎的典型代表AltaVista相挂接,当检索提问Yahoo!的分类目录指南数据库中未找到相关的记录时,可自动转向AltaVista的索引数据库中继续检索,并将有关的结果提供给用户,从而加强了Yahoo!的检索功能。而其它一些著名的搜索引擎如Exite 、Lycos等也在提供索引服务的基础上,增设了各种形式的主题分类目录。这种发展趋势使得用户在使用的时候已分辨不清上述两种检索工具的区别,因此我们也统称其为搜索引擎。在此基础上,我们可根据语种将搜索引擎分为中文搜索引擎和英文搜索引擎,本章对搜索引擎的介绍也从英文和中文两种类型进行分别进行。对于多元搜索引擎将单独介绍。
二、搜索引擎的工作原理
搜索引擎的工作由两部分组成:信息的收集处理和信息的查询输出。
(一)信息的搜集处理
搜索引擎对信息的搜集是定期进行的,收集的信息主要是互联网上的网站,也包括FTP和Gopher站点。Internet上有上千万个这样的站点,要从中收集各种信息并且对这些信息进行处理,用手工方法是难以实现的。这里需要指出的是,目录型搜索引擎的最早是采用人工方式采集和存储网络信息。这种方式在信息的准确性方面优于自动方式,但收集信息的效率及全面性低于自动方式,随着搜索引擎的不断发展,目前很多目录型搜索引擎也已经采用自动功能来采集和丰富信息来源。
索引型搜索引擎的网络信息的搜集主要是依靠网络自动索引技术来实现的。每个搜索引擎都有自己的搜索工具,如Exite使用一种名为“蜘蛛”(Spider)的搜索工具,Altavista则使用全自动漫游机器人(Automated Robot Wanders)收集信息。这些工具日夜不停的穿梭于Internet中读取网页信息,并将读取的数据带回系统中进行处理。它们通常从现有的URL或人工采集的URL为起点,通过网页上的链接自动搜索,找到一个文件后则分析它的HTML题目、全文和链接点,并利用他们作为寻找新的URL的起点,如此反复不停的进行信息的采集。
而对于多元搜索引擎来说,在前面的介绍中我们已经知道其并没有自身的数据库,它的信息来源是由其可检索的多个搜索引擎来决定的。从某种意义上说,多元搜索引擎更侧重于检索。
(二)信息的查询和输出
在对收集回来的信息进行一系列的判断、选择、标引、加工、分类、索引等处理之后,就形成了可以供用户检索用的数据库,并以Web形式向用户提供检索。单一搜索引擎都有自己独特的数据库和检索系统,有的仅要求输入关键词检索,而有的则使用查询菜单提供选择以优化查询。这些检索系统有自己独有的检索句法,用户根据自己的要求,按照该检索系统的句法要求,通过检索界面输入想要查找的检索项、提问式,检索软件在接受用户的检索式后,按本系统的句法规定对其进行识别和判定,在数据库中查找检索结果,并对检索结果进行评估与比较,按相关程度排序后提供给用户。多元搜索引擎自身是没有数据库的,它是将多个搜索引擎集成在一起,提供一个统一的检索界面,多元搜索引擎在检索提问式时,是将该检索式转换为每个引擎的检索句法,或者是以“相当于(as is)”直接传送给目标引擎,同时对多个数据库来进行检索,并对检索结果进行聚合、去重之后输出给用户,其检索结果按相关的搜索引擎排序,即将各搜索引擎的查找结果合并,并报告与结果相对的搜索引擎名称。
三、搜索引擎的检索语言和选项
搜索引擎的检索实际上是一种数据库检索,对于单一型搜索引擎来说,它们都有自己的数据库,其检索就是对数据库的检索,而多元搜索引擎虽然没有自身的数据库,但其检索的对象也是各单一搜索引擎的数据库。因此,搜索引擎与也能提供一般数据库所支持的检索功能,如关键检索、布尔逻辑检索、主题检索、字段检索等等。同时,在Internet上的上千个搜索引擎中,检索功能在各个搜索引擎中的表现并非是完全一致的,同一种检索功能在各个不同的搜索引擎中表现也不完全一致,这些检索功能在各搜索引擎中受支持的程度也不同。
(一)检索语言
1. 关键词检索
几乎所有的搜索引擎都支持关键词检索。关键词并非是指一个单词,而是指能表达一个主题的单词或短语,如music video和music都可以作为关键词。关键词检索的具体过程为:当输入检索词后,搜索引擎会在其数据库中查找与该词相同的字串,并将含有该字串的结果列出。
2. 自然语言检索
按自然语言习惯输入查询条件,不用考虑搜索语法就能查到所需的信息,使用方便。如:输入“How can I learn how to play blues guitar ?”这样的检索提问,搜索引擎就会自动去掉无意义的词进行检索,支持这种检索语言的搜索引擎有Webcrawler、AlataVista 。
3. 主题语言检索
可对信息按照主题进行分类查询。如:Yahoo!就是一个分类主题索引。
4. 概念检索
概念检索主要是指同义和近义词检索,它不只是简单地查找含有搜索词的结果,同时还检索与搜索词概念相关的结果。在查找“Internet”这一概念时,使用“WWW”、“Web”也能达到检索目的。使用概念检索能扩大检索范围,提高查全率。如:Hotbot就支持概念检索。
(二)检索选项
1. 布尔逻辑选项
大部分搜索引擎都支持常见的三种布尔逻辑运算符AND,OR,NOT,其中,AND和OR在搜索引擎中的支持程度最高,目前几乎所有的搜索引擎都支持这两个算符。如:Infoseek、AlataVista、Exite、Hotbot这几种搜索引擎都完全支持全部三种运算。也有部分搜索引擎仅支持前两种运算,如:Yahoo!搜索引擎就不支持NOT运算。同时,搜索引擎支持的方式也有不同,有的可直接使用AND、OR、NOT进行检索,也有搜索引擎使用对应的+、*、-- 来进行运算,还有些搜索引擎则使用菜单的方式来实现运算,如:Hotbot提供了两个菜单项“All the words”和“Any of the words”分别代表AND和OR ,国内的天网搜索引擎的“精确匹配”和“模糊匹配”原理也与此相似。
2. 截词检索项
截词检索也是数据库检索中常用的方法,在搜索引擎中,目前多提供的是右截词,具体对应的符号也是不同的,较普遍的是“*”和“?”。前者代表多个字符,使用较广泛,绝大多数搜索引擎都支持该功能。后者代表一个字符,有少量搜索引擎支持。
3. 特定栏位选项
搜索引擎的特定栏位选项跟一般数据库检索中的限定检索类似,它是指在检索时指定查询的栏位以缩小检索范围。用户在检索时可以把检索范围限定在标题、关键词等选项上。此外,搜索引擎还提供其独有的网络方面的栏位限定选项:URL地址、主机名HOST、超文本链接点LINK、新闻组NEWSGROUP、电子邮件EMAIL和网页文档等。如:输入.com可查找商业类站点,输入t:game则可查找网页文档标题中含有game的结果。使用该检索可以提高检索的准确度,增加相关性。目前能提供限制检索功能的AltaVista,Lycos和Hotbot等。
4. 大小写匹配
用来决定是否查找与您输入关键词大小写完全匹配的结果。有助于提高查询准确度。许多搜索引擎都将检索预设为分辨大小写,如AltaVista、Infoseek、Hotbot 。
搜索引擎发展至今,数量已经非常之多,目前,国内外的英文和中文搜索引擎层出不穷,这些搜索引擎在收录范围、检索功能等方面各具特色。根据前面对搜索引擎的分类,本章将对现阶段较常用的英文搜索引擎做逐一的介绍。
一、目录型英文搜索引擎
(一)Yahoo!搜索引擎
1. 主页网址;http://www.yahoo.com
Yahoo!是WWW网上最著名的搜索引擎之一,创立于1994年,创立者是美国斯坦福大学的杨致远和David Filo。它也是优秀的主题浏览工具,对网络信息按照主题建立分类。共收录50多万条站点信息,分散在2.5万个主题中。
图3-1 Yahoo!主页
2. 检索功能
(1)检索途径
Yahoo!的搜索分为一般检索和高级检索(Advanced Search)。一般检索包括分类主题检索和关键词检索,高级检索界面仅提供关键词检索。
分类主题浏览
Yahoo! 的创建原理以主题为基础,分类主题目录是其最大的特点,作为目录型搜索工具的典范,Yahoo!在主题分类、目录结构方面具有代表性。它将网络资源按内容分为14个大类,包括艺术与人类、新闻媒体、商业经济、计算机与互联网、教育、社会科学、健康、参考消息、医疗卫生、运动休闲等。每个总类下又链接多个小类,逐级链接,最后与网页、新闻组等相连接。用户可以借助高质量的主题分类目录,选择自己所需要的主题类目,通过点击超级链接进入各层,从而找到需要的信息。
如:要检索关于Music video的信息。进行主题检索的步骤为:在主题分类中点击Entertainment进入该类——>在第二层目录中发现有Music Video子类,选择该子类进入———>进入该类后显示为所有关于Music Video的相关链接,检索完毕。
Yahoo!正是通过这种目录组织方式,使得用户可以通过分类目录按主题逐步深入,知道直到找到所需要的信息的URL。
­关键词检索
Yahoo!在主页面的总类和每个子类中都设置有检索框,提供除了分类主题目录浏览以外的关键词检索。用户可以分别使用两种检索途径,也可以将两者结合起来使用。关键词检索也分为两种方式,一是在每级类目下提供简单查询,如上例就可以在选择Entertainment子类后,在其检索框中直接输入Music Video来进行检索。二是利用Yahoo!提供的高级检索功能来查询。高级检索的提供检索功能有限,仅通过“include all of the words”、“include this exact phrase”、“include at least one of these words”、“exclude these words”四个选项进行模糊检索和精确匹配检索。
图3-2  Yahoo!高级检索
(2)检索选项
为提高检索的高准确度,Yahoo!定制了一些符号来对检索进行限制。
1 在词的前面使用“+”号表示该词在结果中一定要出现。如:比较movie和movie +love的区别,前者的检索结果中只有movie一词,即是关于电影的网站信息,而后者的检索结果中既有movie也有love一词,即是关于爱情电影的信息。
2 使用“—”号表示该词一定不出现。
3 使用双引号表示该词或词组应在结果中出现。
4 支持截词符号“*”,在词的右部使用
5 支持栏位检索,“t:关键词”表示查找在标题中含有该词的信息,“u:关键词”则查找URL地址中含有该词的站点信息。
上面的检索选项如同时使用,优先顺序为+、—、t: 、u: 、“”、* 。
3. 检索结果
Yahoo!的检索结果包括五个方面的内容:Categories(分类目录)、Web Site(网站)、Web Pages(网页)、Related News(新闻)、 Net Events(网络事件)。Yahoo!将检索结果按相关程度高低排列:关键词出现的次数越多,相关度越高;在页面标题出现关键词的信息相关度高于在内容或URL中出现的信息;关键词在上一级类目中出现的高于出现在下一级类目。
(二)Galaxy搜索引擎
1. 主页网址;http://www.galaxy.com
Galaxy是互联网上最早的按专题检索网络信息的搜索引擎之一,创建于1994年1月,收录了近8亿个页面,提供网上的全球信息和服务。
图3-3  Galaxy主页
二、索引型英文搜索引擎
(一)AltaVista搜索引擎
1. 主页网址;http://www.altavista.com
Altavista起源于1995年,开发者为Digital Equipment公司。1998年宣布收录了2200万个网页,其索引系统包括关键词、标题、文摘、META标签、URL、Domain Name等多种内容,查询入口在所有的英文搜索引擎中是最多的,每个星期都有超过1800万次的查询使用频率,系统每天更新一次。截止2002年6月,AltaVista宣称其数据库已存有11亿个Web文件,并且经过升级。
图3-4  Altavista主页
AltaVista的“蜘蛛”程序名为“Scooter”。AltaVista曾是登录速度最快的搜索引擎,一般从提交到被索引只需1-2周,最快的只需3天。目前由于经历改组,更新速度受到很大影响。
2. 检索功能
(1)检索途径
AltaVista是目前检索功能最强大的搜索引擎之一,提供主要的查询模式为Main Search和Advanced Search,此外还提供了专门的图像、音频及视频的检索。其简单检索和复杂检索都支持多语种查找。
1 一般检索
一般检索由语言选择、文档类型选择框和关键词输入框组成。语种选择菜单包括中、英、法、德、意等在内的25种语言,默认状态为任何语言;提供可检索的文档类型包括网页(Web Pages)、图像(Images)、音频(Audio)、视频(Video)四种类型。检索用词的可以是专业术语也可以是自然语言,检索词的拼写方式尽量使用小写字母,这是因为用小写字母检索,AltaVista会查找大小写都有的结果。而使用大写字母检索,则只搜索大写形式的结果,对要求出现或不出现的词,可以使用加减号来表示,支持截词符号“*”,使用双引号来表示精确匹配。
2 高级检索
高级检索提供了比简单检索更多的选择菜单,检索的精确度更高。高级检索支持布尔逻辑运算符号和位置运算符号,AltaVista定义了相应的符号来对应于布尔逻辑运算符号和位置算符,“&”表示逻辑与,“|”表示逻辑或,“!”表示逻辑非,NEAR为位置算符,对应的符号为“~”。
(2)检索选项
AltaVista的一般检索和高级检索均提供一些特殊的命令来是检索更加精确,用以搜寻页面上指定位置含有指定检索词的结果。
命令项
功能描述
Title
查找网页标题中有检索词的结果。
Text
查找页面的文字部分(不含图像、URL地址和链接)有指定检索词的结果。
Url
查找在URL地址中有检索词的站点结果。 例:url:compaq
Image
该命令后必须跟文件名,表示查找页面图像标记中有检索词的结果。例:image:bird
Link
命令后跟URL地址,查找与指定网址相链接的web页面。
例:link:www.intel.com
Domain
命令后跟服务器域名(domain name),表示查找服务器域名与检索词名称一致的结果。   例:domain:uk
Host
命令后跟名称,包括公司名或网址名称,查找站点域名中有检索词的结果。例:host:dilbert unitedmedia.com
Anchor
查找在页面上的链接中有检索词的结果。例:anchor: “click here to visit graden.com”
Applet
查找在Java Applet Class的apple标记中有检索词的结果
例:applet:mmorph
表3-1 AltaVista的特殊检索命令
3. AltaVista的其他功能
(1)Usenet检索
AltaVista的检索范围除了Web站点以外,还包括Usenet新闻讨论组,在一般检索和高级检索中都没有提供Usenet的搜索选项,而是给出了专门的检索界面。AltaVista的Usenet检索也分为一般(Simple Search)和高级(Advanced Search)两个界面,也提供一些特殊的命令来限定检索:使用from:username@address,用来查询某个特定的人或电子邮件地址寄给新闻组的文章;使用subject:text用于查询主题中含有该词的文章;使用newsgroups:text用于查询指定新闻讨论组的所有文章;使用summary:text表示查询在摘要中含有输入词的文章。
(2)语言翻译器
AltaVista支持多语种查询,在其结果页中包含有不同语种的网页。基于这个原因,AltaVista提供了网上的翻译功能。由于AltaVista是英文的搜索引擎,所以只提供英语与其它5种语言之间的互译,包括德语、西班牙语、法语、意大利语、波兰语。用该软件翻译自己的文本,只需要将文本输入或粘贴到翻译框中,再点翻译按钮就可以了。
(3)网络过滤器(Family Filter)
Family Filter的作用是从你的搜索结果中过滤掉那些包含毒品、赌博、色情、暴力等内容的网页。用户可以根据AltaVista提供的过滤选项来定制需要过滤的等级。
(二)Excite搜索引擎
1.主页网址;http://www.excite.com
Excite搜索引擎是由美国斯坦福大学的几名学生建立的,创立时间为1993年9月。其除了提供一般的WWW站点搜索以为,还包括一些相关信息的搜索,如体育比赛、天气预报、公司信息和热门信息等,个人化检索是Excite的一个重要特点。
图3-5  Excite主页
2. 检索功能
(1)检索途径
1 一般检索
Excite的一般检索即是主页上的检索界面,该界面非常直观简单,只需在Excite主页的检索输入框里输入检索词即可检索。一般检索提供了三个检索选项,包括网络站点(Web)、目录(Directory)、图像(Photo),用户可以选择自己检索的信息类型。在一般检索的输入框里,可以输入布尔逻辑运算符号AND、OR、ANDNOT,并可以使用符号来对检索进行限定,使用双引号来来界定词组或者短语,在检索词前使用“+”或“—”号来表示该词必须出现或者必须不出现在结果中。
2 高级检索(Advanced Search)
Excite的高级检索是其检索界面中最复杂的,但使用起来却非常方便。它提供的限定项能让检索结果更为优化,提高检索效率,使用时只需进行选择即可。高级检索的限定项主要是对关键词的组配、结果的显示以及检索的范围进行限定,如图3-6所示。
Key Default:对关键词的关系进行限定,其中any对应的是逻辑或,all对应的是逻辑与,exact phrase则表示精确匹配。
View Results:对检索结果的排列方式进行限定,可以按照相关度(relevance)和来源(source)来进行排列。
Engines to use:列出了可以查询的14个搜索引擎,其中也包括现在使用比较多的Google搜索引擎。通过该选择项可以选择多个搜索引擎来进行检索,该功能与多元搜索引擎相同,也可以说Excite的高级检索实际上就是多元检索。
Quantity:对检索结果每页的显示数量进行选择,可选择每页显示10、20、30条检索结果。
Speed/Timeout:通过该选项选择检索的等待时间,包括最快(Fastest)、5秒、10秒、20秒、30秒,最长为2分钟。
图3-6  Excite高级检索界面
3 Excite meta-search
Excite搜索引擎提供了一个称之为Excite meta-search(Excite元搜索)的检索界面,如图3-7所示。通过该界面可自动实现多元搜索。同时,在Excite的高级检索界面也使用了元搜索技术,在前面的高级检索界面中已经介绍。Excite的元搜索功能可以让你同时对包括Google在内的14个搜索引擎进行检索,得到这些搜索引擎的结果。
图3-7  Excite meta-search检索界面
从上图中我们看到,Excite meta-search界面的检索选择项除了一般检索里的三个选项以外,还增加了对新闻(new)的搜索。同时,Excite在界面也列出了其分类目录,提供从分类途径进入检索需要的信息。
(2)检索选项
Excite搜索引擎最独特的地方在于:使用智能概念抽取(Intelligent Concept Extraction)技术,进行基于关键词或概念的正文和主题检索,我们也可以称它为概念检索。它不只是简单地查找含有搜索词的结果,同时还检索与该概念相关的文档。如:当检索关于elderly people financial concerns(失业人员的收入水平)时,Excite会自动查找关于economic status of retired people(退休人员的经济状况)和the financial concerns of senior citizens(老年人的收入水平)方面的信息。需要注意的是,当在检索词中使用布尔逻辑运算符时,Excite才会自动关闭概念检索功能。
Excite还支持一些检索运算符:在检索词前使用加号(+)限定检索词在结果中一定出现,使用减号(—)限定该词在结果中不出现;使用双引号将所要检索的短语括起来,表示该短语在结果中同时出现,而且按照原来的顺序排列;支持布尔逻辑运算符AND、OR 、NOT。
3. Excite的个性化服务
个性化检索是Excite的一个重要特点,在Excite主页上,列出了一系列的个性化的信息服务区,包括My Excite、My Stocks、My News、My weather等等,你可以点击Join Now和Sign In来申请和定制Excite提供的个性化特色服务。
(三)Google搜索引擎
1.主页网址;http://www.google.com
Google搜索引擎是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明,Google Inc. 于1999年创立。2000年7月份,Google替代Inktomi成为Yahoo公司的搜索引擎,同年9月份,Google成为中国网易公司的搜索引擎。98年至今,GOOGLE已经获得30多项业界大奖。GOOGLE支持多达132种语言,包括简体中文和繁体中文。
图3-8  Google主页
从上图我们可以看到,Google的主页界面非常简洁,其网站只提供搜索引擎功能,没有花里胡哨的累赘信息,用户界面比较友好。
2. 检索功能
(1)检索途径
1 一般检索
Google搜索引擎的一般检索就是指其主页上的检索界面,如图3-8所示。一般检索由检索输入框和一些检索限定选项组成。一般检索界面默认的状态是对所有网站进行检索,此外还可以对图像、新闻组群、网页目录进行检索,我们将在后面给予详细介绍。同时,一般检索还提供对检索范围的选择,可以对选择检索所有网站、所有中文网页和简体中文网站来进行查找。
在基本检索界面中,输入检索词点击Google搜索的按钮就可以进行查询了。此外,还可以使用“手气不错”来进行查询。按下“手气不错”按钮将自动进入 Google 查询到的第一个网页。您将完全看不到其它的搜索结果。使用“手气不错”进行搜索表示用于搜索网页的时间较少而用于检查网页的时间较多。例如,要查找 Stanford 大学的主页,只需在搜索字段中输入“Stanford”,然后单击“手气不错”按钮。Google 将直接带您进入 Stanford 大学的官方主页 www.stanford.edu。
2 高级检索(Advanced Search)
Google 的高级检索通过一系列的选择下拉菜单提供了很多不同的搜索功能,利用这些功能可以做到:将搜索范围限制在某个特定的网站中,排除某个特定网站的网页,将搜索限制于某种指定的语言,查找链接到某个指定网页的所有网页,查找与指定网页相关的网页。
图3-9  Google高级检索界面
Google的高级检索还可以限定检索词在网页中所处的位置,默认是任网页内的任何地方,还包括:网页的标题、网页的正文、网页内的网址、在网页的键结内等几个选项。
3 Google的网页目录
点击Google主页上检索输入框上的网页目录就可以进入Google的网页目录检索界面。如图3-10所示。Google 网页目录里目前收录了10 亿多个网址。其结合先进的网路搜索技术和『 Open Directory』的明细分类,推出网路有史以来最详实的网页目录。依网页主旨将网页分别归类,可通过分类浏览,同时在网页目录内也能享受 Google 搜索引擎的强大搜索功能,随不同的查询需要,您可以选择 Google 的网路搜索,或使用依相关程度列出的网页目录。
图3-10  Google网页目录
在网页目录分类中,Google还列出了World分类,该分类内包括有世界各种语言的网页目录。例如『World/Nederlands』,这分类里的所有内容包括简介都是用德文书写。这些会被归类在『World』语言目录下的网页,大都是用这语言的原始网页,而不是从其它的语言翻译成的。
当使用 Google 目录检索时,搜索范围将限定于您所在的网页分类内。当寻找特定目标时,分类搜索可帮助您更快找到确实的资料。例如一般寻找『泰山』时,会找到迪士尼的『泰山』卡通,五岳中的『泰山』,台湾的『泰山』乡,『泰山』公司的仙草蜜等等。但如果设定分类搜索于『电影』类内,查询结果将只有和电影『泰山』有关的网页
④ 图像搜索和新闻组搜索
使用 Google 图像搜索您可以搜索超过 3.9 亿个图像。要使用图像搜索,只需在图像搜索框内键入您的查询,然后按“搜索”按钮或点击键盘上的回车键即可。看到搜索结果页后,单击要查看的图片的缩略图。这样就会看到放大的图像,还可以看到原始图像所在的页面。
在您第一次进行搜索时,缺省情况下,Google 图像搜索就会使用一个儿童不宜内容过滤器。这个过滤器能够去除许多儿童不宜的图像,要关闭此过滤器,单击显示“启用儿童不宜内容过滤器”的链接即可,目前 Google 的儿童不宜过滤器只对英语内容有效。Google的图像搜索也有一般搜索和高级搜索两个界面,在高级搜索框中,可以通过在查询中使用 "filetype:" 来指定文件类型扩展名。例如,如果要查看格式为 .jpg 的花朵 (flower) 的图像,则在搜索框中输入 [ flower filetype:jpg ],也可以使用布尔操作符和其它 Google 命令进行复杂的图像搜索。
同图像搜索一样,Google的新闻组搜索也有一般搜索与高级搜索两个界面,在一般搜索界面,Google按照主题将讨论区进行了分类,既可通过分类浏览,也可以结合讨论区进行检索。高级新闻群组搜索则与Google网站检索的高级界面类似,通过一系列的选择下拉菜单提供了对搜索功能的实现。
(2)检索选项
自动使用“and”进行查询:Google 只会返回那些符合您的全部查询条件的网页。不需要在关键词之间加上“and”或“+”。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行了。
忽略词:Google 会忽略最常用的词和字符,这些词和字符称为忽略词。Google 自动忽略“http”、“.com”和“的”等字符以及数字和单字,这类字词不仅无助于缩小查询范围,而且会大大降低搜索速度。使用英文双引号可将这些忽略词强加于搜索项,例如:输入“柳堡的故事”时,加上英文双引号会使“的”强加于搜索项中。
简繁转换:Google运用智能型汉字简繁自动转换系统,为您找到更多相关信息。这个系统不是简单的字符变换,而是简体和繁体文本之间的“翻译”转换。例如简体的“计算机”会对应于繁体的“电脑”。当您搜索所有中文网页时,Google会对搜索项进行简繁转换后,同时检索简体和繁体网页。并将搜索结果的标题和摘要转换成和搜索项的同一文本,
词干法:为提供最准确的资料,Google 不使用“词干法”,也不支持“通配符”(*) 搜索。也就是说,Google 只搜索与输入的关键词完全一样的字词。例如:搜索“googl”或“googl*”,不会得到类似“googler”或“googlin”的结果。
大小写忽略:Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。
限定符号:如果要避免搜索某个词语,可以在这个词前面加上一个减号“-”,英文字符)。但在减号之前必须空格;使用双引号中来限定词语在查询到的文档中将作为一个整体出现;一些字符可以作为短语连接符。Google 将“-”、“\”、“.”、“=”和“..."等标点符号识别为短语连接符;有一些词后面加上冒号对 Google 有特殊的含义,如要在某个特定的域或站点中进行搜索,可以在 Google 搜索框中输入“site:xxxxx.com”,这类符号也可应用与图像搜索中,将搜索范围限定为某一特定网站上的图像。如要查找 Duke Primate Center 上所有关于 lemurs 的图片,应使用查询 “site:duke.edu lemurs”。此外,在图像搜索中还可以通过在查询中使用 “filetype:”来指定文件类型扩展名。例如,如果要查看格式为 .jpg 的花朵 (flower) 的图像,则在搜索框中输入 [ flower filetype:jpg ]。
3. Google的特色服务
(1)Google的使用偏好功能
在Google的每一个检索界面,都设置了“使用偏好”按钮,通过该按钮可进入设置界面,如图3-11所示。通过该界面,你可以对你所使用的搜索界面语言、查询语言、结果显示方式和中文简繁转换功能开关来进行设定。该设定适用与Google的所有服务。
图3-11  Google Preferences
(2)Google的网页级别技术
当其它网站目录还在使用英文字母或中文笔画来编排快速成长的网络时,Google 独创的网页级别(专利申请中)技术已能分辨出常用的重要网站,排放在目录的前面以提升网页搜索的效率,不再浪费时间从众多的无关网页里寻找那一两页需要的资料。在Google的网页简介内有一条长短不等的绿色横线,该绿线是网页重要程度的指标,藉由绿线的长短,让您一眼就明了这网页的评价。
作为组织管理工具,网页级别利用了互联网独特的民主特性及其巨大的链接结构。实质上,当从网页 A 链接到网页 B 时,Google 就认为“网页 A 投了网页 B 一票”。Google 根据网页的得票数评定其重要性。然而,除了考虑网页得票数(即链接)的纯数量之外,Google 还要分析投票的网页。“重要”的网页所投出的票就会有更高的权重,并且有助于提高其它网页的“重要性”。重要的、高质量的网页会获得较高的网页级别。Google 在排列其搜索结果时,都会考虑每个网页的级别。当然,如果不能满足您的查询要求,网页级别再高对您来说也毫无意义。因此,Google 将网页级别与完善的文本匹配技术结合在一起,为您找到最重要、最有用的网页。Google 所关注的远不只是关键词在网页上出现的次数,它还对该网页的内容(以及该网页所链接的内容)进行全面检查,从而确定该网页是否满足您的查询要求。
(3)Google的翻译工具(Language Tools)
图3-11  Google language Tools
Google提供出色的页面翻译。我们在浏览页面时,除了中文网页,还有很多英文或者其它文字的页面。中文当然没问题,你也懂些英文,但你不见得就能懂法文、德文、拉丁文。如果搜索出的页面是这些文字怎么办?Google为您提供了不错的网页翻译功能。目前支持英语、意大利语、法语、拉丁语、德语、葡萄牙语和西班牙语等几种语言之间的互译。
随着互联网络上中文网络信息的日益丰富,中文网络检索工具也逐渐发展起来,其引入或借鉴西文检索工具的技术,开发了专门的中文搜索引擎。目前许多著名的英文搜索引擎也都开发了中文网站。
一、目录型中文搜索引擎
(一)搜狐搜索引擎
1. 主页网址;http://www.sohu.com
搜狐创立于1998年,是中国首家大型分类查询搜索引擎,其采用人工分类技术对所搜集的站点进行分类,并在目录下建立目录树体系,形成独具特色的分层目录系统。目前已成为互联网上著名的中文搜索网站。每日浏览量超过800万。到现在已经发展成为中国影响力最大的分类搜索引擎。累计收录中文网站达150多万,每日页面浏览量超过800万,每天收到2000多个网站登录请求。
图3-3-1 搜狐主页
进入搜狐主页以后点击搜索可直接进入专门的检索界面,如图3-3-2所示。在搜狐的主页上也设置有检索输入框,可以输入检索词进行检索。
2. 检索功能
(1)检索途径
搜狐的检索途径分为关键词搜索和分类搜索。
1 分类检索
作为中文分类搜索引擎,搜狐独具特色的分层目录系统使搜索变得更加容易,通过其18个部类构成的树型网页结构层层浏览进行查询。目前大多数搜索引擎的分类检索都是将分类层层浏览和分类检索两者结合起来,搜狐也不例外,在分类搜索界面中,既可以通过分类进行浏览,也可以限定在某个分类中进行关键词检索,从而使检索结果更加精确。
目前,搜狐"分类目录"共有十八大类,包括娱乐休闲、工商经济、公司企业、文学、国家与地区、计算机与互联网、教育、艺术、体育与健身、卫生与健康、生活服务、社会与文化、社会科学、新闻与媒体、科学与技术、旅游与交通、政治与法律、个人主页,五万多不同层次的子类目,形成了一个十分庞大的树枝状结构,几乎涉及到所有行业或领域。
图3-3-2 搜狐分类搜索
如果想查找的信息不是很具体,通过搜狐的分类目录搜索通常会比寻找单个的网站来得有效。例如,要找关于体育彩票的信息,在"首页<娱乐休闲<彩票<体育彩票"类目下有许多高质量的网站。这比起通过输入关键字后,在搜索结果页面中一页一页翻动要效率高。
② 关键词搜索
搜狐提供的关键词搜索在其主页、分类搜索页和高级搜索页面上都有提供,只需直接在检索输入框中输入关键词即可进行检索。
图3-3-3 搜狐中文网页高级搜索
在主页和分类搜索页面上,关键词搜索提供网站、类目、网址、网页、新闻、软件等类信息的查找。可通过搜索框后面的下拉式菜单进行选择,默认选项为“网站”搜索,其搜索结果是搜狐分类目录下网站信息中的内容。在搜狐的中文网页高级搜索界面中,提供了选择项对检索进行限定,包括关键词的组配方式、中文编码、类聚方式和时间等。
所谓"内容类聚"是指同一个内容的网页只出现一次,而不管整个INTERNET 上有多少个不同的URL指向该网页。也就是说,"内容类聚"屏蔽掉了同样内容的网页,只提供其中一个URL供用户浏览使用。而"站点类聚"则只给用户提供相关网站的主页的URL,屏蔽掉了同一个网站中各个不同的页面。但是,用户可以通过相关摘要底下的URL访问到该网站所有的页面。
(2)检索选项和技巧
搜狐中文检索的默认检索方式是精确查询方式,查询包含完全符合关键字串的网站。例如:键入"中国北京",会找出包含"中国北京"的网站、但是会忽略包含 "中国首都北京"的网站。
搜狐中文检索系统目前支持的运算符有:-、&、|、()、空格。这些运算符既可以是英文,也可以是中文(全角或半角)。使用空格、&,来指定查询串必须出现在结果中,例如:输入"modem 鼠标",搜索结果是包含"modem",并且包含"鼠标"的所有网页;使用-,来限定-后的查询串不出现在结果中,例如:输入"宗教 - 法轮功",会找到仅包含"宗教"的所有网页,且不包含"法轮功"的网页;使用|,来指定|两边的查询串中有一个一定出现在结果中,
例如:输入"计算机|软件",搜索结果是含有"计算机"或"软件"的所有网页,使用()或"",来指定()或""内的表达式是一个整体单元,例如:输入"计算机 - (软件 硬件)",会查询到包含"计算机",且不包含"软件"与"硬件"的所有网页 。
3. 检索结果的排列
搜狐中文检索引擎会返回以下五方面的检索结果。你可以在以下五个分类中任意切换,得到你需要的检索结果。
搜狐类目:检索结果页列出相关的搜狐中文检索类目。
网站搜索:检索结果页列出搜狐分类搜索数据库中,在网站名称、网站简介或网站关键字中含有与你键入的关键字相匹配的内容的所有相关网站。
网页搜索:除了相关检索的一些链接之外,检索结果页列出整个Internet上与你键入的关键字相匹配的内容的所有相关网页。
新闻搜索:检索结果页列出三个月内出现在搜狐新闻库中,包含你输入的关键字的相关新闻。
中文网址搜索:检索结果页列出3721网站的数据库中,在网站名称中含有与你键入的关键字相匹配的内容的所有相关网站
对于结果的排序,搜狐中文检索系统引擎会根据分类类目及网站信息与关键字串的相关程度来排列出相关的搜狐中文类目和网站。相关程度越高,排列位置越靠前。
4. 搜狐的特色功能
在搜狐的每个搜索界面的搜索按钮旁,都有一个“直通车”按钮,这是搜狐最新推出的一项特色功能。
"直通车"是在搜狐公司原有搜索引擎各项功能基础上又增加的一项新的搜索功能,用户只需输入关键词,轻点"直通车",即能直达与关键词相关的网站,从而轻松获取所需信息。
用过搜索引擎的用户都知道,搜索引擎能够提供丰富的信息资源。面对搜索出来的海量信息,用户在满意的同时又难免有些无所适从,这么多的信息哪一条才是最有用的呢?搜狐搜索"直通车"就是基于用户的这种需求开发的。
搜狐公司以自己多年开发搜索引擎的经验,科学整合已有资源,根据搜索相关性算法为每一个关键词对应一个最为相关的高质量的网站,尽力满足用户对信息"有用性"的要求。现在到搜狐搜索信息的时候,不妨先试试"直通车",轻轻一点,或许就能找到你最想要的一条信息。
(二)Yahoo!雅虎中国搜索引擎
1.    主页网址;http://www.yahoo.com.cn
雅虎在全球共有24个网站,12种语言版本,其中雅虎中国网站(www.yahoo.com.cn)于1999年9月正式开通,它是雅虎在全球的第20个网站。
图3-3-4  Yahoo!雅虎中国主页
中文Yahoo在许多人的心目中是搜索引擎的同义词,名声在外的Yahoo也确有其过人之处,分类目录查询就做得相当出色,无论从网站的数量还是分类的合理性方面都可圈可点。站点目录分为14个大类,每一个大类下面又分若干子类,搜索十分方便。该站点连接速度快,包含范围广,数据容量大,简便易用,是查询各种信息的好去处。
2. 检索功能
(1)检索途径
雅虎中国网站(www.yahoo.com.cn)为用户提供了强大的搜索功能,通过其简单易用、手工分类的简体中文网站目录及强大的搜索引擎,用户可以轻松搜索到政治、经济、文化、科技、房地产、教育、艺术、娱乐、体育等各方面的信息。
作为一个目录型的网络信息检索工具,Yahoo!中国主要依靠主题式分类目录来查询信息,同Yahoo!英文一样,雅虎中国将其收录的网页信息分为14个大类,包括艺术与人文,商业与经济,电脑与网际网路/网络,教育,娱乐,政府,健康与医药,新闻与媒体,休闲与运动,参考资料,国家与地区,科学,社会科学,以及社会与文化。根据其下网站多寡及知识组织的必要,每一个主类目下会细分不同层次的次类目或子类目。愈往下的子类目中的网站其主题会愈特定。通过这种目录组织方式,使得用户可以通过分类目录按主题逐步深入,知道直到找到所需要的信息的URL。如图3-3-5所示,在Yahoo!中国的分类类目后面的有“@”符号,该符号表示这个类目会同时出现在多个Yahoo! 中国的不同分类类目下面。 只要您点击这个含有“@”的类目,就会链接至Yahoo! 中国的其它相关类目。
图3-3-5  Yahoo!雅虎网站分类主页
Yahoo! 中国目录是基于主题、可供搜索的。在雅虎主页或是由类目搜索进入的页面上,您会看见一个长条状的搜索框,只需将您想要搜索的关键字输入其中,点击“搜寻”按钮,雅虎的搜索系统就会运行起来,带您进入搜索结果页面。如果您不是在寻找一个特定的网站,那么试试用一个比您想找的东西更大的主题。例如,如果想找川菜食谱,就在搜索框里输入“烹饪”来试试,结果许多烹饪网站里包括的川菜内容可能会比您输入川菜找到的“川菜”主题网站更全。再比如说您想寻找一些歌词,可以输入这些歌词的流派就会更找到相关的信息。
(2)检索选项和技巧
使用引号使得搜索结果中,您输入的关键字一定是一个完整词组而不会被分开;如果您希望某些字词一定要显示在搜索结果中,请在该字词的前面加上“+”;如果您希望某些字词不会出现在搜索结果中,请在该字词等前面加上“-”。
雅虎还支持带“+”、“-”等的进阶检索语法:
利用双引号,来查询完全符合关键字串的网站。例如:键入 "中文输入",会找出包含中文输入的网站,但会忽略过包含"中文形声输入"的网站。
指定关键字出现的段落:加t: 在关键字前,搜索引擎仅会查询网站名称;加u: 在关键字前,搜索引擎仅会查询网址(URL)。
3. 检索结果的排列
Yahoo! 中国搜寻引擎会检索两个部分:Yahoo! 中国的分类类目和资料库中的网站资讯。 Yahoo! 中国搜寻引擎会根据分类类目及网站资讯和查询字串的相关程度而列出相关的 Yahoo! 中国类目和网站。对于检索结果按照相关度进行排列,影响相关程度的因素有:和查询字串相同的字串多寡,相同愈多,相关程度愈高;和查询字串完全符合(Exact Match),相关程度高於部分符合;和查询字串符合的字串位置,网站名称符合查询字串的相关程度高於网址符合查询字串的网站。
4. 其他
目前,Yahoo!中国搜索引擎和Google合作,使用Yahoo!中国的搜索功能更加强大,当您使用Yahoo! 中国搜索时,Yahoo! 中国本身的数据库和Google组成了您所看到的搜索结果。如果您搜索的字词在Yahoo! 中国的数据库内,那么搜索结果会在“相关类目”和/或“相关网站”中;如果您搜索的字词在Google的数据库中,那么搜索结果会在“相关网页”中。Yahoo! 中国目录采用专业人工分类,不但可以直接当成目录来浏览,还可以用来搜寻您想要的内容。
二、索引型中文搜索引擎
(一)百度搜索引擎
1.主页网址;http://www.baidu.com
百度公司(Baidu.com,Inc)于1999年底成立于美国硅谷,它的创建者是李彦宏和徐勇。百度是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐、新浪、网易、雅虎、TOM等。
图3-3-6  百度主页
百度搜索引擎由四部分组成:蜘蛛程序、监控程序、索引数据库、检索程序。高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。百度在中国各地和美国均设有服务器,搜索范围涵盖了中国大陆、香港、台湾、澳门、新加坡等华语地区以及北美、欧洲的部分站点。百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。
2. 检索功能
(1)检索途径
从图3-3-6中我们可以看到,百度的搜索界面做得非常简洁,只由检索输入框、检索按钮和检索的信息类型组成。百度提供的检索途径主要是关键词检索,对网页、Mp3和Flash都是使用输入关键词的方式进行检索,仅在信息快递页面提供了分类检索的途径。
1 关键词检索
关键词检索的使用非常简单方便,仅需在检索输入框中输入查询词,用鼠标点击“百度搜索”按钮即可得到相关资料。百度的关键词搜索可检索的范围有网页、Mp3、Flash和信息快递,默认是对网页进行搜索。要切换到其他的搜索,在主页上点击该名称即可。
对Mp3的搜索,可以对歌词、全部音乐、mp3、rm和ram等几种音乐文件格式和类型
进行选择限定;对Falsh的搜索,可选择按作品名和作者名来进行,默认是对全部作品进行搜索。
图3-3-7  百度Mp3搜索页
2 信息快递页的分类检索
在百度主页上点信息快递可以进入搜索界面,在该界面上,百度将搜索的信息进行分类。同时也提供了检索框,你可以直接输入关键词进行搜索,也可以通过浏览类目来找到你所需要的信息。此外还可以将两中查询方式结合起来使用,当选择了某一个类目进入后,在检索的输入框旁会出现一个“在本类中查询”的选择项,使用该选项则可以在你所在的类目中进行关键词搜索了,从而得到更准确的检索结果。
图3-3-8  百度信息快递分类搜索页
(2)检索选项和技巧
关键词:关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等等;可以是任何中文、英文、数字,或中文英文数字的混合体,例如,您可以输入“windows”、“911”甚至是“F-1赛车”这样的词;关键词的数量可以是一个,也可以是多个和一句话。例如,您可以搜索“蓦然回首,那人却在灯火阑珊处”这样的句子来进行搜索。在检索时,输入多个词语搜索(不同字词之间用一个空格隔开),可以获得更精确的搜索结果。例如:想了解北京暂住证相关信息,在搜索框中输入“北京暂住证”,比输入“北京暂住证”得到的结果更好。
符号的使用:在百度查询时不需要使用符号"AND"或"+",百度会在多个以空格隔开的词语之间自动添加"+";百度支持“-”功能,用于有目的地删除某些无关网页,但减号之前必须留一空格,例如,要搜寻关于“武侠小说”,但不含“古龙”的资料,可输入“武侠小说 -古龙”;使用“A|B”来搜索“或者包含词语A,或者包含词语B”的网页,例如:您要查询“图片”或“写真”相关资料,无须分两次查询,只要输入“图片|写真”搜索即可。百度会提供跟“|”前后任何字词相关的资料,并把最相关的网页排在前列。
大小写匹配:百度搜索引擎不区分英文字母大小写。所有的字母均当做小写处理。
搜索位置限定:在一个网址前加"site:",可以限制只搜索某个具体网站、网站频道、或某域名内的网页,关键词与site:之间须留一空格隔开;在一个或几个关键词前加"intitle:",可以限制只搜索网页标题中含有这些关键词的网页;在"inurl: "后加url中的文字,可以限制只搜索url中含有这些文字的网页。
3。检索结果的显示
无论在那个界面进行检索,百度搜索引擎会自动对其它的信息类型进行自动检索,并返回检索结果,如在主页(默认是搜索网页)上输入“武侠”进行检索,百度在其结果页上也会返回Mps、Flash和信息快递的检索结果,只需在结果页上点击就可以切换到其它的搜索结果。
百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。
4. 特色服务
(1)      IE搜索伴侣
百度提供的IE搜索伴侣使用户无须登录搜索引擎,直接利用浏览器地址栏,就可以快速到达相关网站,以及快速获得由全球最大中文互联网搜索引擎提供的丰富信息。要使用该功能必须先进行安装,安装成功后可在浏览器地址栏中,直接输入您要访问的网站名称、您要寻找的企业、产品名称,或者您要查找的任何信息,就能直接访问相关网站、就能快速找到全球最大中文互联网搜索引擎提供的相关信息。
(2)百度搜霸
百度搜霸工具条将安装于IE浏览器的工具列内,让您在访问互联网上任何网站时,随时使用Baidu搜索引擎轻松查找。提供的功能有:站内搜索、新闻搜索、flash搜索、关键词高亮、页面找词、自动屏蔽讨厌的弹出窗口。
(二)天网搜索引擎
1。主页网址;http://e.pku.edu.cn
由北大网络实验室研制开发的“天网”中文搜索引擎系统是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供web信息导航服务。目前,天网提供搜索1.05亿网页和2400万个文件。图3-3-9是天网的主页。
图3-3-9 天网主页
2. 检索功能
(1)       检索途径
① 天网主页搜索
天网主页上的搜索即是关键词搜索,关键词搜索是天网最主要的搜索方式。用户只需在检索输入框中输入想要查询的关键词,并回车(Enter),(或者点击 “搜索网页”按钮)即可。除了搜索网页按钮以外,还可以进行文件的搜索,这也是天网与其它搜索引擎不同的地方,可通过检索按钮来对检索的信息类型进行选择。无论是使用哪一个按钮进行检索,天网都会自动对另外的信息也进行检索,在返回的结果页中会列出网页和文件两种检索结果。
② 天网文件搜索
除了前面提到的主页上的文件检索以为,天网还提供了一个功能更强大的专门的文件检索界面,如图3-3-10所示。
图3-3-10 天网主页
在输入框里输入需要查找的文件名,点击“分类搜索”下的各种类型,如“图像”、“声音”、“视频”、“压缩”、“文档”、“程序”、“目录”、“源代码”,则搜索引擎在指定的类型里搜索文件。比如点击“图象”,则在所有的图象文件里查找与匹配串相符的文件。文件搜索能够搜索的数据量为:国内FTP1100万,国外FTP1300万,国内WWW 111万,在检索时可以选择对这三类数据进行分别搜索。天网将常用的文件分为四类,包括:电影动画片、MP3音乐、程序下载和文档资源等,提供浏览和分类搜索以使搜索变得更加容易。
点击类型下拉菜单旁的“更多选项”可以进入文件搜索的另外一个界面,该界面可对要搜索的文件大小,时间范围和显示方式进行进一步的限定。
③ 天网目录(?版)
最早的天网搜索只支持关键词检索,发展到目前,天网也推出了目录搜索服务系统,该系统实现了中文网页的自动分类功能,还处于测试期,测试数据300万。在天网目录的首页只列出了12个大的分类(包括人文与艺术、新闻与媒体、教育、计算机与因特网、娱乐与休闲、自然科学、社会科学等等),而没有检索输入框。只有当你通过分类目录浏览到最下一层类目后,才能在出现的输入框中输入词来进行检索。
(2)       检索选项和技巧
查询时无需使用明文的“&”,与操作,只要空格就可以了,“天网”会在关键词之间自动添加“&”。“天网”提供符合您全部查询条件的网页。如果您想进一步缩小搜索范围和结果,只需输入更多的关键词或者在查询结果中输入关键词进一步查询。例:搜索所有包含关键词“北大大学”的网页,只需在搜索框中输入“北京大学”。如果搜索所有包含关键词“北大”和“校庆”的网页,只需在的搜索框中输入“北大校庆”。
支持精确的短语匹配:例:查询peer to peer 。没有引号的查询的结果会令你失望的。应该用双引号括起,查询词带着引号查询“peer to peer”。单个词的查询不用使用引号。
支持忽略词(常用的词和字符)查询:例:支持“的”,“大”等词的查询,即支持所有字词的查询。
天网搜索不区分英文字母大小写。所有的字母均当做小写处理。例如:搜索“Unix”、或“unix”,得到的结果都一样。
3。检索结果的显示
在前面我们提到,天网的检索结果包括两个方面的内容:网页信息结果和文件结果,在结果页上点击切换即可以,对于网页信息按相关度排列,而对于文件结果则有多种排列方式,只需在文件结果页上进行选择即可,其排列方式包括:相关度、时间、文件大小、距离和稳定度,默认是按照相关度排列。
4. 特色服务
(1)天网主题
天网主题是天网推出的一项新的服务,其将搜索按范围分别列出,每个范围都有检索的输入框,目前提供的有:
北京大学校内搜索:搜索北京大学内 720,274个网页。
北京化工大学校内搜索:搜索北京化工大学大约6,028个网页。
新闻搜索:搜索大约228,788个新闻网页。
美国1000所大学搜索:搜索美国大学中281,544个网页。
Unix相关搜索:在搜索大约248,641个Unix站点。
(2)天网搜霸
天网搜霸是天网推出的功能强大的检索工具,进行下载安装后,工具栏将位于 Internet Explorer 的工具列内,让您在任何网页上,随时使用天网搜索和其他搜索引擎的搜索功能。这一点与百度搜霸比较类似。天网搜霸汇合了网络上最棒的各种搜索引擎,包括天网文件搜索引擎、天网网页搜索引擎以及其他国内外著名的搜索引擎,让你随时随地轻松查找。与 “Google工具栏”及“百度搜霸”不同,天网搜霸排除门户观念,并不仅仅支持天网搜索的文件搜索引擎和网页搜索引擎,还兼容任意其他搜索引擎或检索系统,让您轻松切换各个搜索引擎,而无需每次造访各个引擎的主页。天网搜霸还支持个性化的搜索引擎集成,你可以导出或导入搜索引擎列表来定制自己的搜索喜好。
随着搜索引擎的不断发展,目前互联网上的搜索引擎非常之多,每个搜索引擎都具有各自的搜索系统和数据库,尽管这些搜索引擎都尽量的提高信息搜集的全面性和检索的精确性,但是没有一个搜索是万能的。使用单个搜索引擎难免存在一定的局限性,其搜索的质量完全取决于检索系统的工作。元搜索引擎能同时对多个搜索引擎进行联合搜索,从而取长补短,获取到更全面的信息。
(一)Dogpile
Dogpile共能调用25个搜索引擎,包括14个WWW搜索引擎和11个讨论组、新闻组、邮件组、FTP等方面的引擎。网址为Http://www.dogpile.com 。
图3-4-1 Dopile主页
Dogpile将信息按类型进行搜索,包括有the web(网页)、Image(图像)、Shopping(商业)、Audio\mp3(音乐)、Multimedia(多媒体)、Files(文件)、News(新闻)、Message Boards(邮件组)。
除了主页上的搜索界面外,Dopile还提供了Advanced Search界面进行查询。高级搜索
的信息类型选择菜单与检索输入框与主页上的一致,同时,还提供了keyword default和Engineer to Use来分别对检索词的组配关系和可检索的14个WWW搜索引擎进行选择。高级搜索支持布尔逻辑运算符号AND/+、OR 、NOT/—。对于检索结果则按来源列出。
(二)Metacrawler
Metacrawler是有美国华盛顿大学的Erik Selberg和Oren Etzioni于1994年开发,2000年被Infospace公司收购。
图3-4-2  Metacrawler主页
Metacrawler能对About、Ask Jeeves、FAST、FindWhat、LookSmart、Overture在内的14个搜索引擎进行并行检索,在接受检索要求后,将该检索要求转换为每个成员搜索引擎的专门指令形式,并分发给各个搜索引擎,当所有结果返回后,它就对结果进行收集、去重后按相关度显示。
Metacrawler主页的检索输入框和信息选择下拉菜单与Dogpile是一致的,除了可以选择检索的信息类型,还可选择检索词的组配关系(包括any、all和phrase,前面两种分别相当与or和and,后者表示精确匹配)。支持布尔逻辑运算符号。在Metacrawler的主页上,还提供了Popilar Search、Yellow Pages和White Pages的检索。
Metacrawler还提供高级检索(Advanced Search),其高级搜索与前面提到的Excite的高级搜索界面几乎是相同的。它可以对检索词之间的组配、检索结果的排列和显示方式、可检索的搜索引擎、响应时间等进行选择。
思考题
1.了解各类型搜索引擎的使用方法。
2.利用搜索引擎查找与所学专业相关的专门性网络检索工具或网站。