环保铝合金处理技术:搜索引擎与Internet信息获取

来源:百度文库 编辑:中财网 时间:2024/05/01 23:59:37
薛洪明
(盐城师范学院  江苏盐城  224002)
摘  要  搜索引擎是进行Internet信息获取的最常用方法之一。本文简述了搜索引擎的分类及运作机理、搜索语法和操作规则,比较分析常用搜索引擎的性能和技术特点。探讨了利用搜索引擎进行高速、高效、高质地Internet信息获取的方法和策略,并对其发展提出了预见和建议。
关键词  搜索引擎、Internet、信息获取
0  引言
Internet正以前所未有的态势改变着整个世界,现已成为人类有史以来资源最多、品种最全、规模最大的信息库,其信息来源丰富、分布广泛,各种类型信息资源异构地分布于网络空间中,如果不能使庞杂的信息有序化,就很难有效获取。如何准确有效地从Internet上获取信息,就显得十分迫切和重要。
搜索引擎(Search Engine)就是这一时代需求的产物,它是收集、整理Internet信息资源并按一定规则加以组织,提供人们按相应的规则提取信息线索,并直接链接相关信息源的Internet信息获取工具。这其中包括了信息收集、信息组织、信息搜索、信息回馈四个过程。
1  分类及运作机理
尽管目前搜索引擎数以千计,但根据其基于的运作机理和提交服务的方式,主要可分为基于Directory的、基于Robot的和基于Meta的三大类型。
1.1  基于Directory的搜索引擎(Directory-based Engine)
其数据库依靠人工建立,专职人员在访问某个Web站点后将其描述和URL(Uniform Resource Locator,统一资源定位器),根据站点内容和性质将其归入预先分好的类别。同时也接受用户直接提交的站点和描述,经认可后加入其数据库。这类引擎通常提供各类站点网址、域名及其描述,并提供链接。其结构为树形结构,在搜索主页上提供最基本的大类入口,用户可一级一级地向下访问,了解有关站点的基本情况。但现在,这类引擎也提供关键词搜索功能。其代表有Yahoo等。
这类引擎需要经过一个长期积累过程,才能达到一定的信息拥有量;而且其只在保存的站点或描述中进行搜索,因此站点的动态更新情况不能迅速反映到搜索结果中去;由于采用了人工方式,成本较高,维护比较困难。但由于其依靠人工来评价和分类信息,因此搜索结果往往比从其他类型引擎更具参考价值。
1.2  基于Robot的搜索引擎(Robot-based Engine)
Robot意为“机器人,遥控设备,自动机械,机械般工作的人”。这类引擎其数据库依靠Robot(或相类似的Spider、Worm、Crawler等)自动建立,Robot不时对Internet进行搜索,自动访问并提取信息,运行结果立即加入其数据库中,供用户搜索使用。这类引擎不仅提供网址,而且提供相关文档信息,比较适合于获取具体的Internet信息。其代表有AltaVista、Infoseek等。
这类引擎一般是定期访问数据库中以前收集的信息,并刷新索引,以迅速反映信息的更新情况,去除无效链接。索引在建立和更新时,会给每个关键词赋予一个相关值,其计算公式各个引擎并不完全相同,但都以关键词出现位置和频率为基本依据。相关值是搜索结果中记录排序的主要出发点,所以可以利用这个原理,在设计站点和网页时,使用一些相关技术让其得到高相关值,以便排在前面,达到提高点击率的目的。
上述两种引擎有一共同特点,就是都在本身独立的数据库中进行搜索,故又统称为独立式搜索引擎。
1.3  基于Meta的搜索引擎(Meta Search Engine),即元搜索引擎
这类引擎可以有也可以没有自己的数据库,其工作流程分三步:搜索请求提交、搜索接口代理、搜索结果反馈。在用户提交搜索请求后,这类引擎就将其转换成其他独立式搜索引擎能够接受的格式,并行或串行地访问它们,并将结果进行相关处理(如删除重复结果,校验链接,按相关值排序等)后以整体统一的格式回馈给用户。用户可个性地设定调用其他引擎的数目、在各引擎的搜索时间和结果数量限制等。其代表有MetaCrawler、Profusion等。
这类引擎除了可以按有无独立的引擎数据库分类外,也可按调用其他引擎的方式分为并行、串行、并串结合等类型;还可按用户应用模式分为基于Web的免费型、可供免费下载的客户端桌面应用型、可共享或授权使用的桌面应用型等,其中第一种最常见、使用最广泛,后两种的特点是用户可将相应的搜索软件下载至本地计算机上安装,是具有Internet搜索功能的离线工具,因此用户可更灵活方便地控制结果。
元搜索引擎多数只访问几个主要的独立式引擎,还有许多重量级的引擎(如HotBot等)被排除在外;在处理其他引擎返回结果时,只提取每个引擎的前面数十条记录;因为被调用的其他引擎在语法规则上差异较大,所以一般仅支持AND、OR、NOT等较简单的逻辑操作,不能发挥出各个独立式引擎的高级性能。上述因素都直接影响了元引擎的搜索效果和质量。
2  搜索语法和操作规则
想要利用好搜索引擎进行高速、高效、高质的Internet信息获取,就必须了解掌握其搜索语法和操作规则。
2.1  布尔逻辑运算
包括AND、OR、NOT和()等,这是最基本、最常用的语法规则:
AND表示逻辑和,搜索结果中会包含所有的关键词。
OR表示逻辑或,搜索结果中会包含至少一个关键词。
NOT表示逻辑非,搜索结果中会排除NOT之后的关键词。例如:搜索Internet NOT Intranet,则结果中就只包含Internet,而不包含Intranet。
()表示搜索式优先级,作用和数学中的()相似。例如:搜索知识经济或信息经济可输入(知识OR信息)AND经济。
2.2  其他简单而又较为常用的语法规则
+(加号),作用与AND类似,但+号与关键词之间不能有空格。
-(减号),作用与NOT类似,但-号与关键词之间不能有空格。
,(逗号),作用近似于OR,但与OR的区别的是:搜索结果中包含的关键词越多,排列位置越靠前。例如:搜索计算机,Internet,信息,那么同时包含这三个关键词的信息就出现在结果的最前面。
(空格),作用类似于AND。
""(引号),搜索引擎会将""中的关键词或其组合作为一个整体性的短语进行搜索。例如:搜索有关Web Database(Web数据库)方面的信息,可输入"Web Database",搜索引擎就把"Web Database"当作一个短语来搜索。如果不用"",就会搜索到既包含Web又包含Database的信息,而这其中当然有很多是你不需要的。
通配符,用户可在词的末尾加通配符来代替任意的字母组合,但通配符不能放在词的开始或中间。通配符可为“*、?、$、%”等,这视不同的引擎而定。例如:输入Physi*可以代表开头字母为Physi的任意词,搜索结果中就包含Physics(物理)、Physic(医学)等信息。
.(句号),作用与通配符正好相反,用于禁止关键词的扩展。例如:输入com.表示搜索结果中只能有com,而不能有诸如computer之类的词。
2.3  常用高级和特定的语法规则
near,可限定在一定区域范围内同时出现的关键词,这些关键词可能并不相邻、间隔越小的排列位置越靠前,其间隔用near/n控制,n为一具体数值,表示间隔最大不超过n个单词。例如:A NEAR/10 B,即表示搜索关键词A和B,并且A、B两词之间最多可有10个其他单词。
adj,作用和near类似,但规定了关键词的词序。例如:A ADJ B,即表示搜索关键词A和B,并且词A一定出现在词B之前。
,可限定关键词出现的范围。例如:Networktitle,表示只有在标题中出现Network的信息才列入结果。
字母t、u,也用来限定关键词出现的范围。t加在关键词前,只搜索网页标题;u加在关键词前,只搜索站点URL。
需指出的是,以上只是一般性、通用性较强的语法规则,具体到各个搜索引擎,会有所不同。
3  部分重要的搜索引擎与对比分析
3.1  部分英文搜索引擎
AltaVista(http://www.altavista.com),最优秀的引擎之一,信息丰富、更新很快,搜索性能高。其对信息选择优化不够,无关性大,但由于按关键词相关值排序,最切中主题的总在最前,因此并不明显地影响使用。
Yahoo(http://www.yahoo.com),Internet上第一个也是目前最为著名的基于directory的引擎。它已开发很长时间,质量较高,提供信息准确,但信息量不够全面。Yahoo现在也提供关键词搜索功能,My Yahoo的个性化服务,受到广泛重视。
HotBot(http://www.hotbot.com),一个重量级的引擎,Internet上第一个基于Robot的引擎,搜索速度快,结果相关性好。支持目录和关键词两种搜索方式。
Infoseek(http://www.infoseek.com),速度快、使用方便。可进行关键词动态全文检索。Infoseek只免费提供前100条信息,但由于其查准率高,100条信息对于普通用户来讲已足够了。
Excite(http://www.excite.com),较适合个人爱好定制和使用,可进行基于关键词的概念搜索,即同时搜索相关概念的信息。搜索表达式输入方便,但对字母大小写过于敏感。
MetaCrawler(http://www.webcrawler.com),元搜索引擎中的代表,除支持调用12个其他独立式引擎外,本身也提供目录服务。搜索模式多,能较好地支持高级和特定搜索功能,个性化服务好。其他较为著名、性能较高的元搜索引擎还有:ProFusion(http://www.profusion.com)、Inference Find(http://www.infind.com)、MetaFind(http://www.metafind.com)、ByteSearch(http://www.bytesearch.com)等。
3.2  部分中文搜索引擎
Yahoo中文(http://www.yahoo.com.cn),是Yahoo本地化战略的体现,提供中文关键词搜索功能,并且很好地支持了简体中文(GB)和繁体中文(Big5)。
网易(http://www.yeah.net),提供分类浏览和关键词搜索两种方式,支持全文检索。反馈信息较为全面详细。用户可将其提供的原代码,放在自己的网页中,这样就可以更方便地随时进行信息获取。
搜狐(http://www.sohu.com),根据中国人的语言文化习惯将所有内容分为18个大类,各大类下再进行细分,层层相连,树形结构完整清晰,但信息量不够丰富。
悠游(http://www.goyoyo.com.cn),一个高智能的基于Robot的中文搜索引擎,自动转换简繁体,提供分类浏览方式,支持全文检索,搜索结果详细,并按相关值大小排序。易用性较好,用户可按书写习惯输入搜索请求,无需使用复杂的逻辑运算表达式。
天网(http://pccms.pku.edu.cn),北京大学开发的基于Robot的搜索引擎,信息来源于各大网络,有中、英文两种界面,提供多种高级搜索功能,搜索速度快,反馈信息丰富,搜索结果的可选择性较好。
限于中文编码的特殊性和设计上存在的局限性,中文搜索引擎在实际使用中反映出一定的不足:有的搜索信息范围小;有的搜索功能不强;有的不支持多种中文编码类型。结果造成回馈信息完全性、准确性不是很高。
3.3  综合比较分析
由于各个搜索引擎的搜索范围、搜索技术、语法规则、搜索功能等不尽相同,因而在查全率、查准率和易用性等诸方面差别很大,因此有必要对它们进行系统地比较分析研究,以达到方便使用的目的,并为其今后的发展提供借鉴和依据。目前,中文搜索引擎与国外搜索引擎的相比,在诸多方面尚有较大差距,所以本文只选取了国外几个重要的搜索引擎进行对比分析,结果见表1:
名  称
项  目
AltaVista
Yahoo
HotBot
Infoseek
Excite
MetaCrawler
搜索范围性能
搜索范围
W,U
W,U
W,U
W,U,G,E
W,U
W,U,G,F,E
信息容量






基于方式
Robot
Directory
Robot
Robot
Robot
Meta并行调用
分类浏览
粗略
详细
粗略
一般
粗略
一般
更新速度

一般

较快

不定
搜索速度

一般

最快
一般
一般
查 全 率

一般
较高
一般

一般
查 准 率
一般

较高

一般
较高
易 用 性
一般

较好
较好
较好

搜索结果
标准、压缩、
详细
标题、摘要
条目数可选
简单
条目数可选
标题、摘要
条目数可选
标题、摘要
条目10-50/页
删除重复信息
按来源列出
搜索语法规则
布尔逻辑






短句检索





问句检索





位置逻辑


通 配 符


限定范围


动态分类



特定搜索功能
主    机




文档标题




域    名

图    片


其他
大小写敏感
高级不支持+、-
支持多语种
支持多语种
规定许多禁用词不能用于
检索
可在搜索结果中进行
二次检索
大小写敏感
显示最好的
40个站点
只提供被调用
引擎的
前10条记录
注:1. 搜索范围中的W指Web;U指Usenet;G指Gopher;E指Email;F指Ftp。
2. 有些搜索引擎虽有相同的功能,但具体使用中,其语法规则存在一定差异。
表1  部分重要的英文搜索引擎综合比较
Chart1  The complex comparison among some important English search engine
4  高质有效Internet信息获取的策略
搜索引擎虽然提供了搜索的途径和便利,但为了能更加快速有效地获取Internet的信息,还必须掌握好搜索方法,不断探索新的搜索策略。
4.1  明确搜索主题和目的
在进行搜索之前,首先应该把主题分解成一系列的基本概念;在此基础上,再进一步为每个概念列出关键词,有些概念可能只有—个关键词,而有些则可能有多个关键词,例如“计算机”的相关词还有“电脑”等;最后,界定好各关键词之间的逻辑关系。
4.2  根据搜索主题和目的选择好搜索引擎
例如:搜索热门主题,可选用AltaVista或Excite;搜索比较专深、信息源较少的主题,可选用Infoseek、AltaVista;要针对性了解Web站点与某个特殊主题的链接情况,就必须选用对站点有特定搜索功能的引擎。对搜索效果不满意时,应及时机动地换用其他引擎。
4.3  灵活选择好搜索模式
若主题更适合于采用专业数据库,如Dialog等,应尽量利用这些数据库,因其标引质量和信息质量显然高于纯自然语言的搜索引擎系统,查全率和查准率都要高得多;若主题属于广泛性信息,可采用目录分类浏览搜索;若是交叉性主题,则最好使用关键词搜索;若是对搜索目标要求不高时,可采用简单搜索以节省时间。
4.4  选择处理好关键词,使之发挥出最大的效能
搜索时使用的关键词越丰富准确,逻辑组合得越合理恰当,搜索结果就会越接近目标。具体可参考下述方法:
使用相关程度高且含义较窄的关键词,避免使用虽然与主题有关,但是含义很广的关键词;
搜索多个关键词时,应明确它们之间的逻辑关系,合理使用各种逻辑符号来描述各词之间的关系,而不是简单地只是用空格或逗号等分隔;
对关键词进行拼写检查,拼写错误可能会导致结果面目无非;
注意关键词字母的大小写,有些搜索引擎对字母大小写很敏感,这时可以对某些关键词采用全部大写或大小写混和的方式,以便让符合大小写规则的信息显示在搜索结果集的前面;
关键词是一个短语时,要用引号让其形成一个短语后再搜索;
根据搜索引擎功能,特别限定关键词的位置。例如:想了解有关对盐城师范学院网址的链接信息,可以输入link:yctc.edu.cn;
在搜索结果不理想时,尝试使用其它的关键词。
4.5  巧妙灵活地使用语法规则,提高检索的效果和质量
大部分搜索引擎都设有如何使用的提示说明,如help、tips等,应认真阅读其内容。因为不同的引擎可能使用不同的语法规则,这样可少走很多弯路。
4.6  当搜索结果中无关信息太多时,可尝试用以下方法处理
合理使用NOT布尔逻辑来排除无关信息;
有些引擎支持在上一次搜索结果中进行再次搜索,这时可增加内涵更小的关键词,进行二次搜索;
如果搜索引擎支持,使用NAER位置逻辑来减少搜索结果;
如果搜索引擎支持,使用指定范围的域搜索功能,如指定Web站点、地理区域等;
换用专业技术性更强的数据库系统或其他搜索引擎。
4.7  当搜索结果中相关信息太少时,可尝试用以下方法处理
去掉不重要的关键词;
使用含义更广泛的关键词、同义词或者近义词;
合理使用OR布尔逻辑来增加信息量;
换用其他搜索引擎,要知道Internet上没有一个搜索引擎的数据库是完全相同的;
使用元搜索引擎,以便能同时从多个其他引擎中搜索。
4.8  利用搜索引擎与手工搜索方式有机结合
做到上网前心中有数,上网时灵活机动,这样才能节省上网时间、提高搜索时的效率并有效甄别出搜索结果的质量。
4.9  平时注意积累和收藏
平时应注意积累和收藏有关信息获取和信息发布的站点和网页,善于使用收藏夹或Bookmark;关注Internet技术和搜索引擎技术的最新发展,以便能及时、准确、灵活地使用这些新特性和特殊功能。
5  预见和建议
Internet上的信息量正呈几何级地增长,用户的需求又是如此的多样化和个性化,这都对搜索引擎的发展提出了更高的要求。经过了多年发展之后,现在的搜索引擎功能已越来越强大,提供的服务也越来越全面并更具个性化,其目标就是把自己发展成为用户首选的Internet门户,而不仅仅是提供单纯的搜索服务。
本文对搜索引擎的发展,提出如下的预见和建议,仅供参考:
5.1  基于Directory的搜索引擎仍将长期居主导地位,而基于Robot的引擎则更多地以辅助的面貌出现
基于Directory的引擎与基于Robot的引擎相比更具优越性,对用户更具吸引力,因为用户在信息获取时,往往更习惯于从专业学科分类入手。Internet上众多商业实践也证明了基于Directory引擎的巨大成功,如Yahoo、搜狐等。但由于两者各有特点,无法相互替代,故两者应优势互补,以提高智能化程度和搜索的效果和质量。基于Directory的引擎应注意采用Robot技术,扩大信息覆盖面,提高查全率;基于Robot的搜索引擎应注意配合Directory方法,加强信息的甄别和分类,提高查准率。
5.2  元搜索引擎发展方兴未艾
用户对这种整合型的搜索引擎很感兴趣,因其可以很方便地一次输入,多向、多层展开搜索,而且搜索效果和质量正越来越理想。元搜索引擎赖以发展的并行搜索技术也已得到了长足的进步。在性能上,元搜索引擎应有所突破,应支持各种高级的搜索功能,包括短语搜索、问句搜索、截词搜索、概念搜索、特定搜索等,应能根据被调用引擎的特点高智能地提交用户搜索请求,从而更加有针对性地提供服务。
5.3  搜索技术越来越先进,搜索功能越来越强大
除继续完善AND、OR、NOT等简单的布尔逻辑语法规则外,正有越来越多的搜索引擎提供位置搜索、域搜索、特定限制搜索等功能,用户使用起来更加方便,搜索结果更加丰富准确。今后发展中,应重点采用最新的全文搜索技术,开发如主题词、网站、主机、题名、作者、图像、多媒体等多种方式并存、功能更强大的新一代全能型搜索引擎。
5.4  引擎数据的更新和搜索结果的去重
这正日益成为搜索引擎发展中不容忽视的问题。各搜索引擎应加大对已有引擎数据库进行定期检查的深度和广度。在结果去重上,应对搜索结果中的镜像站点、无效链接或指向其他链接的信息增强判断力,合并相同的、去掉无效的或不相关的链接。另外,由于搜索引擎的索引深度不够,造成同一信息点的链接过多,所以应在数据库中对同一信息点避免做过多索引,在搜索结果中对同一信息点的过多链接应加以适当限制。
5.5  服务多样化和个性化趋势越来越明显
多样化和个性化服务是吸引用户的重要手段,尤其对于商业搜索引擎更是如些。Internet时代是一个“注意力”经济时代,即谁拥有的用户数越多、访问率越高,谁拥有的财富就越多。所以各大搜索引擎正逐步提供包括新闻、金融、天气、购物、邮件等多方位服务,并且允许用户为自己定制个性化页面。
5.6  易用性的改善和标准化建设
大多数用户是普通用户,而且对众多搜索引擎繁杂且各异的语法规则知之甚少,因此,搜索引擎发展过程中应充分考虑用户的使用水平和需求特点,在保证一定搜索质量的前提下,提高易用性和标准化程度。搜索语法规则标准化、规范化可极大地降低成本,提高搜索质量和用户易用性。应做到对结果的处理更加灵活方便,用户界面可进一步优化,应给予用户更多处理结果的权限,这也是提供个性化服务的一个方面,用户可根据需要和实际情况,方便地定制和管理自己的搜索结果集。
5.7  多种搜索模式协调发展
搜索引擎出于用户易用性的考虑,所以采用了自然语言的模式。各种搜索引擎建立的数据库也仅仅是排除了词频特高的词之后的关键词,类目的设置也较粗,因此,造成查全率和查准率不高。今后,搜索引擎的发展中应着力解决好这方面问题。模糊搜索、精确搜索、自然语言搜索和主题搜索应协调发展。
5.8  大型综合型搜索引擎与小型专业型搜索引擎的协调发展和开发
大型综合型引擎如Yahoo和A1taVista等需要大量的人力、物力和财力去支撑,这不是一般信息开发机构所能做到的,且现在Internet上优秀的大型综合性引擎已有很多,我们在开发利用时,可充分利用现有的大型综合型引擎,二次开发建立符合自己需要的小型专业型引擎,来满足本行业、本单位的需要。
5.9  进一步向专、精、深方向发展,分布协作式开发应引起足够重视和应用
用户在Internet上搜索信息时,一方面苦于没有专业的搜索工具,另一方面却是任何搜索引擎又都可以使用,开发新一代分布式专业搜索引擎就成为一个必然的重要发展方向。分布协作式开发,就是按照某种原则(如学科分类、地理区域等)把Internet上的信息资源划分成若干子资源,并分别建立搜索引擎,提供专业化、区域化的分布式服务,各分布式搜索引擎间应加强相互间的协作,以达到信息资源共享的目的。
参考文献
1  贾明心.互联网信息资源及其利用.武汉水利电力大学学报,1999,(1):72~75
2  王继成等.基于Internet的信息资源发现技术与实现.计算机研究与发展,1999,36(11):1369~1374
3  李名智.中文搜索引擎发展的现状、问题及对策.中国信息导报,1999,(2):34~37
4  王忠,周士波.Internet英文搜索引擎评析.情报学报,1999,18(5):394~399
5  孙丽.对建立网上中文检索工具开发过程的比较研究.中国科技信息研究所学位论文,1998,(6):53~58
Search Engine AND Internet information OBTAINMENT
Xue Hongming
(Yancheng Teachers College  Yancheng  224002)
Abstract  Search engine is one of the common-uesd methods to obtain information from Internet. This paper describes simply the classification, mechanism, search grammar and its operating principles of search engine. It compares and analyzes several common-used features of search engine and technology character. It goes further into realizing high speed, effectiveness and high quality of Internet information obtaining methods and strategies. This paper also presents some predictions and suggestions on the development of search engine.
Key words  Search engine. Internet. Information obtainment.