利用www搜索引擎检索
来源:上海市欧博官网督畔信息技术有限公司中国|
类型:网站百科|
时间:2014-07-07
WWW也称为Web网或万维网,是欧洲粒子物理研究所的美国科学家Tim Bemers-Lee在1989年开发并命名的一种以超文本为基础形成的信息传输网络,翻开了Internet新的一页。Tin Bemcrs-L“因此被誉为万维网之父,获得全球首个“千年技术奖”。WWW与Internet并非一个概念,而是Internet提供的服务功能之一,WWW使网络用户不再面对枯燥费解的机器指令。通过浏览器和超链接就能直观、方便地访问网络上以指数级增长的文本、图像和各种多媒体信息,除此之外,收集互联网上用户感兴趣的信息还必须借助的有力工具便是WWW搜索引擎。
搜索引擎是互联网上提供信息搜索服务的平台,是应用最广泛的网络服务工具。我们现在通常使用的搜索引攀基本上是运行于WWW中的,所以也可以称为WWW搜索引攀。随着网络信息越来越渗入普通人的生活,搜索引攀已经成为互联网上一种热门和关键的技术,研究与开发的竞赛此起彼伏,从未停止。我们之所以能轻点”数亿计的Internet网页信息,全倚仗互联网中上千个搜索引攀兢兢业业不断地进行着发现、抓取、存储、索引并提供网络信息检索服务的工作。它们正朝着专业化、本土化、生活化方向迈进。WWW搜索引擎按其运作方式差异可划分为三种类型:目录网站、全文搜索引擎和元搜索引擎。
一、目录网站
日录
网站建设属早期的WWW信息搜索工具,其工作方式是由人工进行网络信息的收集、整理,以分类主题形式呈现和浏览。由于人工成本极高,技术含里比较低。从本质上讲算不上真正的搜索引攀,所以至今不受人重视,几乎全部目录网站后来都开发了自己独立的新一代的搜索引攀,演变成常见的关键词搜索形式,如新浪、搜狐、中国雅虎目前都己难觅当初目录浏览风格的踪影,仅有少数还保留着原始网站分类搜索的特征。最著名的网站目录当数Yahoo中文的网站目录从出现的时间排序有搜狐、网易、新浪等,国外有LookSmart. About等,目录网站有如下特点。
①基于树型目录浏览网络信息,简单,易用。以树型目录结构组织的信息资游,具有严密的系统性和良好的可扩充性,该月录加入了人类智稼,屏蔽了网络资深系统相对于用户的复杂性,可以提高信息的准确性,导航质量高。②资源分类目录不够细致。网络信息资派的庞杂性,决定了很难确定一个全面的范畴体系作为主题树结构的基础来涵盖所有的网络信息资源。为了保证主题的可用性和结构的清晰性,范畴体系的类目也不宜过多,这就使一方面有些特殊的类别无处可寻,另一方面大量的Web页因没有包含在目录中而被忽略。随着Web的增长,这个问题会越来越严重。利用聚类或其他自动分类(包括自然语言处理,相关顶抽取等)的方法仍然不能让人满意。并且还会出现机器自动得到的类与人工分类的结果不相同的问题。⑧由于人工介入、维护量大、信息呈相对少、信息更新不及时等,所以为使用户得到更多的信息,这种目录网站常把查询送到其他搜索引擎上,对整个Web进行搜索。当今的目录网站与全文搜索引擎是相互融合的,用户基本不能区分。如Yahoo曾经采用Google的搜索引攀提供页面搜索,Google则采用“OpenDirectory”目录提供分类查询,搜索界面也几乎是千篇一律。
二、全文搜索引攀
全文搜索引擎被称为真正的搜索引擎,与网站目录的区别在于它不再使用人工参与的信息搜索与分类,全部采用软件程序来搜集、索引、检索网络信息,全文搜索引攀的结构由四部分组成。
(I)搜索器。搜索器或称网络机器人。是一种网络自动搜索软件,通常称为“蜘蛛”(spider)、爬虫(crawler)或机器人(robots)等。“蜘蛛”唯一的工作就是在Web中漫游发现和收集信息,它每天可以“爬行”大约一千万个网页,尽可能多快地收集各种类型的新信息。同时因为Web的信息更新很快,所以还要定期更新已经收集过的旧信息,以免死链接和无效链接。收集信息的策略有两个。第一,从一组URL (资源定位器)开始,顺粉这些URL中的超链接,以宽度优先或深度优先方式递归地在Web中抽取信息。这些起始URL常常是一些非常流行的、包含很多链接的站点,例如Yahoo的分类节点;第二,可以通过设置“添加网址”栏,允许网络信息作者主动给搜索引擎提供网页地址,但这种方法常受到垃圾网页制造的轰击,几乎有95%通过添加网址栏提交的网址被拒收。搜索引攀采用的搜索信息策略不同,如搜索频率、搜索对象等会造成每个搜索引擎的搜索结果、质量之间存在差异。
(2)索引器。 索引器或称为标引程序。它的功能是分析收集器所收集的信息,进行自动标引,将文档表示为一种便于检索的形式并储存在索引库中,也就是建立倒排文档。倒排文档中的每个标引项都包含一组指针,指向它出现的网页。为了给用户提供有关被检出文档的信息,标引中还包含每个页面的简单描述,如产生日期、大小、标题、子标题和摘要等。
(3)检索器。检索器或称为检索软件,它的功能是根据用户的查询,在索引库中快速检索出相关文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并能够实现某种用户相关反馈机制(即可以对检索策略的不断修正)。检索器被视为搜索引擎中最复杂的部分,其中包含关于检索结果的排序的重要问题。研究者发现用户不可能耐心地去浏览动辄上万的搜索结果,而只会注意到最前几页的搜索结果,光靠点击率和词频来简单排序的方法显然有缺陷。
三、元搜索引攀
元搜索引攀又称多搜索引擎,这类搜索引攀没有自己的海量数据库,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行去排序等处理后再将结果返回给用户。按其搜索机制可分为并行式和串行式。并行式元搜索引攀指将查询要求问时发向各个独立的搜索引攀。然后将结果按特定的顺序提供给用户。串行式元搜索引攀是将查询耍求先发给某个独立的搜索引擎,待其返回结果后再将请求发给另一个搜索引攀。
来源声明:本文章系上海市欧博官网督畔信息技术有限公司中国编辑原创或采编整理,如需转载请注明来自上海市欧博官网督畔信息技术有限公司中国。以上内容部分(包含图片、文字)来源于网络,如有侵权,请及时与本站联系(021-71886699)。