网络舆情分析技术
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.2 搜索引擎概念

2.2.1 通用搜索引擎

目前,在互联网上使用的搜索引擎有很多,如谷歌、百度等,这些搜索引擎主要关注的是广大用户的信息搜索需求,这类搜索引擎也称为通用搜索引擎。通用搜索引擎将自动搜索互联网中各种信息,经过整理、组织、加工和处理后,通过建立索引数据库来管理和存储这些信息,并提供基于索引的信息检索服务。当用户发出搜索请求时,搜索引擎根据用户提交的查询条件,从索引数据库中快速检索出用户所需的网页信息,并返回给用户。

1.通用搜索引擎分类

按照信息搜索方式和服务提供方式的不同,搜索引擎可以分为如下三大类。

(1)目录搜索引擎:以人工方式或半自动方式搜集信息,由编辑人员查看信息后,人工生成信息摘要,并将信息放置在事先确定的分类框架中。信息通常面向网站提供目录浏览服务和直接检索服务。这类搜索引擎因加入了人的智能,所以信息定位准确、导航质量高,缺点是需要人工介入、维护量大、信息量较少、信息更新不及时等。这类搜索引擎的代表有雅虎、LookSmart等。

(2)机器人搜索引擎:由一个称为网络蜘蛛或网络爬虫的机器人程序以某种搜索策略自动地在互联网中搜索信息,并为搜索到的信息建立索引数据库,为用户提供信息检索服务。这类搜索引擎的优点是信息量大、更新及时、无须人工干预。缺点是返回信息过多,有很多无关的信息,用户必须从结果中进行筛选。这类搜索引擎的代表有谷歌、百度等。

(3)元搜索引擎:元搜索引擎是将用户的查询请求同时递交给多个搜索引擎,将返回的结果进行重复信息排除、重新排序等处理后,作为最终的结果返回给用户。这类搜索引擎的优点是返回结果的信息量更大、更全。缺点是不能充分利用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表有Web Crawler、Info Market等。

除了上述的主流搜索引擎外,还有一些门户网站也提供信息搜索及其查找服务。

2.通用搜索引擎结构

通用搜索引擎通常由网络蜘蛛(Spider)、索引器、检索器和用户接口等4个部分组成,其系统结构如图2-1所示。

图2-1 通用搜索引擎系统结构

(1)网络蜘蛛(亦称网络爬虫)在互联网中不断地搜索(也称爬行),发现和采集新的网页信息,然后将网页信息存入页面库,由索引器建立索引。

(2)索引器将分析网络蜘蛛所采集的信息,从中抽取出索引项,建立用于检索页面的索引表,存入索引库中。

(3)检索器将根据用户的查询请求和条件,从索引库中快速检索出网页信息,并通过网页相似度评价,对输出的结果进行排序。

(4)用户接口为用户提供一个输入查询请求和显示查询结果的用户界面。

3.通用搜索引擎不足

尽管通用搜索引擎已经成为搜索互联网信息的常用网络工具,但是它也存在一定的局限性:

(1)不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果往往包含用户并不关注的大量网页。

(2)通用搜索引擎的目标是尽可能高的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间存在一定的矛盾。

(3)通用搜索引擎主要提供基于关键字的信息检索,一般不支持基于语义的信息查询。

2.2.2 主题搜索引擎

主题搜索引擎是一种针对特定主题的搜索引擎,可以为某一特定领域、某一特定人群或某一特定需求提供信息检索服务,其特点就是“专、精、深”,与通用搜索引擎相比,主题搜索引擎显得更加专注、具体和深入。

1.主题搜索引擎特点

主题搜索引擎专注于特定主题或领域的信息搜索,对于非特定主题或领域的信息被视为无效信息。这就要求网络蜘蛛在互联网上搜集信息时,必须采用基于主题的搜索策略。网络蜘蛛按照预先设定的主题来搜集相关信息,减少了所采集的信息量,提高了索引库中的信息质量。

主题搜索引擎具有以下特点:

(1)领域范围小。由于专注于特定主题或领域,信息量相对较小,便于建立起一个专业信息收录全、能够实时更新的索引库,提高了信息的质量。

(2)词汇量小。只涉及某一个或几个主题或领域,能够降低词汇和用语的一词多义现象,而且利用主题词表进行规范和控制,提高了信息查全率。

(3)准确率高。可以通过专家指导等方式,提高查询语句的明确性和精确度,使查询结果的准确率大为提高。

(4)便于带宽的使用。信息采集量小,减少了网络传输量,有利于网络宽带的有效利用。

(5)查询响应时间短。由于索引数据库的规模小,有利于缩短查询响应时间,还可以采用复杂的查询语法,提高用户查询的准确度。

2.主题搜索引擎结构

主题搜索引擎是在通用搜索引擎结构上改进而成的,其改进主要表现为如下几个方面。

(1)主题网络蜘蛛。采用面向主题的网络蜘蛛,能够按照预先设定的主题有选择性地搜集相关的网页,排除不相关的网页。由于信息搜集范围要小得多,提高了信息搜集质量,并且便于信息实时更新。

(2)索引器。对搜集到的信息进行准确的分类标引是搜索引擎中最重要的一个环节。在通用搜索引擎中,对信息的分类标引主要有自动和人工两种。自动分类标引速度快,但精确度不高;人工分类标引精确度高,但速度太慢。而主题搜索引擎所涉及的领域和信息量都比较小,完全可以将两种分类标引方法有机地结合起来,在自动分类标引过程中加入人工智能,利用专家知识对信息进行分类标引,提高了信息质量。

(3)检索器及用户接口。对检索器和用户接口改进主要体现在4个方面:一是提供了充分表达用户查询要求的检索功能。二是提供了相似度反馈机制,不仅可以通过计算检索词在每个结果中的出现次数和出现位置来计算相似度,而且可以根据用户的要求决定相似度,通过多次交互逐步求精。三是能够集中处理检索,可通过站点共聚或内容共聚,减少信息总量,将检索结果集中处理成相同的格式反馈给用户。四是能够应用自动获得的领域模型和用户模型进行智能化信息搜集、索引和过滤,并自动地将用户感兴趣的有用信息提交给用户。

主题搜索引擎系统结构如图2-2所示,主要由面向主题的网络蜘蛛、索引数据库、关键词数据库、用户接口、关键词相似度计算、文档相似度计算、文档聚类器、检索器等部分组成。

图2-2 主题搜索引擎系统结构

主题搜索引擎工作过程如下:

(1)系统首先将人工收集到的常用关键词输入到关键词数据库中,然后启动面向主题的网络蜘蛛模块,根据关键词数据库中的关键词爬行Web页面,取回搜集到的文档。

(2)通过文档相似度计算模块计算其文档相似度,去除与主题无关的信息。然后通过文档聚类器模块将与主题相关的信息聚类成簇,并根据关键词建立索引,分类存入到索引数据库中。

(3)用户通过用户接口或用户界面输入相应的关键词,系统启动关键词相似度计算模块,查询关键词数据库中是否存在相匹配的信息,如果存在则直接从索引数据库中提取相关的信息建立索引。系统通过检索器模块,从索引数据库中快速检索出相关文档信息,并对文档信息与查询信息之间的相似度进行评价,以此来排序将要输出的结果,实现某种用户相关性反馈机制。