浅谈网络信息挖掘 : web数据挖掘_信息检索与web挖掘

随着网络信息资源的急剧增长，人们越来越多地关注如何开发和利用这些资源。然而，目前中英文搜索引擎均存在查准率、查全率不高的现象，这种现状无法适应用户对高质量的网络信息服务的需求；同时电子商务以及各种网络信息服务迅速兴起，原有的网络信息处理与组织技术无法赶上这样的发展趋势，网络信息挖掘就是在这样一种环境下应运而生的，并迅速成为网络信息检索、信息服务领域的热点之一。
1　网络信息挖掘概述
1.1　数据挖掘(Data Mining)
网络信息挖掘必须从数据挖掘谈起。数据挖掘，又称为数据采掘、数据开采，相近的术语有KDD(Knowledge Discovery in Database，数据库知识发现)、数据分析、数据融合(Data Fusion)等。根据W.J.Fraw

【数据挖掘研究院】（China Data Mining Research,CDMR）是一个专注于数据挖掘及其相关技术的讨论组织，参与者都是数据挖掘及其相关学科的爱好者。作为论坛的组织者我们也是数据挖掘的忠实爱好者，希望能够利用一些有限的资源为中国数据挖掘营造一个良好的发展环境。

ley和G.P.Shapiro等人的定义，数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识，而这些知识是隐含的、事先未知的、潜在的有用信息。
数据挖掘的提出最初是针对大型数据库的，这些数据库容量可能达到GB(10⁹)字节，甚至TB(10¹²)字节，最近IBM提出其数字图书馆的数据将可能达PB(10¹⁵)字节。
从更广义的角度来讲，数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。因而，数据挖掘的对象不仅是数据库，还可以是任何组织在一起的数据集合，如WWW信息资源等。目前数据挖掘工具能处理数值型的结构化数据，而文本、图形、数学公式、图像或WWW信息资源等半结构、无结构的数据形式将是数据挖掘的挑战之一。
1.2　网络信息挖掘
国外有人认为：网络信息挖掘就是利用数据挖掘技术，自动地从网络文档以及服务中发现和抽取信息的过程。国内则众说纷纭。有学者将网络环境下的数据挖掘归入网络信息检索与网络信息内容的开发。也有站在信息服务的角度上提出“信息挖掘”，指出其有别于传统的信息检索，能够在异构数据组成的信息库中，从概念及相关因素的延伸比较上找出用户需要的深层次的信息，并提出信息挖掘将改革传统的信息服务方式而形成一个全新的适合网络时代要求的信息服务组合。
网络信息挖掘分为如下四个步骤(如图1)：(1)资源发现，即检索所需的网络文档；(2)信息选择和预处理，即从检索到的网络资源中自动挑选和预先处理得到专门的信息；(3)概括化，即从单个的Web站点以及多个站点之间发现普遍的模式；(4)分析，对挖掘出的模式进行确认或者解释。

资源发现

—↓

信息选择与预处理

—↓

概括化

—↓

分　　析

图1　网络信息挖掘的步骤图

2　网络信息挖掘的类型
根据挖掘的对象不同，网络信息挖掘可以分为网络内容挖掘(Web content mining)、网络结构挖掘(Web structure mining)以及网络用法挖掘(Web usage mining)。
2.1　网络内容挖掘
网络内容挖掘即从网络的内容/数据/文档中发现有用信息的过程。网络信息资源类型众多，Internet出现之前的Gopher、FTP、Usenet资源逐渐隐藏到WWW形式之后，但这些资源仍可以通过web进行访问；目前WWW信息资源已经成为网络信息资源的主体。然而除了大量的人们可以直接从网上抓取、建立索引、实现检索服务的资源之外，一些网络信息是“隐藏”着的数据，如由用户的提问而动态生成的结果，或是存在在DBMS(数据库管理系统)中的数据，或是那些私人数据，它们无法被索引，从而无法提供对它们有效的检索方式。以上是从网络信息源的角度探讨，若从资源形式看，网络信息内容是由文本、图象、音频、视频、元数据等等形式的数据组成的，因而我们所说的网络内容挖掘将是一种多媒体数据挖掘形式。
2.2　网络结构挖掘
网络结构挖掘即挖掘Web潜在的链接结构模式。这种思想源于引文分析，即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类，并且可以由此获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点，并且可以概观指向众多权威站点的相关主题的站点。
2.3　网络用法挖掘
通过网络用法挖掘，可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据，而网络用法挖掘则不同于前两者，它面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括：网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问式等等。
上述三个网络信息挖掘类型的比较见表1：

表1　网络信息挖掘类型比较

	网络信息挖掘
	网络内容挖掘		网络结构挖掘	网络用法挖掘
	信息检索观点	数据库观点	网络结构挖掘	网络用法挖掘
数据形式	非结构化、半结构化	半结构化、数据库形式的网站	链接结构	交互形式
主要数据	文本文档、超文本文档	超文本文档	链接结构	服务器日志记录浏览器日志记录
表示	Bag of words、n-grams、词、短语、概念或实体、关系型数据	边界标志图(OEM)、关系型数据	图形	关系型表、图形
方法	TFIDF和变体、机器学习、统计学(包括自然语言处理)	Proprietary算法、ILP、(修改后)的关联规则	Proprietary算法	机器学习、统计学、(修改后)的关联规则
应用	归类、聚类、发掘抽取规则、发掘文本模式、建立模式	发掘高频的子结构、发掘网站体系结构	归类、聚类	站点建设、改进与管理、营销、建立用户模式

　　表1中分别从5个方面比较了三类网络信息挖掘。首先解释一下结构化、半结构化、非结构化数据。结构化数据如数据库表中的数据或者是由数据库生成的HTML页面；半结构化数据则指一般的HTML文档；而非结构化数据是指自由文本之类的数据。网络信息包括了上面列举的所有形式的数据。本文中将不会详细介绍各类挖掘所采用的数据表示形式及挖掘的方法。关于它们的具体应用将在第4点中加以介绍。
3　网络信息挖掘与网络信息检索
狭义上讲，网络信息检索就是网络信息(内容)挖掘的一种。最初，信息检索的目标是标引文本，并从集合中找出有用的文档；发展到今天，信息检索研究涉及到建立模型、文档分类与归类、用户交互、数据可视化、数据过滤等等。从这个角度看，网络信息挖掘只能作为信息检索过程的一部分。最明显的一个例子就是Web文档的分类与归类。
下面我们以国外著名的搜索引擎Google(http://www.google.com)为例，剖析网络信息挖掘技术在网络信息检索中的应用。首先我们先看一下Google的体系结构(见图2)。
Google的搜索机制是：几个分布的Crawler(自动搜索软件)同时工作——在网上“爬行”，URL服务器则负责向这些Crawler提供URL的列表。Crawler所找到的网页被送到存储服务器(Store Server)中。存储服务器于是就把这些网页压缩后存入一个知识库(repository)中。每个网页都有一个关联ID——doc ID，当一个新的URL从一个网页中解析出来时，就被分配一个doc ID。索引库(Indexer)和排序器(Sorter)负责建立索引，索引库从知识库中读取记录，将文档解压并进行解析。每个文档就转换成一组词的出现状况(word occurrences)，称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些hit又分成一组“barrels”，产生经过部分排序后的索引。索引库同时分析网页中所有的链接并将重要信息存在Anchors文档中。这个文档包含了足够信息，可以用来判断一个链接被链入或链出的结点信息。
URL分解器(URL Resolver)阅读Anchors文档，并把相对的URL转换成绝对的URLs，并生成doc ID，它进一步为Anchor文本编制索引，并与Anchor所指向的doc ID建立关联。同时，它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。
排序器会读取barrels，并根据词的ID号(word ID)列表来生成倒排挡。一个名为DumpLexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器(Searcher)使用。这个搜索器就是利用一个Web服务器，并使用由DumpLexicon所生成的词表，并利用上述倒排挡以及页面等级来回答用户的提问。
从Google的体系结构、搜索原理中可以看到，其关键而具有特色的一步是：利用URL分解器获得Links信息，并且运用一定的算法得出了页面等级的信息，这采用的技术正是网络结构挖掘技术。作为一个新兴的搜索引擎，Google正是利用这种对WWW的连接进行分析和大规模的数据挖掘的技术，使其搜索技术远胜一筹。前不久，Yahoo!与Google携手合作，希望凭借Google的搜索技术来确保其在技术上领先与创新的优势。

图2　Google的体系结构

4　网络信息挖掘的应用前景
在国外，数据挖掘技术已经广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中，而它在网络中的应用也正在成为一个热点。网络信息挖掘的应用涉及到电子商务、网站设计和搜索引擎服务等众多方面。下面主要从这三个方面介绍其应用。
4.1　电子商务
运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动发现隐藏在数据中的模式信息，了解系统的访问模式以及用户的行为模式，从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间，可以判断出用户对资源兴趣如何；对日志文件所收集到的域名数据，根据国家或类型(.com,.edu,.gov)进行分类分析；应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。
4.2　网站设计
通过对网站内容的挖掘，主要是对文本内容的挖掘，可以有效地组织网站信息，例如采用自动归类技术实现网站信息的层次性(hierarchy)组织；同时可以结合对用户访问日志记录信息的挖掘，把握用户的兴趣，从而有助于开展网站信息推送服务以及个人信息的定制服务。目前PDA(Personal Digital Assistant个人数字助理)以及Cellular phone(移动电话)都已经可以直接接受网络信息服务。这些设备的显示界面较小，因而网站面向这些设备的设计就应当突出精品化、个性化的特点，而这类特色推送服务就必须采用网络信息挖掘技术。
4.3　搜索引擎
网络信息挖掘技术在搜索引擎上的应用我们在上一节中已经作了一些介绍。Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。而实际上，网络信息挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘，可以实现对网页的聚类、分类，实现网络信息的分类浏览与检索；同时，通过用户所使用的提问式(query)的历史记录的分析，可以有效地进行提问扩展(query expansion)，提高用户的检索效果(查全率，precision；查准率，recall)；另外，运用网络内容挖掘技术改进关键词加权算法，提高网络信息的标引准确度，从而改善检索效果。
上面仅仅列举了网络信息挖掘技术在这三个方面的应用。这项技术的应用正变得越来越广泛；用户对高品质、个性化的信息的需求也将进一步推动着学术界与实业界的研究开发工作。

参考文献

1　胡侃、夏绍玮.基于大型数据仓库的数据采掘，研究综述.软件学报，1998，9(1)
2　邹涛等.基于WWW的文本信息挖掘.情报学报，1999，18(4)
3　曾民族.“数象信息科学”和当前研究课题.情报理论与实践，1998，21(2)
4　马费成，陈悦.面向高速信息网络的信息资源管理(一)从技术角度的分析.中国图书馆学报，1998，24(113)
5　Raymond Kosala and hendrik Blockeel.Web Mining Research:A Survey.ACM SIGKDD，July 2000.
6　S.Brin and L. Page. The anatomy of a large-scale hypertestual Web search engine. In Seventh International World Wide Web Conference, Brisbane, Australia, 1998

7　李绍华.OLAP和数据挖掘技术在Web日志上的应用.现代计算机，1999(3)

转载请注明：数据分析 » 浅谈网络信息挖掘 : web数据挖掘_信息检索与web挖掘