数据挖掘技术在数字图书馆中的应用研究

时间:2022-05-19 10:10:03 心得体会 浏览次数:

(北京大学 医学部,北京 100191)
摘 要: 文章介绍了数据挖掘的主要技术,即关联规则和聚类算法,并针对北京林业大学数 字图书馆数据的具体特点,将这两种关键技术运用到图书馆借阅信息挖掘过程中,通过分析 挖掘结果,寻找借阅书刊一些潜在的规律,优化图书馆的馆藏布局,提高个性化服务质量。
关键词:数据挖掘; 关联规则; 聚类算法; 数字图书馆
中图分类号:TP274  文献标识码:A  文章编号:[HT K]1007—6921(2009)04—0158—03

随着高校图书馆数据库中数据量的迅速增加,如何使高校图书馆朝着自动化、数字化和信息 化的方向发展,已成为目前迫切需要解决的问题。如果将数据挖掘技术很好的运用到图书馆 数据库中,将会使其职能相应地实现转型,即除了传统的服务和教育职能外,还可以为高校 的决策、管理及建设发展提供信息咨询与服务。这样可以使高校图书馆逐步成为开放的社会 化数字图书馆,为师生的学习及科研创造更好的环境和氛围。
1 数据挖掘及其关键技术
1.1 数据挖掘的定义

数据挖掘(Data Mining,简称DM),就是从大量的、不完全的、有噪声的、模糊的、随机的数 据库中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程 [1] 。它主要研究发现知识的各种方法和技术,并利用各种分析工具在海量数据中分析发现模型 和数据间的潜在关系。
1.2 数据挖掘中的主要技术
1.2.1 关联规则。关联规则是数据挖掘的主要技术之一。所谓关联规则,就是寻找数据库 中 数据项(属性、变量)之间存在(潜在)的关联规则。利用关联规则的数据挖掘技术,可以找出 大量数据之间未知的依赖关系。例如:通过对读者借阅行为进行关联规则分析,可以分析出 不同图书类别中的潜在关系。虽然数据挖掘中频繁项集挖掘算法对于一些非稠密数据库能够 取得较好的性能,但对于稠密数据库或者支持度阈值比较小时,频繁项集的数量会以指数形 式增长,使得找出所有的频繁项集成为不可能的任务。但实际上,在频繁项集中,存在着较 多的冗余,最大频繁项集的规模是所有频繁项集中最小的,并且可以导出频繁项集。因此我 们可以使用最大频繁项集数据挖掘,提高关联规则挖掘效率。
1.2.2 聚类分析。聚类是一种常见的数据分析工具,其目的是把大量数据点的集合分成若 干 类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。因此在 数据进行聚类这一过程中没有指导,是一种无监督分类。聚类分析是用数学方法研究和处理 所给对象的分类以及各类之间的亲疏程度,是在对数据不作任何假设的条件下进行分析的技 术[2]。
2 数据挖掘技术在图书馆借阅信息中的应用

数据挖掘在商业领域内的应用给图书馆带来了很大启发,图书馆读者的特点是数量巨大、读 者的年龄不同、工作性质和专业方向不同、研究领域更是差别很大,这样的读者特点给图书 馆提出了不同的个性化要求。如何满足读者的需求,提高读者的满意度,给读者更好的服务 ,是一个值得研究的问题[3]。

在读者利用图书馆的资源过程中会留下诸如读者基本信息、借阅历史、检索历史等有价值的 大量信息,这正是图书馆工作者获取读者信息需求、读者分类、需求聚类的宝贵数据,获取 这些信息就可以据此提供个性化信息服务,即根据读者兴趣文件或兴趣规则主动向读者提供 有价值的资源。通过分析数据挖掘的结果,寻找各个学科领域中的一些相互关联的知识、优 化图书馆的馆藏布局。图书馆数据库的各个表中包含很多信息,其中读者的借阅信息是主要 信息之一,它直接面向读者,反应读者的借阅需求。下面以北京林业大学数字图书馆为例, 对读者的借阅信息进行数据挖掘。
2.1 关联规则算法的应用

应用关联规则算法对借阅数据进行挖掘,在图书馆优化书架书库的管理、发现学科间的隐性 关联、指导读者的借阅行为和提供个性化服务等方面有积极作用。
2.1.1 提供个性化特色服务。在传统的期刊服务过程中,一般是用户提出信息服务请求, 然 后由图书馆员做出解答,后来出现了定制式服务,由图书馆员定期向用户提供与其所从事的 课题有关的信息资料。显然,这二者都是由客户首先提出服务需求,然后才得到相应的服务 。利用数据挖掘,完全可以根据用户借阅、查阅的历史资料以及正在从事的课题研究进行数 据挖掘,从而了解用户的所需,确定个性化服务内容,主动将相关资料发送到他们手中 [4] 。另外,由于有的读者在借阅图书之前,有一些盲目性,不知道自己需要哪类书,什么书适 合自己,因此可以根据挖掘出来的关联规则,指导读者借阅书籍,也利于他们今后的学习和 研究。

在进行数据挖掘前,首先选取2005年至2007年三年内北京林业大学图书馆所有读者借阅数据 ,并对数据进行预处理,将一些属性根据实际需要进行离散化,例如:用年级将大学生的年 龄离散化为:00级、01级、02级、03级、04级、05级……。在本文挖掘的数据库中,由于借 阅信息表中有一个“学号”的属性,学号前两位标识该学生所在的年级,所以用年级将大学 生的年龄离散化,可操作性强,并且含义清晰。同理,由于北京林业大学图书馆图书是按照 中图法进行分类上架的,我们只需选取读者借阅图书索书号的前3位,就可将图书种类进行 离散化。最后我们对数据运用清理、转换、消减等其他方法进行预处理。

对数据进行预处理之后,使用Apriori关联规则挖掘算法,设最小支持度为1%,最小置信度 为50%,进行关联规则挖掘,可以得到最大频繁项集。从挖掘结果可以看出,大部分院系的 读者借阅与本专业相关的图书比较频繁,例如:信息学院电子信息科学与技术专业借阅计算 机技术类图书的支持度为1.5%,同时可以看出,借阅计算机类图书(TP3)比较频繁的读者 有:电子信息科学与技术系、自动化系、木材科学与工程系、计算机艺术设计系、工商管理 系、电子信息科学与技术系、信息管理与信息系统系、工业设计系、机械设计制造自动化系 、林学系。因此可以在新书推荐时,针对这些系的学生推荐计算机类图书。由于北京林业大 学的学生的自身特点,对于地下建筑类(TU9)、建筑设计类(TU2)图书,主要是园林学院的学 生借阅较多,这也因为此类图书内容和读者专业知识关系比较密切。因此在新书推荐中,可 以针对园林学院学生的特点,将地下建筑类及建筑设计类图书推荐给他们,更好地方便这些 读者的借阅。
2.1.2 发现学科间隐性关联。此外,针对学科领域的主要研究人员进行关联关系挖掘还能 发 现最新学科发展动向,我们选取前面已经处理过的数据表,并对该读者借阅信息表进行降维 ,使它只包含每个读者借阅的所有图书种类。然后使用挖掘速度较快的FP-growth算法,挖 掘最大频繁项集,设置最小置信度为80%。从挖掘结果可以看出,在同一个大类学科中有些 小类之间有很强的关联关系,例如:频繁二项集F71,F27(国内贸易经济,企业经济)的支 持度为17.9%,即同时借阅国内贸易经济与企业经济类的书籍的借阅信息占总借阅信息的17. 9%,因此可以说在F(经济类)图书中,国内贸易经济和企业经济这两类有很强的隐性关联 和隐含的学科动向。其他频繁二项集有相同结果。同样,频繁三项集I25,I26,I24(报告 文学,散文,小说)的支持度为13.4%,报告文学,散文,小说三种小类的图书存在隐 性关联关系。

同理,在不同大类中的频繁项集也存在隐含的关联,例如:频繁二项集C91,B84(社会学, 心理学)的支持度为18.0%,即从挖掘结果看在C(社会科学总论)和B(哲学)这两大类中 社会学和心理学有着隐性的关联关系。因此可以通过数据挖掘中的单维关联规则,挖掘出各 种不同学科中的隐性关系,指出学科的发展方向及潜在关联。
2.2 聚类算法的应用

应用聚类算法对借阅数据进行挖掘,对读者借阅规律的分析和把握、馆藏图书质量判断等方 面有积极作用。

由于有些优秀的书籍往往会被反复借阅,并长期在某一固定用户手中,其借阅次数不一定很 高,但借阅时间很长。这是图书馆中最有利用价值的文献。这些图书并不一定能从借阅次数 上体现其优势,因为某本质量很差的书籍会因为其较为吸引人的标题而被经常借阅,但也不 能因此从书籍的借阅时长来断定其价值。判断馆藏书籍的优劣需从多方面考虑[5] 。笔者通 过统计借阅书籍的平均借阅时间,然后设定最小平均借阅阈值,去掉未达到阈值的图书种类 ,得到馆藏中借阅时间较长的图书。

根据读者借阅数据表中借阅图书日期和归还图书日期,可以得到读者对每种类别图书的借阅 次数及借阅时长。由于读者的借阅行为有这种相似性及连续性,因此只需要对2006年和2007 年读者的借阅信息进行聚类分析,就可以挖掘出读者最近这几年来对图书的需求信息,挖掘 出哪些类图书是最受读者欢迎的图书,从而优化馆藏,引导学生的借阅倾向。

对数据表进行k-中心点聚类分析,将数据集分类,可以得到平均借阅时长较短并且借阅次数 较少的数据类即这类图书不太受读者欢迎(设定为A类);平均借阅时长较长并且借阅次数 较多的数据类,即这类图书较受读者欢迎,是比较受欢迎的图书(设定为B类);平均借阅 时长较长但并未超过借阅时间的期限并且借阅次数很多的数据类,即这类图书是读者最感兴 趣的图书,是热门图书(设定为C类);平均借阅时长非常长而且借阅次数较少的数据类, 分析具体的数据可以得出,这类图书的平均借阅时长远远超过了图书馆规定的借阅时间段, 因此是读者忘记归还或者读者将此类图书丢失造成的,并不是由于读者喜欢这类图书而不按 时归还,因此这类图书也不应该是热门图书(设定为D类)。

比较2006年和2007年的聚类分析图可以看出2007年不受欢迎的图书数量有了很大的下降。因 此可以得出不受欢迎和在超过规定归还期限的图书种类在减少,受欢迎的图书相对增加,而 最受欢迎的图书的种类没有变化。总体来说,图书馆2007年的图书比2006年的图书更受欢迎 ,图书馆的服务质量有所提高。
3 图书馆读者借阅数据挖掘系统设计与实现
3.1 系统需求分析

图书馆读者借阅数据挖掘系统的主要用户包括:读者、图书馆管理者、图书馆工作人员。其 中读者包括任何借阅图书的人,例如:学生、教师、研究人员等,图书馆工作人员包括图书 馆数据库维护人员、图书馆负责上架的工作人员、采购图书的工作人员等。

读者用户群的主要需求包括了解当前学科动向、读者借阅倾向及需求、掌握最新热门图书信 息等。图书馆管理者需求主要包括掌握读者借阅倾向、图书借阅情况等,从而为进一步决策 提供依据。图书馆工作人员需求主要包括如何优化馆藏,方便图书上架,以及更好对图书馆 借阅信息进行处理,为读者提供更好的服务。用户功能需求如图1所示。
3.2 图书馆读者借阅数据挖掘系统体系结构

根据前面提出的数据挖掘算法,并结合北京林业大学图书馆实际应用的需求,设计图书馆读 者借阅数据挖掘系统。该系统在SQl Server数据库基础上,运用数据挖掘模型库为中间层, 进行模型匹配、数据挖掘等操作,并为用户提供可以进行操作的可视化界面。具体系统体系 结构如图2所示。
本系统采用C/S结构,在VC6.0下用C++实现图书馆借阅数据挖掘系统,主要面向图书馆管理 人员及普通读者,应用的具体环境为操作系统Windows XP及数据库服务器SQL Server 2003 。
3.3 系统功能详细设计

根据数据挖掘算法及系统体系结构,本文提出图书馆读者借阅数据挖掘系统的需求模型,如 下图3所示。


3.4 关联规则及聚类分析模块主要界面

在前面介绍的系统体系结构及详细功能设计的基础上,运用VC++进行编程,实现图书 馆读者借阅信息数据挖掘系统,主要的关联规则及聚类分析界面如图4、图5。


4 结束语
本文以数据挖掘为研究对象,将挖掘算法运用到图书馆借阅数据中,挖掘出对读者以及工作 人员有指导意义的隐含信息。尽管目前数据挖掘技术在数字图书馆的应用还处于起步阶段, 但是本文对数据挖掘在高校数图书馆服务中的应用方面作了一定的研究,并取得了一些研究 成果。
由于个性化服务将成为未来数字图书馆技术发展的主要趋势,随着网络用户群的日益增长, 更多的用户期望能得到具有针对性的、个性化的信息服务和用户支持。数据挖掘技术因其在 海量信息资源中的智能表现,能为数字图书馆的个性化服务建设提供不可或缺的技术支持。 尽管数据挖掘作为一门前沿技术,自身还在不断发展完善,还面临着许多问题,但随着研究 的深入,数据挖掘技术必将对数字图书馆的建设产生积极的影响。
[参考文献]
[1] [ZK(]Han Jiawei,Micheline Kamber.范明,孟晓峰译.数据挖掘概念与技术[M]. 北京:机械工业出版社,2001.158~161.
[2] 姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报 ,2005.4,(27) :655~662.
[3] 鲍翠梅,王尊新,白如江.数据挖掘技术及其在图书馆中的应用[J].情报杂志, 2004,(9).
[4] 蔡会霞,朱洁,蔡瑞英.关联规则的数据挖掘在高校图书馆中的应用[J].南京 工业大学学报,2005,27(1).
[5] 李盼池.基于核聚类算法的高校图书借阅信息分类方法[J].现代情报,2003,9(9).

推荐访问:数字图书馆 数据挖掘 研究 技术