论文部分内容阅读
DOI:10.3969/j.issn.1008-0821.2021.09.008
[中图分类号]G253.1 [文献标识码]A [文章编号]1008-0821(2021)09-0074-10
1引言
1.1问题提出
图书采访是一项严谨的科学决策工作,尤其是在确定每一类目图书的采访数量或预算后,面对大量差异化趋小、同质化严重的图书品种,优选出流通利用率高、符合图书馆性质、任务等建设方向且综合评价较高的图书,成为图书采访过程中面临的主要任务。
流通数据作为读者需求直接映射结果.在采访实践中,常常作为分类知识的采访数量提供参考,然而,流通数据对具体图书品种的选择,却很难提供数据支持。迫使采访人员把具体图书品种选择的依据转为从读者需求人手,通过各种手段收集需求数据,并采用各种研究工具预测读者需求。但在面临具体图书品种,不能充分挖掘和利用真实的需求数据隐含的参考价值,而是依赖读者的需求意愿,通过需求调查或者读者参与采访等手段作为遴选图书的依据,导致图书采访結果的信度降低,最终影响采访效率。
采用成熟的人工智能算法,挖掘利用隐含在流通数据中读者需求的信息,以此转化为遴选图书的依据,不仅使图书采访有了可靠的客观依据,而且有利于把握复杂多变的读者需求,为进一步研究读者需求规律,探索图书采访的决策分析,提供严谨的逻辑依据和量化决策指标,打造坚实的理论和应用保障。
1.2问题引入
图书采访作为一项决策活动,决策对象是待采访图书,决策内容是选择具有较高流通潜力的图书。图书采访决策的核心问题是基于怎样的原理,采用何种方式,能够科学、客观、严谨地对每一种待采访图书的流通趋势进行量化描述,并根据量化结果,优选出最具有流通潜力的图书。
读者需求和图书流通,是同一问题互为矛盾互为依存的两种表述视角,读者需求的行为结果就是图书流通的表现结果。但是,由于读者需求具有需求意愿和需求行为两个过程,与采用读者需求意愿相比,采用需求行为结果对具体的图书需求品种预测更具有可信度和说服力。
图书馆对馆藏图书流通的掌控和了解程度,相对于读者需求意愿而言,有着更加充分有力、令人信服的客观记录数据基础。馆藏图书有确定的知识内容及其描述信息,馆藏图书流通有详实的记录数据,依据馆藏图书的客观描述和流通等数据比通过收集探索读者需求等主观因素数据,分析图书流通规律与趋势更具有坚实的基础和可靠保障。
在对图书流通现象内在规律和机制充分了解之前,某种图书发生流通的事件,只能称之为有限观察范围内的一种随机事件。随机事件既有偶然性的一面,又具有必然性的一面,这种偶然性意味着隐藏在图书流通现象背后的读者需求规律尚未能被揭示,必然性则表明,复杂且毫无头绪的图书流通现象,具有统计学意义的规律尚待挖掘。
1.3问题分析
图书采访最主要任务,是不断补充具有流通潜力的馆藏,认识了解图书流通的形成机制和特征,是识别图书流通潜力的基础和前提。图书流通是由图书和读者两个图书馆客体对象互动的结果,相对于读者需求意愿与行为,图书具有稳定的客观特征,从图书自身角度,图书是包含固定知识内容的载体。从图书馆馆藏管理角度来看,图书是由MARC数据标识的管理对象;从读者视角,图书只是拥有各种不同名称的知识载体,一种馆藏图书发生流通之前,读者对该图书内容的了解程度,主要有3种情况:一是从未听说该种图书,但通过图书的封面上题名项等信息,对图书承载的知识内容有了初步的认识;二是读者通过各种渠道,对该种图书承载的知识内容有一定的了解,但并不知晓图书的内容细节;三是阅读过该图书,因为各种不为图书馆所知的原因,再次借阅该图书。从图书采访角度来看,图书采访补充的图书种类,主要是读者从未阅读知晓的新书。
一般情况下,对一种图书发生流通的陈述是,图书被有获取图书承载知识内容需求的读者借阅。这种陈述隐含两个重要的前提:一是读者需求背后有着复杂的需求动机和目的;二是读者需求目标是图书所在类目的知识,被借阅的图书仅仅是读者对该类知识载体的一种选择。由此可知,图书发生流通的机制主要在于,一种图书能够展示给读者的内涵表征信息,成为决定该种图书被读者选中借阅的关键因素。图书传递给读者的信息,由两个途径构成:一是图书与读者的直接互动,通过读者观察和翻阅浏览,把图书自身携带的基本描述信息和知识内容展示给读者后,最终形成图书的流通结果;二是读者查看图书的题名、简介,或从其他相关渠道了解的内容,既包括图书内容的基本描述性信息,也包括图书内容简介或部分内容信息,以及图书可能发挥的作用与功能等内容。
从图书流通形成的机制可以看出,一种图书是否发生流通,与这种图书所在的相同知识分类中的其他图书之间,具有竞争和相互影响的关系,与其他分类图书之间没有任何关系。因此,在既不能把握和调控读者主观意愿,也不能了解图书流通现象内在机理和规律的情况下,从具体知识类目下的馆藏基本知识描述信息入,通过考察不同馆藏的流通规律分析,探索具有类似描述信息的待采访图书流通潜力,具有操作的可行性和逻辑的充分性。
1.4问题假设与定义
由于图书采访的目标是选购具有流通潜力的图书,因此,本研究提出一种假设,一种图书流通竞争潜力的影响因素,是图书所在具体分类的类目中,由图书封面的题名、作者和出版机构3个要素对读者综合作用的结果。因此,图书采访决策活动可以表述为:
定义1:设Acq={x1,x2,…,xi为全部待决策图书集合,总计有i种待选图书,xi为每一种待决策图书,每一个待决策图书x={a1,a2,…,am},n为待决策图书z有m维属性特征(即题名等),图书采访决策,就是根据am承载的信息,判断xi未来流通潜力,对xi做出购买Buy或不购买Nobuy的二元分类判断,使Acq集合中每一个对象x,都拥有一个新的分类属性(购买或不购买)。其中,图书的属性特征维度m,是对图书形式和内容所承载全部信息,依据一定分类规则做出的多维特征划分。 5研究过程
5.1数据现状与特征筛选
图书馆TP18类目馆藏图书的基本指标情况是,总计有249种图书,其中,从未发生流通的53种,大约占该类馆藏数量的21%,发生流通的196种,大约占该类馆藏数量的79%,流通次数总计3742次。出版机构覆盖了51个,馆藏图书中最多的是“科学出版社”,达到57种图书,大约占馆藏数量的22%,如表1所示。著者总计有229组,馆藏中最多有3种图书,占馆藏数量的1.16%,如表2所示。
图书馆TP18类馆藏流通覆盖196种馆藏,每种馆藏平均利用19次,采用流通次数作为统计指标,会进一步加剧有流通和无流通分类馆藏数量之间的失衡,可能导致强化优势分类弱化劣势分类特征情况的发生,因此,只对馆藏是否有流通进行标识,而不对馆藏流通次数进行统计。
馆藏特征的提取与淘汰,取决于各分项数据的具体状况。馆藏图书题名项是本研究重点关注的分项指标:出版机构作为馆藏图书的一种特征分项划分,从统计指标来看,能够对馆藏进行差异化分组,可以作为独立开展分析的一项特征纳入分析视野。著者特征虽然是图书的重要特征,但由于著者特征在馆藏中出现频率普遍偏低,最多仅占1.2%,几乎一种图书一个分项,统计差异性过小,而且本研究只限定一种图书是否发生流通的现象,而未扩展到流通的次数问题,因此,著者特征无法作为明显特征开展分析,只能弃用。
5.2构建图书特征语料库
语料来源主要包括图书馆馆藏图书和待采访图书的题名和出版机构,馆藏图书根据流通历史分为有流通和无流通两个分类项,分别标记为circ和nocirc;待采访图书为无分类项的待预测数据,分类项在系统中为空白项。表3为全部数据内容,其中包括馆藏数据249条,待采访图书数据275条。数据内容由题名和出版机构数据构成。
利用自然语言的中文分词技术,提取题名关键词,对分词后的题名关键词和出版机构等语料,利用式(1)进行TF-IDF值的计算和排序,建立语料库,形成如表4所示的内容。语料库把每种图书的题名分解为多个关键词,这些关键词分别表明了人工智能类图书内容的视角、层次、功能、手段等诉求,这些诉求给图书提供了确定性的特征划分,是识别图书流通潜力的重要依据。
5.3构建文献—词项矩阵
文献—词项矩阵采用多变量伯努利事件空间方式,在表现形式上,式(2)中的amn元素数值都是以0和1表示,由于观察事件的有限性,矩阵的形式具有较强的稀疏性,为了节省计算机内存开销和运行效率,并不对矩阵进行密集转换。
表5是部分馆藏图书的文献—词项矩阵,根据馆藏图书的id,利用式(2),对图书特征分项关键词形成的分类项目,建立稀疏矩阵,包括524个文档,697個词项,意味着这个矩阵在不包括流通分类项情况下,是一个524*697的矩阵,697个词项表明在现有的语料基础上,TP18人工智能类图书的细节特征达到697个,利用现有249种馆藏的流通现状,分析馆藏图书流通现状与这697个特征之间的联系,就可为图书流通潜力的分析打开重要的窗口。
5.4训练评价朴素贝叶斯分类模型
作为图书采访决策,目标是对纳入采购计划的图书予以量化评价,以及对评价本身的可靠性给出明确的量化指标。因此,图书采访决策更加关注模型分类结果中,有流通潜力图书的量化指标及其评价。
随机选取馆藏图书数据集的70%作为训练集,剩余30%作为验证集,把数据输入朴素贝叶斯分类模型,利用式(5),训练朴素贝叶斯分类模型。模型的灵敏性、精度、假阳性等指标,采用2×2列联表方式,对模型计算结果进行统计。图1是采用R语言Gmodels包中的CrossTable函数进行模型评估得到的结果。
在纳入统计的69种具有明显特征的馆藏中,包含53种标识为有流通(circ)馆藏和16种标识为无流通(nocirc)。朴素贝叶斯分类模型表现出明显的分类灵敏性,53种有流通的馆藏预测接近60%,16种无流通的馆藏预测62.5%。
图书采访决策关注的重点主要是模型最终预测结果的37种图书,这37种图书评价指标的可靠性就是图书采访最终结果的评价。从预测结果看,模型的精度接近83.78%,假阳性仅为16.22%,这样的结果表明,采用朴素贝叶斯分类方法开展图书采访,在TPl8分类采购的图书中,真正具有流通潜力的图书达到83.78%,而没有流通潜力却购人的图书仅占16.22%。
5.5预测采访图书
利用定义1,把待采访书单数据模型化,根据训练好的朴素贝叶斯分类模型,对275种待选的采访图书进行分类预测,得到模型推荐的有流通潜力的131种图书书单。从模型的灵敏度和假阳性判断,可以对本次TPl8类图书采访,进行总体量化判断和评价,其中至少109种图书具有流通潜力,仅有22种图书不具有流通潜力;也表明,每一种被选中购买的图书,只有16.22%的概率,不具有流通潜力。对于模型推荐的131种TP18类图书,采访人员可以根据前期预置的该类目计划采访种类和数量,参考其他采访约束条件挑选图书。
6研究结论
本研究采用中文分词技术提取馆藏图书特征,并利用朴素贝叶斯分类方法,依据馆藏流通数据,探索和验证图书自身承载描述信息对流通产生的影响和作用规律,并依据模型预测待采访图书的流通潜力,研究结论如下:
在图书采访选书阶段,利用朴素贝叶斯理论和方法,能够暂时不考虑读者因素,仅仅依据馆藏流通动态,在流通数据和图书品种选择之间,直接建立起基于概率论原理的因果量化关系。本研究得到的新书流通趋势判断结论.形成一个全新的参照系.为进一步针对促成图书流通的读者驱动因素,深入探索读者需求动机发生、表达、实施的机制,提供了数据层面的验证和参考指标。对题名、出版、内容摘要等图书描述信息,利用中文分词技术进行关键词切分和提取,不仅能够为进一步开展机器学习等人工智能探索提供可能,还为图书多维分类,深入到图书内容层面开展语义和逻辑分析,提供了必要的方法支撑和无限的可能。
从本研究的数据分布偏移程度来看,静态数据中,同一图书分类下的出版社特征过于集中,而作者特征分布较为松散,图书的知识描述特征相对比较适中;动态流通则表现为出版社特征较为明显的趋势。表明图书馆采访选书的原则偏重出版社因素并兼顾知识分布的广度,馆藏图书及建设特征和读者群体特征相对稳定,读者知识需求呈现连续性特征,能够为基于流通数据,开展采访选书,提供可靠稳定的保障。本研究模型在实验中具有较强的灵敏性,验证了图书流通潜力与图书描述的表征信息有必然联系的假设。表明描述图书承载知识特征的单词和短语等表层描述信息,对馆藏图书发生流通具有直接的影响,并反映在图书流通数据中。
7结语
读者需求行为产生的图书流通数据,是读者需求表现出的客观真实结果,以流通数据为图书采访依据,不仅能够避免过度依赖读者需求意愿,表现出的不确定性、不可捉摸性和复杂变化性,还能够避免图书采访人员主观因素对选书决策产生影响。图书流通数据,凝聚了馆藏图书和读者两个对象全部的信息与内涵,是图书最有价值的数据资源,蕴藏着读者知识需求和馆藏知识的全部秘密,挖掘馆藏流通数据隐含的规律,能够为揭示图书馆内在规律提供坚实的证据。朴素贝叶斯分类,作为一种机器学习方法与工具,为开展科学严谨的图书采访工作,提供一种智能化的决策方法,让图书采访工作真正建立在客观、科学、严谨的基础上,使图书采访的结果可证明、可量化、可解释。
[中图分类号]G253.1 [文献标识码]A [文章编号]1008-0821(2021)09-0074-10
1引言
1.1问题提出
图书采访是一项严谨的科学决策工作,尤其是在确定每一类目图书的采访数量或预算后,面对大量差异化趋小、同质化严重的图书品种,优选出流通利用率高、符合图书馆性质、任务等建设方向且综合评价较高的图书,成为图书采访过程中面临的主要任务。
流通数据作为读者需求直接映射结果.在采访实践中,常常作为分类知识的采访数量提供参考,然而,流通数据对具体图书品种的选择,却很难提供数据支持。迫使采访人员把具体图书品种选择的依据转为从读者需求人手,通过各种手段收集需求数据,并采用各种研究工具预测读者需求。但在面临具体图书品种,不能充分挖掘和利用真实的需求数据隐含的参考价值,而是依赖读者的需求意愿,通过需求调查或者读者参与采访等手段作为遴选图书的依据,导致图书采访結果的信度降低,最终影响采访效率。
采用成熟的人工智能算法,挖掘利用隐含在流通数据中读者需求的信息,以此转化为遴选图书的依据,不仅使图书采访有了可靠的客观依据,而且有利于把握复杂多变的读者需求,为进一步研究读者需求规律,探索图书采访的决策分析,提供严谨的逻辑依据和量化决策指标,打造坚实的理论和应用保障。
1.2问题引入
图书采访作为一项决策活动,决策对象是待采访图书,决策内容是选择具有较高流通潜力的图书。图书采访决策的核心问题是基于怎样的原理,采用何种方式,能够科学、客观、严谨地对每一种待采访图书的流通趋势进行量化描述,并根据量化结果,优选出最具有流通潜力的图书。
读者需求和图书流通,是同一问题互为矛盾互为依存的两种表述视角,读者需求的行为结果就是图书流通的表现结果。但是,由于读者需求具有需求意愿和需求行为两个过程,与采用读者需求意愿相比,采用需求行为结果对具体的图书需求品种预测更具有可信度和说服力。
图书馆对馆藏图书流通的掌控和了解程度,相对于读者需求意愿而言,有着更加充分有力、令人信服的客观记录数据基础。馆藏图书有确定的知识内容及其描述信息,馆藏图书流通有详实的记录数据,依据馆藏图书的客观描述和流通等数据比通过收集探索读者需求等主观因素数据,分析图书流通规律与趋势更具有坚实的基础和可靠保障。
在对图书流通现象内在规律和机制充分了解之前,某种图书发生流通的事件,只能称之为有限观察范围内的一种随机事件。随机事件既有偶然性的一面,又具有必然性的一面,这种偶然性意味着隐藏在图书流通现象背后的读者需求规律尚未能被揭示,必然性则表明,复杂且毫无头绪的图书流通现象,具有统计学意义的规律尚待挖掘。
1.3问题分析
图书采访最主要任务,是不断补充具有流通潜力的馆藏,认识了解图书流通的形成机制和特征,是识别图书流通潜力的基础和前提。图书流通是由图书和读者两个图书馆客体对象互动的结果,相对于读者需求意愿与行为,图书具有稳定的客观特征,从图书自身角度,图书是包含固定知识内容的载体。从图书馆馆藏管理角度来看,图书是由MARC数据标识的管理对象;从读者视角,图书只是拥有各种不同名称的知识载体,一种馆藏图书发生流通之前,读者对该图书内容的了解程度,主要有3种情况:一是从未听说该种图书,但通过图书的封面上题名项等信息,对图书承载的知识内容有了初步的认识;二是读者通过各种渠道,对该种图书承载的知识内容有一定的了解,但并不知晓图书的内容细节;三是阅读过该图书,因为各种不为图书馆所知的原因,再次借阅该图书。从图书采访角度来看,图书采访补充的图书种类,主要是读者从未阅读知晓的新书。
一般情况下,对一种图书发生流通的陈述是,图书被有获取图书承载知识内容需求的读者借阅。这种陈述隐含两个重要的前提:一是读者需求背后有着复杂的需求动机和目的;二是读者需求目标是图书所在类目的知识,被借阅的图书仅仅是读者对该类知识载体的一种选择。由此可知,图书发生流通的机制主要在于,一种图书能够展示给读者的内涵表征信息,成为决定该种图书被读者选中借阅的关键因素。图书传递给读者的信息,由两个途径构成:一是图书与读者的直接互动,通过读者观察和翻阅浏览,把图书自身携带的基本描述信息和知识内容展示给读者后,最终形成图书的流通结果;二是读者查看图书的题名、简介,或从其他相关渠道了解的内容,既包括图书内容的基本描述性信息,也包括图书内容简介或部分内容信息,以及图书可能发挥的作用与功能等内容。
从图书流通形成的机制可以看出,一种图书是否发生流通,与这种图书所在的相同知识分类中的其他图书之间,具有竞争和相互影响的关系,与其他分类图书之间没有任何关系。因此,在既不能把握和调控读者主观意愿,也不能了解图书流通现象内在机理和规律的情况下,从具体知识类目下的馆藏基本知识描述信息入,通过考察不同馆藏的流通规律分析,探索具有类似描述信息的待采访图书流通潜力,具有操作的可行性和逻辑的充分性。
1.4问题假设与定义
由于图书采访的目标是选购具有流通潜力的图书,因此,本研究提出一种假设,一种图书流通竞争潜力的影响因素,是图书所在具体分类的类目中,由图书封面的题名、作者和出版机构3个要素对读者综合作用的结果。因此,图书采访决策活动可以表述为:
定义1:设Acq={x1,x2,…,xi为全部待决策图书集合,总计有i种待选图书,xi为每一种待决策图书,每一个待决策图书x={a1,a2,…,am},n为待决策图书z有m维属性特征(即题名等),图书采访决策,就是根据am承载的信息,判断xi未来流通潜力,对xi做出购买Buy或不购买Nobuy的二元分类判断,使Acq集合中每一个对象x,都拥有一个新的分类属性(购买或不购买)。其中,图书的属性特征维度m,是对图书形式和内容所承载全部信息,依据一定分类规则做出的多维特征划分。 5研究过程
5.1数据现状与特征筛选
图书馆TP18类目馆藏图书的基本指标情况是,总计有249种图书,其中,从未发生流通的53种,大约占该类馆藏数量的21%,发生流通的196种,大约占该类馆藏数量的79%,流通次数总计3742次。出版机构覆盖了51个,馆藏图书中最多的是“科学出版社”,达到57种图书,大约占馆藏数量的22%,如表1所示。著者总计有229组,馆藏中最多有3种图书,占馆藏数量的1.16%,如表2所示。
图书馆TP18类馆藏流通覆盖196种馆藏,每种馆藏平均利用19次,采用流通次数作为统计指标,会进一步加剧有流通和无流通分类馆藏数量之间的失衡,可能导致强化优势分类弱化劣势分类特征情况的发生,因此,只对馆藏是否有流通进行标识,而不对馆藏流通次数进行统计。
馆藏特征的提取与淘汰,取决于各分项数据的具体状况。馆藏图书题名项是本研究重点关注的分项指标:出版机构作为馆藏图书的一种特征分项划分,从统计指标来看,能够对馆藏进行差异化分组,可以作为独立开展分析的一项特征纳入分析视野。著者特征虽然是图书的重要特征,但由于著者特征在馆藏中出现频率普遍偏低,最多仅占1.2%,几乎一种图书一个分项,统计差异性过小,而且本研究只限定一种图书是否发生流通的现象,而未扩展到流通的次数问题,因此,著者特征无法作为明显特征开展分析,只能弃用。
5.2构建图书特征语料库
语料来源主要包括图书馆馆藏图书和待采访图书的题名和出版机构,馆藏图书根据流通历史分为有流通和无流通两个分类项,分别标记为circ和nocirc;待采访图书为无分类项的待预测数据,分类项在系统中为空白项。表3为全部数据内容,其中包括馆藏数据249条,待采访图书数据275条。数据内容由题名和出版机构数据构成。
利用自然语言的中文分词技术,提取题名关键词,对分词后的题名关键词和出版机构等语料,利用式(1)进行TF-IDF值的计算和排序,建立语料库,形成如表4所示的内容。语料库把每种图书的题名分解为多个关键词,这些关键词分别表明了人工智能类图书内容的视角、层次、功能、手段等诉求,这些诉求给图书提供了确定性的特征划分,是识别图书流通潜力的重要依据。
5.3构建文献—词项矩阵
文献—词项矩阵采用多变量伯努利事件空间方式,在表现形式上,式(2)中的amn元素数值都是以0和1表示,由于观察事件的有限性,矩阵的形式具有较强的稀疏性,为了节省计算机内存开销和运行效率,并不对矩阵进行密集转换。
表5是部分馆藏图书的文献—词项矩阵,根据馆藏图书的id,利用式(2),对图书特征分项关键词形成的分类项目,建立稀疏矩阵,包括524个文档,697個词项,意味着这个矩阵在不包括流通分类项情况下,是一个524*697的矩阵,697个词项表明在现有的语料基础上,TP18人工智能类图书的细节特征达到697个,利用现有249种馆藏的流通现状,分析馆藏图书流通现状与这697个特征之间的联系,就可为图书流通潜力的分析打开重要的窗口。
5.4训练评价朴素贝叶斯分类模型
作为图书采访决策,目标是对纳入采购计划的图书予以量化评价,以及对评价本身的可靠性给出明确的量化指标。因此,图书采访决策更加关注模型分类结果中,有流通潜力图书的量化指标及其评价。
随机选取馆藏图书数据集的70%作为训练集,剩余30%作为验证集,把数据输入朴素贝叶斯分类模型,利用式(5),训练朴素贝叶斯分类模型。模型的灵敏性、精度、假阳性等指标,采用2×2列联表方式,对模型计算结果进行统计。图1是采用R语言Gmodels包中的CrossTable函数进行模型评估得到的结果。
在纳入统计的69种具有明显特征的馆藏中,包含53种标识为有流通(circ)馆藏和16种标识为无流通(nocirc)。朴素贝叶斯分类模型表现出明显的分类灵敏性,53种有流通的馆藏预测接近60%,16种无流通的馆藏预测62.5%。
图书采访决策关注的重点主要是模型最终预测结果的37种图书,这37种图书评价指标的可靠性就是图书采访最终结果的评价。从预测结果看,模型的精度接近83.78%,假阳性仅为16.22%,这样的结果表明,采用朴素贝叶斯分类方法开展图书采访,在TPl8分类采购的图书中,真正具有流通潜力的图书达到83.78%,而没有流通潜力却购人的图书仅占16.22%。
5.5预测采访图书
利用定义1,把待采访书单数据模型化,根据训练好的朴素贝叶斯分类模型,对275种待选的采访图书进行分类预测,得到模型推荐的有流通潜力的131种图书书单。从模型的灵敏度和假阳性判断,可以对本次TPl8类图书采访,进行总体量化判断和评价,其中至少109种图书具有流通潜力,仅有22种图书不具有流通潜力;也表明,每一种被选中购买的图书,只有16.22%的概率,不具有流通潜力。对于模型推荐的131种TP18类图书,采访人员可以根据前期预置的该类目计划采访种类和数量,参考其他采访约束条件挑选图书。
6研究结论
本研究采用中文分词技术提取馆藏图书特征,并利用朴素贝叶斯分类方法,依据馆藏流通数据,探索和验证图书自身承载描述信息对流通产生的影响和作用规律,并依据模型预测待采访图书的流通潜力,研究结论如下:
在图书采访选书阶段,利用朴素贝叶斯理论和方法,能够暂时不考虑读者因素,仅仅依据馆藏流通动态,在流通数据和图书品种选择之间,直接建立起基于概率论原理的因果量化关系。本研究得到的新书流通趋势判断结论.形成一个全新的参照系.为进一步针对促成图书流通的读者驱动因素,深入探索读者需求动机发生、表达、实施的机制,提供了数据层面的验证和参考指标。对题名、出版、内容摘要等图书描述信息,利用中文分词技术进行关键词切分和提取,不仅能够为进一步开展机器学习等人工智能探索提供可能,还为图书多维分类,深入到图书内容层面开展语义和逻辑分析,提供了必要的方法支撑和无限的可能。
从本研究的数据分布偏移程度来看,静态数据中,同一图书分类下的出版社特征过于集中,而作者特征分布较为松散,图书的知识描述特征相对比较适中;动态流通则表现为出版社特征较为明显的趋势。表明图书馆采访选书的原则偏重出版社因素并兼顾知识分布的广度,馆藏图书及建设特征和读者群体特征相对稳定,读者知识需求呈现连续性特征,能够为基于流通数据,开展采访选书,提供可靠稳定的保障。本研究模型在实验中具有较强的灵敏性,验证了图书流通潜力与图书描述的表征信息有必然联系的假设。表明描述图书承载知识特征的单词和短语等表层描述信息,对馆藏图书发生流通具有直接的影响,并反映在图书流通数据中。
7结语
读者需求行为产生的图书流通数据,是读者需求表现出的客观真实结果,以流通数据为图书采访依据,不仅能够避免过度依赖读者需求意愿,表现出的不确定性、不可捉摸性和复杂变化性,还能够避免图书采访人员主观因素对选书决策产生影响。图书流通数据,凝聚了馆藏图书和读者两个对象全部的信息与内涵,是图书最有价值的数据资源,蕴藏着读者知识需求和馆藏知识的全部秘密,挖掘馆藏流通数据隐含的规律,能够为揭示图书馆内在规律提供坚实的证据。朴素贝叶斯分类,作为一种机器学习方法与工具,为开展科学严谨的图书采访工作,提供一种智能化的决策方法,让图书采访工作真正建立在客观、科学、严谨的基础上,使图书采访的结果可证明、可量化、可解释。