论文部分内容阅读
近年来,计算机随着研究领域的不断突破,技术应用更加广泛深入,已经逐渐成为一门举足轻重的工具学科,并随着时间的推移,发挥着越来越重要的作用。作为计算机科学与技术领域的一个重要研究方向,人工智能在引领新技术领域前进的同时,也推动了传统行业进行革新。用户画像作为近年来新提出的一个概念,通过收集用户在网络上填写的资料、发布的内容、进行的活动、拥有的关系等信息,从中有选择、有结构地提取出关键部分,生成特征数据,为如何用计算机语言表征真实世界的用户信息提供了一种思想。而人物画像则是将构建对象从真实用户推广到用户和其他一切可表示的客观实体上,背后的思想不变。在案件审理领域,目前还没有一种合理的、通用的研究方法,能够通过学习法律知识和历史记录,为相关人员提供辅助审理的功能。基于此,本文提出了一种基于人物画像的,科学的、具有操作性的、并可以推广到多种类型案件的案件辅助审理研究方案。研究内容主要包括三个部分。预处理与建模、特征提取和辅助决策。(1)预处理与建模部分提出了二级刻画的方法,为针对到类型的案件建立模型;利用word2vec工具,训练词向量,并对词向量进行聚类,生成多维特征词表;爬虫获取历史裁判文书后,对文书的正文进行分词并入库;(2)特征提取部分针对各维特征,提出了有程度划分和无程度划分的两种特征提取方法。对于有程度划分的维度提取过程基于两级词表实现;对于无程度划分的维度,提取过程主要基于正则表达式完成。对提取后得到的数据做归一化处理,得到最终的特征向量,形成判决知识库;(3)辅助决策部分包括相似案例计算和新案例审判两个部分。前者是通过局部敏感哈希算法优化检索后,利用欧式距离和余弦距离综合的相似性度量算法返回最相似的案件集;新案例审判是通过集成学习方法,综合多分类器的分类结果做出决策,给相关人员提供审理参考。最后依照实际需要,设计实现了一个智能审判web系统,并通过实验论证了方案的合理性与可行性。