当前位置:首页 » 机器学习精品文章 » 正文

领域知识库构建及信息检索系统

1704 人参与  2019年04月14日 23:18  分类 : 机器学习精品文章  评论

系统源码及原文免费下载地址请访问www.54manong.com

一、 系统简介

通过对网络爬虫工具的设置并扩展,自动抓取行业领域资料,或通过语料管理模块上传领域相关资料,形成语料库。调用信息抽取模块和信息去噪模块,提取语料库中pdfdocppthtmlexceltxt及专利等文件中的内容信息,并将抽取的信息进行去噪处理,去除标签、乱码、页眉和页脚等无用信息,同时确保有用信息被完整保留。在完成语料预处理后进行知识挖掘,首先基于领域词典,对去噪处理后的信息进行分词、词汇统计分析,最终找出领域单词概念和组合概念,同时记录语料中包含领域概念的语句,并基于规则抽取核心语句中领域概念间的关系,通过本体的推理,形成此文档的概念知识关系网,并保存为xml语法格式,存入数据库。在此基础上通过对识别的领域概念和核心语句的精炼,提取出文档的关键词(1-3个)和摘要信息(3句左右)。基于关键词和摘要信息对文档进行自动分类,并在以后信息更新时,保持聚类结果的相对稳定。分析完相关的语料资料后,生成整个网站的概念知识网,并将挖掘出的知识建立语义索引库。

用户使用该系统时,支持目录导航、相关概念、扩展概念和语义查询。目录导航:显示系统自动聚类的特定领域的层次结构信息,每个节点后显示节点下的网页或文档资源的个数,并支持图形化显示。语义查询:支持用户对关键词、词组和简单语句的查询,通过本体推理查询,形成语义查询检索式,返回语义索引库中的相关信息,同时通过本体推理,找出相关概念和扩展概念并能显示出来。

二、 系统架构图

image.png

1、系统架构图

三、 系统数据处理流程图

image.png

图2、系统主要模块间关系图

 

image.png 

图3、语义索引库构建流程图

image.png 

图4、信息检索数据流程图

 

四、 系统模块设计

编号

名称

人员分配

备注

G20111025F01

系统页面开发


设计并开发

G20111025F02

网络爬虫


升级完善

G20111025F03

信息提取


重点

G20111025F04

信息去噪


难点

G20111025F05

智能分词


升级完善

G20111025F06

领域概念识别


重点

G20111025F07

概念间关系抽取


重点、难点

G20111025F08

文档关键词抽取


重点、难点

G20111025F09

文档自动摘要


重点、难点

G20111025F10

文档自动分类


重点、难点

G20111025F11

语料管理模块


工作量较大

G20111025F12

知识提取库


重点、难点

G20111025F13

语义索引库


重点、难点





编号

名称

人员分配

备注

L20111025S1

信息检索模块


升级完善

L20111025S2

检索结果优化


升级完善

L20111025S3

网状信息可视化显示


重点

L20111025S4

统计信息可视化显示


重点





编号

名称

人员分配

备注

L20111025Y1

互联网资源


较简单

L20111025Y2

领域词典


工作量较大

L20111025Y3

领域本体


重点

L20111025Y4

目录导航体系


难点、要点





五、 系统各模块具体分工情况

(1) 系统页面开发

编号

G20111025F01

模块

系统页面开发

描述

系统操作的平台

功能

合理布局,设置系统各项功能相应按钮、信息展示框。

整体布局拟采用左、中、右三栏结构,主要栏目包括:语义检索、资源分布图、本体知识图等。

格式


存储


输出


接口


难点


分工

贾婷负责搜集、调研互联网同类网站(包括相关智能搜索引擎、专家系统和行业重要网站),栾勇设计首页整体布局和栏目设置,最终在doc中采用表格或其他形式描述出来。


(2) 
网络爬虫

编号

G20111025F02

模块

网络爬虫

描述

Heritrix网络爬虫工具的功能进行合理扩展利用。

功能

扩展升级已有网络爬虫工具,比如添加能够抓取特定前缀的URL、抓取含有特定关键字的网页等功能。 

格式


存储


输入

起始网址、摘要、前缀、关键词、抓取链接层数、抓取时间、抓取网页个数、抓取全部或只抓取更新等等

输出

抓取的互联网网页信息

接口


难点


分工


备注

更新抓取时为识别信息是否为新信息,需要在知识提取库或索引库设置相应字段记录。


(3) 
信息提取

编号

G20111025F03

模块

信息提取

描述

提取网络爬虫抓取的各类网页文件和docdocxpdfppttxt等文本文件内容。注意调用pdf文件内容提取程序(已有)时,当pdf为扫描版或软件识别版,可能会出错,要找出原因,同时注意当文档内容分栏或有插图、插表时的提取结果,设法提高准确性。

功能


格式


存储


输入


输出


接口


难点


分工



(4) 
信息去噪

编号

G20111025F05

模块

信息去噪

描述

去除抽取信息中的干扰字符,同时尽量确保有用信息完整保留

功能

实现信息去噪算法,归纳总结各种类型文件抽取内容的特点,以句子为单位,去除空格、页眉、页脚、页码、乱码和其他杂乱符号;归纳总结并识别出文件中各级标题的特点 

格式


存储


输入

文件内容抽取结果

输出

以句子为单位输出

接口


难点

去噪算法

分工


备注

去噪算法应当多花时间,防止过多有用信息也被去除。


(5) 
智能分词

编号

G20111025F04

模块

智能分词

描述

分析JE分词工具、庖丁解牛分词工具、Lucene自带分词工具、哈工大分词工具和中科院计算所分词工具的优缺点,选定适合该系统的分词工具。系统运行时不需要更新用户自定义词典,但需支持扩展词性(用于标识词是否为领域概念),初步考虑选用JE分词工具(考虑分词工具是否免费、有效期等因素)。

功能

分词工具有多个函数可以调用:快速分词(只分词)、全功能分词(分词、词性、关系)等,如果需要多次调用,需选择合适的分词函数。

格式


存储


输入

信息去噪结果:以句为单位。

输出

多维向量:词、词性、本体角色、在句子中与其他词的关系等等。

接口


难点

处理好分词与去噪的先后关系,提高准确率。

分工


备注

注意本体半自动构建系统中分词和信息去噪的先后关系,有可能先去噪后分词,或者交叉进行,考虑那种方式准确率高。


(6) 
领域概念识别

编号

G20111025F06

模块

领域概念识别

描述

基于智能分词中扩展词性标识,识别领域概念,并记录包含领域概念的句子,用于概念间关系抽取。

功能


格式


存储


输入

文件中所有句子的分词结果:多维向量

输出

文件中的领域词汇(包括本体中的关系词汇)

接口


难点

组合领域概念、自定义领域词典中未收录的领域概念识别;

本体中动词属性关系词的识别抽取

分工



(7) 
概念间关系抽取

编号

G20111025F07

模块

概念间关系抽取

描述

基于HOWNET对输入的概念进行相似度计算,并通过聚类算法聚类,最终提取出概念间关系。

功能


格式


存储


输入

句子、带句法分析的分词结果、领域概念识别结果

输出

概念间关系三元组    xml语法格式字符串

接口


难点

注意概念间关系冗余的处理。

分工


备注

选用较好的聚类算法并比较结果


(8) 
文档关键词抽取

编号

G20111025F08

模块

文档关键词抽取

描述

基于领域概念识别结果,参考统计等关键词抽取算法,提取24个最能体现文档主题的词语。

功能


格式


存储


输入

领域概念识别结果

输出

13个领域关键词

接口


难点

高效准确的关键词抽取算法

分工



(9) 
文档自动摘要

编号

G20111025F09

模块

文档自动摘要

描述

基于分词结果和领域概念识别结果,以句为单位计算每句中领域概念出现次数,选择24句出现领域概念最多的句子作为文档摘要。

功能


格式


存储


输入

分词结果和领域概念识别结果

输出

24句文档摘要

接口


难点

研究寻找准确性较好的自动摘要算法。

分工



(10) 
文档自动分类

编号

G20111025F10

模块

文档自动聚类

描述

基于文档中识别出的领域词汇并重点考虑文档的关键词,根据词汇出现频率,设置一定的权重,映射到导航目录体系中,每篇文档可以映射体系中多个节点。

功能


格式


存储


输入

领域词汇识别结果和关键词提取结果

输出

映射到目录导航体系中的节点

接口


难点

高效遍历和映射算法

分工



(11) 
语料管理模块

编号

G20111025F11

模块

语料管理模块

描述

提供对网络抓取资料和用户上传资料的目录导航,能够查看资料容量、抓取时间、网址等信息。

功能


格式


存储


输入


输出


接口


难点

可以将存储目录记录在数据表中,通过访问数据库实现查看。

分工



(12) 
知识提取库

编号

G20111025F12

模块

知识提取库

描述

记录网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息。

功能


格式


存储


输入

网络爬虫、信息提取、信息去噪、智能分词、领域概念识别、概念间关系抽取、文档关键词抽取、文档自动摘要、文档自动分类等所有模块处理的结果信息

输出

数据库

接口


难点


分工



(13) 
信息检索模块

编号

L20111025S1

模块

信息检索模块

描述

依据信息检索数据处理流程图,实现相应功能

功能


格式


存储


输入

用户查询关键词或查询语句

输出

用户需要的相关信息

接口


难点

提高信息检索的效率

分工



(14) 
检索结果优化

编号

L20111025S3

模块

检索结果优化

描述

对用户查询返回的结果依据相关性进行优化排序

功能


格式


存储


输入

用户查询输入和每条返回结果的领域概念、关键词、摘要等信息

输出

每条返回结果的查询相关性权值。

接口


难点

优化排序算法

分工



(15) 
网状信息可视化显示

编号

L20111025S4

模块

网状信息可视化显示

描述

当用户鼠标移至查询结果列表中每条信息的“图形预览”图标上时,读取记录该条文档信息中概念及关系的xml格式数据,调用信息可视化工具,显示该条记录的概念关系图。另外,通过该模块可以图示化展示本体结构和目录导航结构。

功能


格式


存储


输入

xml格式数据

输出

动态结果图

接口


难点

解决节点太多、太少时图形显示的美观问题。图形中节点文字要清晰,节点太多时,合理省略节点。

分工



(16) 
统计信息可视化显示

编号

L20111025S5

模块

统计信息可视化显示

描述

使用饼状图、柱状图、折线图展示系统中相关统计信息,如目录导航体系中各节点资源数量、用户查询命中数量,以及其他与系统实际应用中相关的统计信息。

功能


格式


存储


输入

相关统计数据

输出

相关统计图形

接口


难点


分工



(17) 
互联网资源

编号

L20111025Y1

模块

互联网资源

描述

通过调研查找互联网上领域相关的门户网站信息,用于网络爬虫信息抓取来源。

功能


格式


存储


输入


输出

网址、网名、介绍

接口


难点


分工



(18) 
领域词典

编号

L20111025Y2

模块

领域词典

描述

通过调研收起领域相关词汇,构建领域自定义词典。

功能


格式


存储


输入


输出

领域自定义词典。

接口


难点


分工



(19) 
领域本体

编号

L20111025Y3

模块

领域本体

描述

通过不断收集领域主题词、领域概念,不停地完善领域本体。

功能


格式


存储


输入


输出


接口


难点


分工



(20) 
目录导航体系

编号

L20111025Y4

模块

目录导航体系

描述


功能

显示系统自动聚类的行业领域的层次结构信息,每个节点后显示节点下的网页资源个数。目录导航体系的前两层需要人手工设计,参考领域本体层次架构体系,并且要同时考虑行业用户的需求。每一个资源根据提炼出的关键词和摘要信息进行映射,可以同属于目录体系的多个节点。

格式


存储


输入


输出


接口


难点


分工


重要名词:

相关概念:与用户查询输入关键词相关的概念。

扩展概念:用户输入关键词在本体中的上下位概念。

本体知识图:显示本体结构、层次关系、属性关系。

资源分布图:图形化显示系统自动聚类的结果。

Web知识图:图形化预览各条搜索结果信息的知识图。

文档知识图:图形化显示系统上传文档的知识结构图。

    统计分析图:采用饼状图、柱状图和折线图显示系统聚类体系中各节点资源比例、系统新增资源比例、查询结果中各节点资源比例等等。

来源:我是码农,转载请保留出处和链接!

本文链接:http://www.54manong.com/?id=1260

百面机器学习  

微信号:qq444848023    QQ号:444848023

加入【我是码农】QQ群:864689844(加群验证:我是码农)

<< 上一篇 下一篇 >>

网站分类

标签列表

最近发表

全站首页 | 数据结构 | 区块链| 大数据 | 机器学习 | 物联网和云计算 | 面试笔试

本站资源大部分来自互联网,版权归原作者所有!