发布时间:2023-05-30 02:53:25 来源:番茄官网网址 作者:时尚
知识图谱(Knowledge Graph)是中文知识总结知立当前学术界和企业界的研究热点。中文知识图谱的图谱构建对中文信息处理和中文信息检索具有重要的价值。中国中文信息学会(CIPS)邀请了有约10家从事知识图谱研究和实践的研讨5x线观看视频5xsq著名高校、研究机构和企业的学习专家及学者有意参与并发表演讲,下面就是搜狗第一届全国中文知识图谱研讨会的学习笔记。
这篇文章主要是搜狗张坤老师分享的知识图谱技术,以前我也讲过搜狗知立方和搜索相关知识,图谱这里就以图片为主简单进行叙述了。研讨参考:搜索引擎和知识图谱那些事
首先简单回顾一下传统的学习网页搜索技术
其中包括向量模型、Pagerank、搜狗根据用户搜索行为发现商业价值和社会价值、中文知识总结知立Learning to Rank(学习排序),图谱这里就不再详细叙述,研讨我前面有些文章介绍了这些。学习
搜索结构发现变化如下所示。搜狗
用户需要获取更准确的信息,系统需要时间换取空间,5x线观看视频5xsq计算替代索引,优质的信息将转化为机器理解的知识,使得这些知识和机器发挥更大作用。
搜狗知立方整体框架图如下所示,其中下部分的实体对齐、属性对齐是我现在研究的部分。主要包括以下部分:
1.本体构建(各类型实体挖掘、属性名称挖掘、编辑系统)
2.实例构建(纯文本属性、实体抽取、半结构化数据抽取)
3.异构数据整合(实体对齐、属性值决策、关系建立)
4.实体重要度计算
5.推理完善数据
国际上流行的知识库或数据源如下所示:
Wolframalpha: 一个计算知识引擎,而不是搜索引擎。其真正的创新之处,在于能够马上理解问题,并给出答案,在被问到"珠穆朗玛峰有多高"之类的问题时,WolframAlpha不仅能告诉你海拔高度,还能告诉你这座世界第一高峰的地理位置、附近有什么城镇,以及一系列图表。
Freebase: 6800万实体,10亿的关系。Google号称扩展到5亿实体和25亿的关系。所有内容都由用户添加,采用创意共用许可证,可以自由引用。
DBpedia: wikipedia基金会的一个子项目,处于萌芽阶段。DBpedia是一个在线关联数据知识库项目。它从维基百科的词条中抽取结构化数据,以提供更准确和直接的维基百科搜索,并在其他数据集和维基百科之间创建连接,并进一步将这些数据以关联数据的形式发布到互联网上,提供给需要这些关联数据的在线网络应用、社交网站或者其他在线关联数据知识库。
利用用户搜索记录。该记录保存了用户的标识符、以及用户的查询条目、查询时间、搜索引擎返回的结果以及用户筛选后点击的链接。
该数据集从一定程度上反映了人们对搜索结果的态度,是用户对网络资源的一种人工标识。根据用户搜索记录的数据特点,可用二部图表示该数据,其中qi表示用户的查询条目,uj表示用户点击过的链接,wij表示qi和uj之间的权重,一般是通过用户点击次数进行衡量。
采用随机游走(Random Walk)对用户搜索记录进行聚类,并选出每个类中具有高置信度的链接作为数据来源,同时抽取对应实体,并将置信度较高的实体加入种子实体中,进行下一次迭代。
a) 半结构化网站,利用Tag path和Text node标识网页,对属性聚类
b) 从查询日志中识别实体+属性名本体构建中本体编辑推荐使用“Protege JENA”软件。
如下所示,获取在线百科消息盒的属性和属性值。在这部分,我们选择基于机器学习的排序模型技术。基于多角度全面的海量的用户行为为基础,建立机器学习排序模型。使得搜索结果得到一个更加细致化、全面的效果优化。结构图如下所示:
由于没有任何一个网站有所有的信息,甚至是在一个领域里。为了获取到更加全面的知识,需要整合,这就需要对齐。其中数据源包括:百度百科、豆瓣、起点中文网、互动百科、搜狐娱乐、新浪教育、Freebase等等。
下图是一张经典的实体对齐图。他是对“张艺谋”这个实体进行对齐,数据源来自互动百科、百度百科、tvmao网站、搜狐娱乐。
比如张艺谋的国籍需要对齐“中华人民共和国”、“中国(内地)”、“中国”三个属性值;“国家”、“国籍”、“国籍”需要属性对齐;再如出生日期对齐“1951年11月14日”、“1951-11-14”、“1951-11-14”实现属性值对齐。
属性值决策可以看成是属性值对齐,需要选择来源多的数据,同时来源可靠。
关系建立补齐需要提取链接,再统计链接数,计算链接重要程度,最后关联实体。
实体搜索如“李娜”,会根据用户的以前搜索记录,真正理解用户搜索,返回结果。辨别它是网球运动员、歌星、舞蹈家或跳水运动员。
从原始三元组数据,推理生成新的数据,建立更多的实体间的链接关系,增加知识图的边的密度,例如:莫言作品。
查询语义理解、实体的识别和归一
由于表达方式的多样性,对同一属性,不同人有不同的说法。我们通过挖掘百度知道,来获取属性的各种各样的描述方式。
后台检索系统
1.提供知识库信息的展示载体,将知识库的信息转化为用户可以理解的内容;
2.提供更加丰富的富文本信息(不局限于文字,增添图片、动画、表格等);
3.提供更友好的用户交互体验:增加更多的用户交互元素,如图片浏览、点击试听。并能够引导用户在更短的时间获取更多的信息。
如下图所示:“刘德华”分别点击上方基本信息,点击歌曲,点击属性标签,点击具体的电影。
再如重名、系列实体展现如下: “李娜 ”点击其他的同名人物、“十大元帅”点击某个具体的人物、“速度与激情”点击更多,展示更多的系列实体。
关于知识图谱这部分的资料不是很多,而且具体每个步骤是如何实现的资料就更少了。这篇文章主要作为知识图谱的入门介绍,并通过会议叙述了百度知心和搜狗知立方,目前国内研究较早的知识图谱。
相关文章