《Mining Type Information from Chinese Online Encyclopedias》论文阅读

1. Introduction

找到一种从中文百科中挖掘类型信息的方案，作为中文LOD的补充
使用attribute propagation algorithm 生成了很多属性
找到一种评估种类属性和类型属性的评估方法

2. Approach

工作流程：

Explicit IsA Relation Detector从百科中的摘要和infobox中检测instanceOf关系，从类别系统中检测subclassOf关系
构建类别属性和实体属性，category with attributes 由被识别的instanceOf关系类别属性和实体属性组成

2.1 IsA Relation Detector

启发式检测

InstanceOf Relation Detection

从infoboxex和abstracts中获取

infobox中一些(attribute, value)对经常被放入实体集和概念集中。我们认为如一个atrribute存在于概念集并且实体集存在它的值（value），就存在InstanceOf关系

一般来说，一个实体的概括(abstracts)中的第一句话是这个实体的定义。我们对这句话用fudanNLP工具进行语法分析，如果这句话的主语是实体，谓语是”是(be)”，并且宾语存在于概念集，我们认为这个主语和宾语有InstanceOf关系

SubclassOf Relation Detection

从中文百科的categories中获取

首先生成SubclassOf类别对，其形式为(sub-category, category)，其次用两种启发式搜索从这些categories中搜索subclassOf关系
第一种搜索方法：根据相同的词汇开头声称对，如江苏学校 (school in Jiangsu) SubclassOf 中国学校 (school
in China)（在中文中，用短语的最后一个名词）。先用FudanNLP分析短语（类似分词）。例：中国足球运动员->中国/足球/运动员->（中国足球运动员，运动员)
根据第一种搜索方法匹配出来的标签对，在zhishi.me中检索筛选

2.2 Category Attributes Generator

不同infoxbox的属性有很大差别，但是template（模版）量很少，并且种类属性的缺少也不利于推断，而且有很多没有属性的种类被弃用，所以作者用所有的category和subclassof关系组成了category graph，用种类图去生成属性，辨识InstanceOf和subclassOf的关系

Category Graph: 种类图是DAG（有向无环图），G = (N, E), N是表示所有categories的节点集合。E表示所有边$∈E$ ，这些边代表category $c_1$ 和category $c_2$ 有subclassOf关系。

属性传播算法：属性传播算法在种类图上遵守以下规则：