稀疏地理实体关系的关键词提取方法
余丽, 陆锋, 刘希亮, 程诗奋, 张雪英

A Method of Context Enhanced Keyword Extraction for Sparse Geo-entity Relation
YU Li,LU Feng,LIU Xiliang,CHENG Shifen,ZHANG Xueying
表5 关键词实例提取中常见错误分析
Tab. 5 Comparison between different methods with respect to residual errors
描述 样例 错误率/(%)
本文方法 DF Entropy
A 关键词很少出现在文本中 “云台山除锦屏山外,其余均为海中岛屿,古称郁洲山或苍梧山。”提取的关键词实例为(云台山,苍梧山,<岛屿>),正确的关键词为“古称”,它在实验数据中出现的频次比“岛屿”更低 6.3 14.3 18.4
B 语境中词语在特征表现上
无显著差异
“大夏河是甘肃省中部较大的河流,属黄河水系。”提取的关键词实例为(大夏河,黄河,<中部,属>),正确的关键词为“属”,但“中部”和“属”的权值均为最大值 2.5 5.4 3.1
C 同句中存在多个不同地理
实体时,关键词无法区分
“北镇主要河流有绕阳和及其支流东沙河。”提取的关键词实例为(绕阳河,东沙河,<河流>) 0.7 1.2 4.8
D 时间约束的关键词 “宝山县南宋属嘉定县。”提取的关键词实例为(宝山县,嘉定县,<属>) 0.3 2.9 1.6
E 空间约束的关键词 “汉江以北属秦岭山区。”提取的关键词实例为(汉江,秦岭,<属>) 0.5 2.1 1.4