词性标注

词性标注:

就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。

汉语词性标注的难点:

[刘开瑛,2000]
1、汉语是一种缺乏词形态变化的语言,词的类别不能像印欧语那样,直接从词的形态变化上来判别。
2、常用词兼类现象严重,造成在汉语文本中词类歧义排除的任务量大,面广,复杂多样。
3、语言学届在词性划分的目的,标准等问题上还存在分歧。与汉语分词规范类似,到目前为止,还没有一个统一的被广泛认可的汉语词类划分标准,词类划分的粒度和标记符号都不统一。即划分目的,划分标准,划分粒度和标记符号都不统一。

  • LDC标注语料:汉语词性一级标注集划分为33类;[Xia,2000]
  • 北京大学计算语言学研究所:26个基本词类代码,74个扩充代码,标记集中共有106个代码;[俞士汶等,2003a]
  • 山西大学:汉语词类标记集共有25类,包括17个大类和前缀、后缀、语素等其他类型;[刘开瑛,2000]

总之,词类划分标准和标记符号集的差异,以及分词规范的含混性,给中文信息处理带来了极大的困难。

词性标注方法

基于统计模型的词性标注方法

LOB语料库词性标注系统CLAWS是基于统计模型(n元语法与一阶马尔可夫转移矩阵)的词性标注方法的典型代表[Marshall,1983],该系统通过对n元语法概率的统计优化,实现了133个词类标记的合理标注。