一、概念:

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

二、常用的词性标注集如下:

  1. 《PFR人民日报标注语料库》词性编码表——40多个标记
  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记——40多个标记
  3. 计算所ICTCLAS3.0汉语词性标记集——共计99个标记,包括22个一类、66个2类、11个三类
  4. HanLP词性标记集——兼容上述2和3
  5. BosonNLP词性标注——共22个大类,70个标签
  6. 结巴分词中出现的类型
  7. StanfordNLP的词性标注(中文)
  8. StanfordNLP的词性标注(英文)

 

详见:https://www.biaodianfu.com/pos-tagging-set.html

Logo

一站式 AI 云服务平台

更多推荐