[1]赵晓凡,胡顺义,刘永革..CRF模型中参数f在字标注汉语分词中的适用性研究[J].郑州大学学报(工学版),2011,32(04):103-106.[doi:10.3969/j.issn.1671-6833.2011.04.025]
点击复制
CRF模型中参数f在字标注汉语分词中的适用性研究(
)
《郑州大学学报(工学版)》[ISSN:1671-6833/CN:41-1339/T]
- 卷:
-
32
- 期数:
-
2011年04期
- 页码:
-
103-106
- 栏目:
-
- 出版日期:
-
2011-07-10
文章信息/Info
- 作者:
-
赵晓凡; 胡顺义; 刘永革.
-
安阳师范学院计算机与信息工程学院,河南安阳,455002, 安阳师范学院计算机与信息工程学院,河南安阳,455002, 安阳师范学院计算机与信息工程学院,河南安阳,455002
- 关键词:
-
汉语分词; 字标注; f阈值; 模型大小; CRF++工具包
- DOI:
-
10.3969/j.issn.1671-6833.2011.04.025
- 摘要:
-
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.
更新日期/Last Update:
1900-01-01