[1]赵晓凡,胡顺义,刘永革..CRF模型中参数f在字标注汉语分词中的适用性研究[J].郑州大学学报(工学版),2011,32(04):103-106.[doi:10.3969/j.issn.1671-6833.2011.04.025]
点击复制

CRF模型中参数f在字标注汉语分词中的适用性研究()
分享到:

《郑州大学学报(工学版)》[ISSN:1671-6833/CN:41-1339/T]

卷:
32卷
期数:
2011年04期
页码:
103-106
栏目:
出版日期:
2011-07-10

文章信息/Info

作者:
赵晓凡胡顺义刘永革.
安阳师范学院计算机与信息工程学院,河南安阳,455002, 安阳师范学院计算机与信息工程学院,河南安阳,455002, 安阳师范学院计算机与信息工程学院,河南安阳,455002
关键词:
汉语分词 字标注 f阈值 模型大小 CRF++工具包
DOI:
10.3969/j.issn.1671-6833.2011.04.025
摘要:
汉语分词作为中文信息处理的首要环节,其精确度对后续步骤的准确度和处理速度成逐级放大性影响.如何提高分词的准确度和处理速度成为近年研究的重点.采用条件随机场模型进行汉语分词,通过定量分析CRF工具包训练参数f,研究减少特征对分词准确度以及模型大小的影响程度,实验分别在国际汉语分词评测Bakeoff2005提供的北京大学和微软亚洲研究院两个语料上进行封闭测试,并对比采用不同模板时增加f参数值对分词性能的影响,最终得出实验结果:随着f参数值的增加,分词的准确度和生成的模型大小成正比,且F值减小的程度相对训练生成模型大小的减小程度要小得多.
更新日期/Last Update: 1900-01-01