10.3969/j.issn.2095-2163.2022.10.009
基于特征融合的中文分词研究
中文分词是自然语言处理中一项重要的基础任务.由于中文词汇存在多义词、同音字等特殊性,能够准确地完成分词任务是近年来中文分词研究面临的挑战之一.因此,本文提出了一种融合字符特征、拼音特征、五笔输入特征的共享BiL?STM-CRF模型,通过在训练过程中共享LSTM-网络来有效地融合语言特征.经大量数据集实验表明,特征融合能显著提高标记的准确性.在没有利用任何外部词汇资源的情况下,AS和CityU数据集中准确率可分别达到96.9%和97.3%.
中文分词、拼音、五笔输入、BiLSTM-CRF
12
TP391.1(计算技术、计算机技术)
2022-11-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
57-61,67