基于FP序列树的法文词语提取方法研究
法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性.该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库.该方法把文本中的单词共现信息压缩为FP序列树结构,快速提取频繁词串并计算其成词度,得到法文词语集合.实验表明,该方法的准确率高达90%,且具有比现有法文词语提取方法更高的召回率,能有效支持法语文本挖掘应用.
FP序列树、法语文本挖掘、词语提取、成词度、文本压缩
50
TP182(自动化基础理论)
国家自然科学基金71771054
2021-02-02(万方平台首次上网日期,不代表论文的发表时间)
共7页
84-90