DOI：10.16249/j.cnki.2096-4617.2021.03.009

藏文文本相似度计算方法研究

引用

摘要：

随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要.文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符集》的标准对藏文字符以一定顺序编码后与词库中的近义词关联;然后将待测文本和对照文本向量化,再对向量化的文本进行关键词提取,并用各自获取的关键词修正向量;最后使用余弦相似度原理计算待测文本向量和对照文本向量的余弦值,以此表示两句话的相似度.针对关键词提取的有效性,文章分别研究了TF-IDF和TF-IWF两种方法在不同主题词语比例的语料库下召回关键词的情况,结果表明TF-IWF提取关键词时能降低语料库中不同主题词语比例对计算结果的影响.针对相似度计算结果的准确性,文章引入皮尔森相关系数进行结果准确度评价,基于TF-IWF的相似度计算方法的皮尔森相关系数为0.7108,表明该方法是一种适用于藏文文本相似度计算的有效方法.

关键词：藏文;文本相似度;TF-IDF;TF-IWF;余弦相似度原理

所属期刊栏目：5

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金项目;西藏自治区大学生创新训练项目

在线出版日期：2021-10-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：70-77,114

英文信息展示

期刊专题