期刊专题

10.16249/j.cnki.2096-4617.2021.03.009

藏文文本相似度计算方法研究

引用
随着藏文文献数量的增加,原创性的藏文文献保护需求也越来越迫切,一个准确有效的藏文文本相似度计算方法就显得十分重要.文章针对藏文文字特殊结构导致藏文相似度计算不能照搬中英文文本相似度计算方法的问题,尝试按照《藏文编码字符集》的标准对藏文字符以一定顺序编码后与词库中的近义词关联;然后将待测文本和对照文本向量化,再对向量化的文本进行关键词提取,并用各自获取的关键词修正向量;最后使用余弦相似度原理计算待测文本向量和对照文本向量的余弦值,以此表示两句话的相似度.针对关键词提取的有效性,文章分别研究了TF-IDF和TF-IWF两种方法在不同主题词语比例的语料库下召回关键词的情况,结果表明TF-IWF提取关键词时能降低语料库中不同主题词语比例对计算结果的影响.针对相似度计算结果的准确性,文章引入皮尔森相关系数进行结果准确度评价,基于TF-IWF的相似度计算方法的皮尔森相关系数为0.7108,表明该方法是一种适用于藏文文本相似度计算的有效方法.

藏文;文本相似度;TF-IDF;TF-IWF;余弦相似度原理

5

TP391.1(计算技术、计算机技术)

国家自然科学基金项目;西藏自治区大学生创新训练项目

2021-10-22(万方平台首次上网日期,不代表论文的发表时间)

共9页

70-77,114

暂无封面信息
查看本期封面目录

高原科学研究

5

2021,5(3)

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn