10.3969/j.issn.1002-1965.2021.10.015
数字技术下《老子》文本与先秦两汉典籍的关系挖掘
[目的/意义]理解老子思想关乎理解中国早期文化,结合数字人文的方法,开展实证研究.利用大数据计算的方式,通过定量统计、定性分析,解决老子研究领域长期存在的疑而难决的源头、影响等方面的问题,发掘依靠阅读经验难以发现的文本组织特征及相互关系.[方法/过程]统计河上公版《老子》语料的字频;进行相似度分析和典籍引用情况分析;最后训练出古汉语的BERT模型,利用生成的字嵌入计算典籍句子之间的相似程度,在《老子》之前的典籍上进行相关性研究.[结果/结论]使用TF-IDF进行文本向量化,得出《老子》与其后世的作品中的《淮南子》最为相似;使用BERT模型的自监督学习训练,达到在完形填空任务上52.11%的精度和在预测是否是下一个句子上98.45%的精度,相似度计算结果显示出《墨子》与《老子》密切相关.这种方法引起了我们对《老子》和《墨子》间论说思想关系的一番新思考.
BERT;数字人文;相似度;关系挖掘;先秦;老子
40
TP393;G251(计算技术、计算机技术)
国家社会科学重大基金项目"中国诸子学通史";国家社会科学基金项目"《经典释文》音义辞典";华东师大幸福之花先导基金重大研究专项"'幸福之花'先导研究基金项目——大数据视野下的老子思想源头与涵义研究"
2021-11-08(万方平台首次上网日期,不代表论文的发表时间)
共9页
99-107