10.3969/j.issn.1002-137X.2002.01.036
一种检测多语言文本相似重复记录的综合方法
@@ 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性.
检测、多语言文本、相似重复记录、数据挖掘技术、质量问题、语义不一致性、知识提供、信息技术、数据质量、数据仓库、输入错误、企业、迫切问题、应用、理想、决策、获取、海洋
29
TP39(计算技术、计算机技术)
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
118-121