10.3778/j.issn.1002-8331.1309-0312
基于SNM算法的大数据量中文地址清洗方法
中文地址由行政区划地址和详细地址两部分组成,行政区划地址的处理可通过构建地址词典、分词、补充特征字等方式清洗,目前技术较为成熟。详细地址则随我国城镇化的发展而不断变化,且新的地址层出不穷,导致其清洗和规范化工作极其困难。在研究大数据量中文地址的基础上,提出了中文地址清洗模型,在行政区划地址先清洗并规范的前提下,对地址进行排序,利用SNM算法将详细地址聚集在一个较小的窗口内,对窗口内的地址进行匹配和清洗,实验结果证明清洗效果良好。
中文地址、行政区划、详细地址、特征字、清洗
TP391(计算技术、计算机技术)
福建省教育厅A类科技项目No.JA12335。
2014-03-12(万方平台首次上网日期,不代表论文的发表时间)
共4页
108-111