10.3778/j.issn.1002-8331.1708-0053
电商网页中商品规格信息自动抽取方法研究
Web中数十亿的商品规格信息的自动挖掘,对电子商务领域的市场分析、商品推荐、售后服务等诸多领域有重要的应用价值.但目前的商品规格信息抽取方法尚未有效解决人工标注工作量、扩展性和准确率之间的平衡问题,提出一种商品网页规格信息自动抽取方法TSAE(Title Seed Automatic Extract),采用无监督的学习方法,以网页标题为种子,结合统计特征、自然语义和机器语义,在减少工作量、提升扩展性的同时,达到了较高的准确率.实验表明,TSAE方法在提供更好的自动化抽取效果的同时,具备良好的性能和扩展性,能够支撑海量数据处理,具有良好的实用价值.
信息抽取、自动抽取、商品规格信息、电子商务
53
TP311(计算技术、计算机技术)
国家自然科学基金61572079;北京市教育委员会科技计划一般项目KM201711232018
2018-01-03(万方平台首次上网日期,不代表论文的发表时间)
共4页
168-171