分布式环境下的文档相似度研究与实现

引用

摘要：

针对传统的相似度计算方法在海量信息处理过程中暴露出的数据处理规模限制和性能不足等方面的瓶颈问题，以非结构化文档为研究对象，提出一种基于Hadoop分布式环境，结合Hive数据处理平台和PostgreSQL关系型数据库的文档相似度计算方法，并给出关键技术思路、具体实现步骤和实证研究，通过研究证明HiveSQL语言可有效简化分布式数据处理的复杂性，但实时性有待改进。

关键词：Hadoop、Hive、相似度、非结构化

分类号：TP393(计算技术、计算机技术)

在线出版日期：2012-04-21（万方平台首次上网日期，不代表论文的发表时间）

页码：14-20

英文信息展示

期刊专题