失效
一种基于映射归约的数据处理方法及装置
王
王晓春机构 暂无
马
马军机构 暂无
摘要
本申请涉及云计算技术领域,尤其涉及一种基于映射归约的数据处理方法及装置,用以解决现有技术中MapReduce框架在对多路数据集进行连接时存在着连接效率比较低的问题;本申请实施例提供的基于映射归约的数据处理方法包括:接收多路数据集和连接字段信息,对每一路数据集执行映射操作得到多个中间结果集,根据为各连接字段设置的分区函数,确定每一中间结果集对应的至少一个Reduce节点,将中间结果集发送给确定出的每一个Reduce节点,对各Reduce节点中的中间结果集进行汇总,得到多路数据集中满足所有连接字段的数据集,这里,每一个中间结果集都发送给了可能需要自己的Reduce节点,不必对中间结果集再进行反复地读取和传送的操作,能够节省磁盘IO开销、降低网络通信代价。
暂无引用专利



