shuffle什么意思(shuffle为什么是随机)

来源：[db:来源] 时间：2022-05-25 19:31:55

大数据作为当今热门的一个行业，想要学习好大数据，要了解的东西有很多，而shuffle作为MapReduce框架中最关键的一个流程，是很重要的。所以今天我们就来了解一下关于shuffle过程详解，下面一起来看看吧。

Map阶段处理的数据如何传递给reduce阶段，shuffle在其中起到了很关键的作用，shuffle分布在MapReduce的map阶段和reduce阶段。

Map的shuffle过程：主要包括输出、排序、溢写、合并等步骤，如下图所示：

1、collect：每个Maptask都将数据输出到该Maptask对应的环形缓冲区Kvbuffer中，使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据。

2、Sort：在对数据进行合并的同时，会进行排序操作，由于 MapTask 阶段已经对数据进行了局部的排序，ReduceTask 只需保证 Copy 的数据的最终整体有效性即可。

3、Spill：当内存中的数据量达到了一定的阀值的时候，会生成一个溢写文件，将环形缓冲区中的原始数据写入该文件，按照上一步排序的元数据，溢写时对原始数据进行排序。

由于一个Maptask处理的数据可能需要多次溢写才能写完，所以每个Maptask可能生成多个溢写文件。最终剩在环形缓冲区中的数据达不到阈值条件，会强制刷出生成一个溢写文件。

4、Merge：在 ReduceTask 远程复制数据的同时，会在后台开启两个线程对内存到本地的数据文件进行合并操作。

5、Copy：Reduce 任务通过HTTP向各个Map任务拖取它所需要的数据。每个节点都会启动一个常驻的HTTP server，其中一项服务就是响应Reduce拖取Map数据。当有MapOutput的HTTP请求过来的时候，HTTP server就读取相应的Map输出文件中对应这个Reduce部分的数据通过网络流输出给Reduce。

6、排序合并sort-merge：每个分区的数据从多个maptask拖取过来后进行归并排序，合并成一个文件，最后各个分区的文件通过分区组件的逻辑，划分到不同的reducetask。

以上就是关于shuffle过程的详解了，不知道大家是否有了一定的了解，大数据中有很多的框架结构，一些重要的点是需要各位了解透彻的。如果想了解更多详情，请点击成都加米谷大数据官网吧！

精彩文章

今日要闻

shuffle什么意思(shuffle为什么是随机)

shuffle什么意思(shuffle为什么

网签在哪里查询(常熟网签合同在

诺基亚8推出双后置摄像头，Snapd

哪些食物容易胀气(容易胀气的零

查了老婆的微信聊天记录（怎么查

诺基亚8第一印象: 时尚的设计，

查开宾馆记录快搜问答.靠谱（哪里可以查住酒店的记录）

手机怎么查车上的定位（怎么查找车辆位置?）

PQV快速查看和编辑图片

大众途锐怎么样(新款大众途锐狂降16万)

知道微信账号密码能查聊天记录么？（怎么查微信里面的聊天记录）

新款诺基亚8手机瞄准视频流媒体需求激增

诺基亚与苹果、三星在新智能手机发布会上混在一起

诺基亚8是为内容创作者制作的，但价格难以消化

诺基亚8常见问题: 预期印度推出，定价和其他问题的答案

HBO的Twitter，Facebook帐户被黑客入侵

老鼠尿味怎么去除(老鼠屎尿味多久可以消失)

在职研究生怎么样(双证非全日制太坑了)

查取对方微信聊天记录（怎样查看别人的聊天记录）

查老婆手机已删微信记录（怎么查看老婆的微信聊天记录信息）

什么方法可以查酒店记录(如何查询酒店入住信息)

怎样查宾馆酒店记录（怎么查住哪个酒店）

施华蔻洗发水怎么样(公认最好用的洗发水)

如何知道是否怀孕(怎么判断自己怀孕没)

手机关了定位怎么查位置吗（对方手机关机怎样定位追踪）

美孚怎么样(美孚机油红瓶的好吗)

诺基亚8推出双摄像头，能够从双方进行流式传输; 将于10月初在印度上市

诺基亚8全规格，预计印度价格和其他一切需要知道

政府要求21家智能手机制造商共享安全信息

华硕ROG Zephyrus游戏笔记本电脑在印度推出超薄外形: 价格、规格

政府对21家智能手机制造商的数据安全保护措施的关注

电脑查苹果手机ID定位（怎么寻找苹果手机位置）

查自己的入住酒店记录(如何查询自己曾经住过的酒店)

微信聊天记录怎么查以前的（查微信全部聊天记录）

10012是什么电话(10012开头的是哪个银行账号)

怎样查我微信好友的聊天记录（微信能查找聊天记录吗）