各种参数调优

在实际使用Hive或者Spark的时候，肯定会涉及参数的调优，主要目的是提升资源的使用率，提升任务的性能，以最少的资源最快的完成任务的运行，有时候也是为了解决一些直接的报错，总之，不管用过没用过的都记录一下，方便以后查阅。

##Hive

1.mapred.reduce.tasks 
默认：1；
所提交 Job 的 reduer 的个数，使用 Hadoop Client 的配置。

2.hive.mapred.mode
默认：'nonstrict'；
Map/Redure 模式，如果设置为 strict，将禁止3种类型的查询：
a.分区表的where筛选条件必须含有分区字段；
b.对使用了order by语句的查询，必须使用limit语句
(order by语句为执行排序会将所有的结果集数据分发到同一个reducer中进行处理，
增加limit语句可以防止reducer额外执行很长时间)
c.限制笛卡儿积的查询，就是有where语句，而没有on语句。 

3.hive.merge.mapfiles 
默认：true；
在Map-only的任务结束时合并小文件。

4.hive.merge.mapredfiles 
默认：false
是否在Map-Reduce的任务结束时合并小文件。

5.hive.exec.parallel 
默认：false
是否开启 map/reduce job的并发提交。 

6.hive.groupby.skewindata 
默认:false
决定 group by 操作是否支持倾斜的数据

参考：https://www.cnblogs.com/binguo2008/p/7487782.html

笔记本

发现有时候看到一些，让自己茅塞顿开的文章内容，或者，突然想到了之前困扰自己的问题的答案，之类的这些，又担心自己之后忘记，但是单独开一篇又觉得没有必要，所以，就记录在这里，方便以后可以查阅一下。笔记1.一张图明白MR中 Partition和Reduce 的关系2.最近刚换新工作，基建做的比较好，比较难接触到底层，但是学习还是不能止步的，简单列一些自己还要学习的东西，以后有空写点东西。1.数据挖...

linux的一些常用或者非常用命令，经常用到但是又经常忘记，或者不确定，毕竟在服务器上，一个误操作可能就滚蛋了，所以还是记一下，以防不测。## 常用git操作 1.git log 查看历史提交记录 git log --graph --pretty=oneline --abbrev-commit 查看提交流程图 2.git add 3.git co...

2019-03-23

@WYK

bigDataDetail