MapReduce理解 发表于 2019-03-18 | 分类于 大数据 | 阅读次数: Hadoop MapReduce是一个软件框架,该框架能够轻松编写出应用程序,这些应用程序以可靠,容错的方式在大型集群(数千节点)的商用硬件上并行处理大量数据。 阅读全文 »
Hive分区与实例 发表于 2019-01-29 | 分类于 数据仓库 | 阅读次数: 分区是一种根据分区列的(partition column,如日期等)的值对表进行粗略划分的机制。采用的也是hadoop分而治之的思想。 阅读全文 »
Shell 发表于 2019-01-11 | 分类于 大数据 | 阅读次数: shell是一种脚本语言,在日常工作中用到较多,无论是管理airflow调度,还是管理集群,都需要进行shell脚本的编写。今天抽时间整理了一下shell的相关使用。 阅读全文 »
Yarn 发表于 2018-12-21 | 分类于 大数据 | 阅读次数: YARN(Yet Another Resource Negotiator),另一种资源协调器,在Hadoop 2.x之后出现,是一种新的Hadoop资源管理器。 阅读全文 »