恩墨学院 - 名师传道,授业以专

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
Hadoop学习(十五)
heartseaworld 2017-3-27 21:22
配置HDFS高可用性 1、单个NameNode是单点故障,NameNode的两种方式可能导致HDFS停机 意外的NameNode崩溃(罕见) NameNode的计划维护(更常见) 2、HDFS高可用性(HA)消除了此SPOF。可用于CDH4(或相关的Apache Hadoop 0.23.x和2.x) 3、HDFS高可用性架构 HDFS高可用性使用一对NameNodes,一个活动和一个 ...
2 次阅读|0 个评论
Hadoop学习(十四)
heartseaworld 2017-3-26 23:52
1、公共Hadoop端口。Hadoop守护进程都提供基于Web的用户界面,适用于用户和系统管理员 2、在各种不同的端口上公布信息。端口号是可配置的,尽管默认值为大部分 3、Hadoop还使用各种端口用于系统的组件相互通信 4、用户的Web UI端口 HDFS NameNode 50070 dfs.namenode.http-address DataNode 50075 dfs.da ...
5 次阅读|0 个评论
Hadoop学习(十三)
heartseaworld 2017-3-25 23:42
Hadoop高级配置参数 1、NameNode调优,dfs.namenode.handler.count(hdfs-site.xml) NameNode用于处理DataNodes的RPC请求的线程数。默认值:10.推荐:ln(群集节点数)* 20。 它的症状被设置得太低:DataNode日志中的'连接拒绝'消息,因为他们尝试传送块报告给NameNode。由NameNode使用。 2、DataNode调优 1 ...
5 次阅读|0 个评论
Spark学习(四)
heartseaworld 2017-3-24 23:32
13、RDD的两种操作 1)Actions(结果很珍贵,保存到内存中) 从RDD返回值 2)Transformations 基于当前的RDD定义新的RDD(一个或多个) 14、一些常见的Actions count() 返回元素的数量 take(n) 返回前n个元素的数组 collect() 返回所有元素的数组 saveAsTextFile(file ...
7 次阅读|0 个评论
Spark学习(三)
heartseaworld 2017-3-23 23:03
chapter7 并行处理 如何在集群中分发RDD Spark如何并行执行RDD操作 1、弹性分布式数据集,数据分布在工作节点上。分区由Spark自动完成,可选地,你可以控制分区的个数 2、基于文件的RDD的分区 单个文件分区 基于大小的分区,你可以选择指定最小数量的分区textFile(file,minPartitions)。默认为2。更 ...
10 次阅读|0 个评论
Hue学习(一)
heartseaworld 2017-3-22 23:08
Hue 1、安装Hue sudo yum install hue 2、启动Hue服务 sudo service hue start 3、从浏览器访问Hue http://hue_server:8888 4、配置Hue应用 修改/etc/hue/conf/hue.ini ,重新启动Hue服务器使更改生效 5、在hue.ini的 部分设置secret_key的任意值,用于哈希H会话 6、配置查询Hue应用程序 ...
10 次阅读|0 个评论
HBase学习(二十九)
heartseaworld 2017-3-21 22:14
HBase和MapReduce 1、MapReduce给集群增加了更多的守护进程 1)MR1:JobTracker用于协调MR作业,TaskTrackers用于运行任务 2)MR2:ResourceManager用于管理节点资源,ApplicationMasters和NodeManagers负责运行Slave节点上的任务 2、MapReduce工作流通常需要额外20-30%的空间用于存放临时数据 3、在装有HBase ...
10 次阅读|0 个评论
Hive学习(十七)
heartseaworld 2017-3-20 22:15
1、Hive提供了一种使用SQL语言在HDFS中查询大型数据集的方法 2、Hive将HiveQL查询转换为标准的MapReduce作业。自动运行作业,并向用户显示结果 3、注意Hive不是RDBMS。不支持UPDATE和DELETE 4、Hive中的“表”是HDFS目录,Hive将目录中的所有文件解释为表的内容 5、存储有关行和列的信息在Hive Metastore中的文件内 ...
18 次阅读|0 个评论
Spark学习(二)
heartseaworld 2017-3-19 22:57
1、Spark应用程序用于大规模数据处理,使用的语言Python、Scala、Java 2、编程语言分类: 声明式编程语言(SQL) 指令式编程语言(java) 函数式编程语言(Spark)特性:没有变量,所以用递归做循环 Scala:运行在JVM中的函数式编程语言,有两个血统(函数式、指令式) Java是传统的指令式编程语言, ...
32 次阅读|0 个评论
HBase学习(二十八)
heartseaworld 2017-3-18 22:54
HBase备份机制 继续昨天的学习 14、批量加载实现列高效的数据加载 1)对于时间序列以及顺序数据的加载帮助尤其大 2)不会运行单行的put,避开了WAL、Memstore和memory的问题 3)通过一次性加载所有数据避免了热点问题 15、批量加载只能用于批量处理或者加载增量的数据,备注:批量加载的数据将不会被复 ...
23 次阅读|0 个评论

公司介绍|加入我们|联系我们|enmoedu.inc  

GMT+8, 2017-3-28 00:22 , Processed in 0.052061 second(s), 10 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部