恩墨学院 - 名师传道,授业以专

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
Spark学习(十三)
heartseaworld 2017-5-7 23:17
1、广播变量 1)广播变量由驾驶员设定并由工作人员检索 2)它们只读一次设置 3)广播变量的第一次读取在节点上检索并隐藏其值 2、为什么要使用广播变量? 用于最小化通过网络传输数据,这通常是最大的瓶颈。Spark广播变量使用非常有效的对等算法分发给工作节点 3、累加器变量 工作节点可以添加该值 ...
35 次阅读|0 个评论
Spark学习(十二)
heartseaworld 2017-5-6 23:37
1、DataFrames和RDDs DataFrames构建在RDD上,基础RDD包含Row对象,使用rdd获取底层RDD peopleRDD = peopleDF.rdd 2、行RDD具有所有标准Spark操作和转换,行RDD可以转换成PairRDD以使用map-reduce方法 Actions collect, take, count等 Transformations map, flatMap, filter等 3、使用行对象, ...
36 次阅读|0 个评论
Spark学习(十一)
heartseaworld 2017-5-5 23:50
1、使用列查询DataFrames 1)一些DF查询需要一个或多个列或列表达式,需要更复杂的操作。一些例子:select、sort、join、where 2)在Python中,使用点表示法按名称引用列 ageDF = peopleDF.select(peopleDF.age) 在Scala中,可以通过两种方式引用列 val ageDF = peopleDF.select($"age")或 va ...
32 次阅读|0 个评论
Spark学习(十)
heartseaworld 2017-5-4 22:27
转换和查询DataFrames 1、DataFrame基本操作 基本操作处理DataFrame元数据(而不是其数据) 1)schema 返回描述数据的模式对象 2)printSchema 将模式显示为视觉树 3)cache/persist 将DataFrame保留到磁盘或内存 4)columns 返回一个包含列名称的数组 5)dtypes 返回一个数组(列名, ...
34 次阅读|0 个评论
Spark学习(九)
heartseaworld 2017-5-3 23:27
DataFrames 1、创建DataFrames DataFrames是Spark SQL中的主要抽象 1)类似于核心Spark中的RDD 2)组织成命名列的分布式数据集合 3)建立在包含Row对象的基础RDD上 2、 DataFrames的创建方式 1)从现有的结构化数据源(如Parquet或JSON格式的文件) 2)从现有的RDD 3)通过对另一 ...
26 次阅读|0 个评论
Spark学习(八)
heartseaworld 2017-4-26 17:50
Spark SQL 1、什么是Spark SQL 1)用于结构化数据处理的Spark模块 2)替换Shark(以前的Spark模块,现已弃用) 3)建立在核心Spark之上 2、Spark SQL提供什么 1)DataFrame API用于将数据用作表格的库,定义包含行和列的DataFrames 2)Catalyst Optimizer一个可扩展的优化框架 3)一个SQL引擎和 ...
42 次阅读|0 个评论
Hadoop学习(四十一)
heartseaworld 2017-4-25 23:23
11、对于特定于Volume的Secondary NameNode属性重复此操作,通常只是dfs.namenode.secondary.http-address 12、在整个集群中传播配置更改,如果设置新的HDFS安装,后续步骤与未经过预定的安装相匹配 13、如果添加联盟到现有的安装,不要格式化NameNode 14、客户端安装,HDFS联合允许多个NameNodes,客户端安装一个或多 ...
34 次阅读|0 个评论
Hadoop学习(四十)
heartseaworld 2017-4-24 22:42
1、HDFS联合允许集群具有多个NameNodes,每个管理命名空间卷,客户端安装定义整体视图(类似于/etc/fstab) 2、命名空间卷(和名称节点)是独立的,他们不相互沟通 3、HDFS联盟的好处:可扩展性、表现、隔离 4、本节中的材料仅适用于CDH4和等效的Apache Hadoop版本(0.23.x),可以说HDFS联盟不是在生产中使用的 5、联 ...
41 次阅读|0 个评论
Hadoop学习(三十九)
heartseaworld 2017-4-23 23:21
1、配置YARN和MapReduce安全性 1)编辑yarn-site.xml以添加ResourceManager和NodeManager属性,必须在群集中的每台机器上指定它们 yarn.resourcemanager.keytab=/etc/hadoop/conf/yarn.keytab yarn.resourcemanager.principal=yarn/_HOST@YOUR-REALM.COM yarn.nodemanager.keytab=/etc/hadoop/conf/yar ...
49 次阅读|0 个评论
Hadoop学习(三十八)
heartseaworld 2017-4-22 23:35
1、配置HDFS安全 1)编辑hdfs-site.xml以添加NameNode属性,些必须在集群中的每个机器上指定 dfs.block.access.token.enable=true dfs.web.authentication.kerberos.principal=HTTP/_HOST@YOUR_REALM.COM dfs.namenode.keytab.file=/etc/hadoop/conf/hdfs.keytab dfs.namenode.kerberos.principal ...
37 次阅读|0 个评论

公司介绍|加入我们|联系我们|enmoedu.inc  

GMT+8, 2017-5-24 00:57 , Processed in 0.037072 second(s), 10 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

返回顶部