博客 Pyspark中RDD常用方法

Pyspark中RDD常用方法

数栈君发表于 2024-11-20 10:41 267 0

RDD 基本操作

Ⅰ.常见的转化操作

`map`

map(func, preservesPartitioning=False)

最基本的转化操作，对数据集中的每一个元素，应用一个具名/匿名函数进行才处理；一个或多个map可以异步进行，因为它们不会产生副作用。

rdd = sc.parallelize(["b", "a", "c"])
sorted(rdd.map(lambda x: (x, 1)).collect())

output- [('a', 1), ('b', 1), ('c', 1)]

`flatMap`

flatMap(func, preservesPartitioning=False)

与map的操作类似，但会进一步拍平数据，表示会去掉一层嵌套

rdd = sc.parallelize([2, 3, 4])
sorted(rdd.flatMap(lambda x: range(1, x)).collect())
output: [1, 1, 1, 2, 2, 3]
sorted(rdd.flatMap(lambda x: [(x, x), (x, x)]).collect())
output: [(2, 2), (2, 2), (3, 3), (3, 3), (4, 4), (4, 4)]

`filter`

filter(func)

一般是依据括号中的一个布尔型表达式，来筛选出满足为真的元素

rdd = sc.parallelize([1, 2, 3, 4, 5])
rdd.filter(lambda x: x % 2 == 0).collect()
[2, 4]

`distinct`

distinct(numPartitions=None)

去重操作

sorted(sc.parallelize([1, 1, 2, 3]).distinct().collect()) [1, 2, 3]

`group by`

groupBy(func, numPartitions=None, partitionFunc=)

依据func 中提供的条件，对原始RDD进行分组聚合

rdd = sc.parallelize([1, 1, 2, 3, 5, 8])
result = rdd.groupBy(lambda x: x % 2).collect()
sorted([(x, sorted(y)) for (x, y) in result])
[(0, [2, 8]), (1, [1, 1, 3, 5])]

`sortBy`

sortBy(keyfunc, ascending=True, numPartitions=None)

依据 keyfunc 对原RDD进行排序

tmp = [('a', 1), ('b', 2), ('1', 3), ('d', 4), ('2', 5)]
sc.parallelize(tmp).sortBy(lambda x: x[0]).collect()
[('1', 3), ('2', 5), ('a', 1), ('b', 2), ('d', 4)]
sc.parallelize(tmp).sortBy(lambda x: x[1]).collect()
[('a', 1), ('b', 2), ('1', 3), ('d', 4), ('2', 5)]

Ⅱ.基本的RDD行动操作

`count`

count()

不接收参数，返回一个long类型的值，代表RDD中的元素个数

sc.parallelize([2, 3, 4]).count()
3

`collect`

collect()

输出一个由RDD中所有元素组成的列表一般只在小规模数据中使用，避免输出一个过大的列表

`take`

take(n)

返回RDD的前n个元素（随机的）

`top`

top(n, key=None)

和top的功能类似,但是top会将元素排序并按照降序输出。

`first`

fisrt()

返回RDD中的第一个元素，与take(1)很相似，但是不同之处在于： take(1)返回的是由一个元素组成的列表；而first( ) 返回的只是一个具体的元素。

`reduce`

reduce(func)

使用指定的满足交换律和结合律的运算符，来归约RDD中的所有元素。

`foreach`

foreach(func)

对数据集中的每一个元素应用具名/匿名函数，与map类似，但是不同之处在于： map是转化操作，无法输出；而foreach是行动操作，可以有输出函数

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据资产管理白皮书》下载地址：

《行业指标体系白皮书》下载地址：

《数据治理行业实践白皮书》下载地址：

《数栈V6.0产品白皮书》下载地址：

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：

ADB PG flink SparkContext与SparkSession区别大数据技术 AnalyticDB PostgreSQL版 ADB PG数据同步网络配置 Flink CDC在ADB PG数据同步中的应用 Flink作业与ADB PG数据交互 Flink捕获ADB PG数据变更 Flink实时读取ADB PG数据

0条评论

上一篇：出海企业数据挖掘的价值发现

下一篇：Pyspark中的ROW对象使用

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多