博客 Pyspark中pyspark.sql.functions常用方法(4)

Pyspark中pyspark.sql.functions常用方法(4)

蓝袋鼠发表于 2024-11-29 14:44 284 0

pyspark sql functions

forall 判断array是否满足all

df = spark.createDataFrame(
    [(1, ["bar"]), (2, ["foo", "bar"]), (3, ["foobar", "foo"])],
    ("key", "values")
)
df.show()
+---+-------------+
|key|       values|
+---+-------------+
|  1|        [bar]|
|  2|   [foo, bar]|
|  3|[foobar, foo]|
+---+-------------+
df.select(forall("values", lambda x: x.rlike("foo")).alias("all_foo")).show()
+-------+
|all_foo|
+-------+
|  false|
|  false|
|   true|
+-------+

filter 过滤

df = spark.createDataFrame([([1, None, 2, 3],), ([4, 5, None, 4],)], ['data'])
df.show()
+---------------+
|           data|
+---------------+
|[1, null, 2, 3]|
|[4, 5, null, 4]|
+---------------+
df.select(fs.filter(df.data,lambda x: x>1).alias('filter')).show()
+---------+
|   filter|
+---------+
|   [2, 3]|
|[4, 5, 4]|
+---------+

zip_with 数组合并

使用函数将两个给定的数组按元素合并为一个数组。如果一个数组较短，则在应用函数之前，在末尾附加null以匹配较长数组的长度。

df.select(fs.zip_with("xs", "ys", lambda x, y: x ** y).alias("powers")).show(truncate=False)
+---------------------------+
|powers                     |
+---------------------------+
|[1.0, 9.0, 625.0, 262144.0]|
+---------------------------+

https://blog.csdn.net/weixin_43322583/article/details/143208261

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据资产管理白皮书》下载地址：

《行业指标体系白皮书》下载地址：

《数据治理行业实践白皮书》下载地址：

《数栈V6.0产品白皮书》下载地址：

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：

大数据安全与区块链技术的融合应用搭建边缘计算的平台大数据存储计算平台大数据计算数据治理与质量管理多云环境下的大数据存储计算云平台上的大数据存储计算数据安全与隐私保护大数据存储计算性能的优化大数据技术

0条评论

上一篇：区块链技术如何改变大数据存储计算？

下一篇：Dolphinscheduler单机搭建(从零开始)

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

Pyspark中pyspark.sql.functions常用方法(4)

pyspark sql functions

forall 判断array是否满足all

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群