文章 - 袋鼠社区-袋鼠云丨数栈丨数据中台丨数据治理丨湖仓一体丨数据开发丨基础软件

你的浏览器禁用了JavaScript, 请开启后刷新浏览器获得更好的体验!

筛选：: 最新推荐的热门的

Pyspark中的ROW对象使用 Pyspark中的Row对象使用Row对象介绍在PySpark中，Row对象是DataFrame的基本组成单元，它封装了DataFrame中的每一行数据。每行数据以Row对象的形式存在，其中包含了该行的各个字段值。这些字段值可以像属性一样被访问，使得处理数据变... 数栈君发表于2024-11-20 10:45 252 0

Pyspark中RDD常用方法 RDD 基本操作Ⅰ.常见的转化操作mapmap(func, preservesPartitioning=False)最基本的转化操作，对数据集中的每一个元素，应用一个具名/匿名函数进行才处理；一个或多个map可以异步进行，因为它们不会产生副作用。rdd =... 数栈君发表于2024-11-20 10:41 271 0

SparkContext与SparkSession区别 pyspark初始化SparkContextSpark中的主要接口，代表与Spark集群的连接。在早期版本的Spark中，需要通过SparkContext对象来初始化Spark应用程序。在Spark 2.0之后，推荐使用SparkSession来替代。创建RD... 数栈君发表于2024-11-19 10:46 294 0

RDD的概念及Pyspark操作RDD 1.简介RDD（弹性分布式数据集）是 PySpark 的基本构建块，它是容错、不可变的分布式对象集合。换句话说，RDD 是类似于 Python 中的列表的对象集合，不同之处在于 RDD 是在分散在多个物理服务器上的多个进程上计算的，也称为集群中的节点，而 ... 数栈君发表于2024-11-19 10:44 410 0

PySpark操作DataFrame常用方法（上） PYSPARK DataFrame 操作.na在 PySpark 中，DataFrame 的 .na 属性用于处理缺失值（NaN、null 或空值）。.na 属性提供了一组方法来处理和操作缺失值。以下是一些常用的方法：1.drop()删除包含任何缺失值的行df... 数栈君发表于2024-11-18 16:21 417 0

PySpark操作DataFrame常用方法（下） CAST()在 PySpark 中，cast 函数用于将 DataFrame 或列中的数据类型转换为所需的数据类型。它可以用于将某个列的数据类型更改为其他类型，或者在查询中对特定表达式进行类型转换。使用 cast 函数的一般语法如下：df.withColumn... 数栈君发表于2024-11-18 16:19 537 0

通过Flink读写云原生数据仓库AnalyticDB PostgreSQL版（ADB PG）数据 本文介绍如何通过阿里云实时计算Flink版实时读写云原生数据仓库AnalyticDB PostgreSQL版数据。背景信息云原生数据仓库AnalyticDB PostgreSQL版是一种大规模并行处理（MPP）数据仓库服务，可提供海量数据在线分析服务。实时计算... 数栈君发表于2024-11-18 15:39 441 0

RabbitMQ如何避免消息重复投递或重复消费？ RabbitMQ通过一系列机制来避免消息的重复投递和重复消费，确保消息的可靠传输和处理。1.消息去重：在发送端去重：在发送消息之前，可以在消息的唯一标识字段上进行去重操作。使用数据库或缓存来记录已经发送的消息的标识，每次发送消息之前先查询是否已存在相同标识的消... 数栈君发表于2024-11-18 14:50 843 0

央国企数据资产消费实践，发掘数据要素价值 随着数字化转型不断深化，某集团企业数据应用方面需求不断扩展。然而数据应用方面的数据价值不凸显、数据标准不统一、数据质量不可控、数据使用不合规等问题逐渐显现，集团缺乏系统的数字资产集成、管理等能力。集团希望打造全司统一、覆盖公司业务全流程的经营管理、运营管理以及... 数栈君发表于2024-11-15 17:17 1250 0

基于Ranger和LDAP的数据安全管控方案，为企业提供强大的权限管理能力 在高度信息化的商业环境中，数据安全已成为现代企业的重要任务之一。随着企业内部数据的体量不断增加，业务的需求越加复杂化，企业借此引入的大数据组件类别也越来越多，Hive、Trino、Impala、Kafka、Hbase等组件层出不穷。数据作为企业的重要资产，如何... 数栈君发表于2024-11-15 17:12 1556 0

共2252条数据，每页显示10条

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群

热门产品

数雁EasyDigit 数栈DTinsight 数驹DTengine 易知微EasyV

解决方案

政务解决方案港口解决方案基金解决方案制造解决方案保险解决方案高校解决方案证券解决方案文旅解决方案银行解决方案大宗商品解决方案

快速入口

合作与生态开源社区 Github

联系我们

合作咨询 market@dtstack.com

联系电话 400-002-1024

总部地址杭州市余杭区五常街道阿里巴巴数字生态创新园4号楼袋鼠云

袋鼠云官方订阅号

袋鼠云官方订阅号

热门搜索：

数据中台企业数据中台金融数据中台离线数据中台数据中台公司一站式数据中台数据中台开发一站式数据开发数据中台解决方案大数据分析数据分析平台新基建大数据开发大数据开发平台数据化转型解决方案信创数据可视化数字孪生可视化大屏数字化转型

友情链接：易知微云掣

@Copyrights 2016-2023 杭州玳数科技有限公司浙ICP备15044486号-1 浙公网安备33011002011932号