问答 在搭建Taier环境的时候官网说需要部署Flink on yarn模式。有人比较熟悉flink on yarn部署的吗?

在搭建Taier环境的时候官网说需要部署Flink on yarn模式。有人比较熟悉flink on yarn部署的吗?

   匿名用户    发布于 2023-02-09 10:54 最新回复 2023-02-09 11:07  来自于   群内解答  708  4

大佬们求救,我想咨询一个问题,卡了很久了。在搭建Taier环境的时候官网说需要部署Flink on yarn模式。有人比较熟悉flink on yarn部署的吗?我遇到一个疑难杂症。

===================背景描述===================

我将flink on yarn模式部署完成之后,想使用它的session模式,也就是在yarn集群里预启动一个flink集群。

于是我执行指令:“yarn-session.sh -n 2 -tm 1024 -s 1”(向yarn集群申请Container资源,用于启动2个Flink TaskManager,每个TaskManager的内存大小为1024M,每个TaskManager的任务槽个数为1)。

===================但执行指令后,出现以下几个错误现象===================

现象1:linux控制台一直重复出现“Deployment took more than 60 seconds. Please check ifthe requested resources are available in the YARN cluster”

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/ffe31b9e49d1c130c371f5926d50582e..jpg

现象2:进入Yarn的web界面,发现这个flink-session所对应的yarn application任务一直处于ACCEPTED状态,迟迟不进入RUNNING状态

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/c66a5e06286e4ecd72bb57d4bb961252..jpg

现象3: 还是进入yarn web界面,发现yarn的调度器一上来其实是分配了3个Container的(也比较好理解。因为我们申请了2个Flink TaskManager所需要的2个Container,再加上默认会启动一个Container给Flink JobManager,所以确实一共应该是3个)。但是如下图所示,一上来3个Container就挂掉了2个,原因不明。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/4445ac28cf9d130a0d23fd5271fdca28..jpg

现象4:现象1持续一段时间后,控制台出现如下报错信息。

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/9fe1ae3a63a5c29b145069392dc40bf9..jpg

===================个人尝试过的失败处理===================

网上的帖子大部分都是说yarn所能调配的资源不足以启动这个flink session,所以需要修改相关配置。但是我已经修改配置后并重启yarn,且把资源给够了。但依然出现上述问题。

===================下面是我的所有相关配置内容===================

1、我的集群规模及服务器性能:

集群规模5台,Hadoop及Flink均在5台节点上进行了部署,配置项完全一致。

服务器性能:6核12线程+32G内存

2、yarn配置文件yarn-site.xml:

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/61f4f7cbaffa0bbe1a5c79872f5bda79..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/3862fdbc312b71de8a67f46eba9e3de5..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/41dd26b90a0833e4f944a473f25a2cac..jpg

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/5559688745409d60c027ffc2091eff54..jpg

3、flink配置文件flink-conf.yaml

http://dtstack-static.oss-cn-hangzhou.aliyuncs.com/2021bbs/files_user1/question/4df065022a04fdd5ce192efe65d109e2..jpg

4条回答
群内解答
回复于 2023-02-09 11:07

  Flink1.11.0 版本不再使用-n 参数和-s 参数分别指定 TaskManager 数量和 slot 数量,
YARN 会按照需求动态分配 TaskManager 和 slot。 可能因为这个报 Argument list too long  

0 0
群内解答
回复于 2023-02-09 11:07

  报

taier 的 flink on yarn,不用手工在启动yarn session的命令把,在taier提交任务的时候,taier会启动的yarn session的


0 0
群内解答
回复于 2023-02-09 11:05

  报错上写了 Argument list too long 你去搜下这个报错,看看是你Linux机器哪里有问题了。  

0 1
srgyk
回复于 2023-02-09 11:06
对,我也刚看见这个玩意儿,我查了查谷歌,没有找到合适的办法
群内解答
回复于 2023-02-09 11:03

你要去看hadoop yarn resourcemanager的日志,看下为什么有两个container会挂掉了,看flink这个日志看不出原因的


想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs

同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack/chunjun

  

0 0
社区公告
  • 大数据领域最专业的产品&技术交流社区,专注于探讨与分享大数据领域有趣又火热的信息,专业又专注的数据人园地

最新活动更多
微信扫码获取数字化转型资料
钉钉扫码加入技术交流群