大佬们求救,我想咨询一个问题,卡了很久了。在搭建Taier环境的时候官网说需要部署Flink on yarn模式。有人比较熟悉flink on yarn部署的吗?我遇到一个疑难杂症。
===================背景描述===================
我将flink on yarn模式部署完成之后,想使用它的session模式,也就是在yarn集群里预启动一个flink集群。
于是我执行指令:“yarn-session.sh -n 2 -tm 1024 -s 1”(向yarn集群申请Container资源,用于启动2个Flink TaskManager,每个TaskManager的内存大小为1024M,每个TaskManager的任务槽个数为1)。
===================但执行指令后,出现以下几个错误现象===================
现象1:linux控制台一直重复出现“Deployment took more than 60 seconds. Please check ifthe requested resources are available in the YARN cluster”
现象2:进入Yarn的web界面,发现这个flink-session所对应的yarn application任务一直处于ACCEPTED状态,迟迟不进入RUNNING状态
现象3: 还是进入yarn web界面,发现yarn的调度器一上来其实是分配了3个Container的(也比较好理解。因为我们申请了2个Flink TaskManager所需要的2个Container,再加上默认会启动一个Container给Flink JobManager,所以确实一共应该是3个)。但是如下图所示,一上来3个Container就挂掉了2个,原因不明。
现象4:现象1持续一段时间后,控制台出现如下报错信息。
===================个人尝试过的失败处理===================
网上的帖子大部分都是说yarn所能调配的资源不足以启动这个flink session,所以需要修改相关配置。但是我已经修改配置后并重启yarn,且把资源给够了。但依然出现上述问题。
===================下面是我的所有相关配置内容===================
1、我的集群规模及服务器性能:
集群规模5台,Hadoop及Flink均在5台节点上进行了部署,配置项完全一致。
服务器性能:6核12线程+32G内存
2、yarn配置文件yarn-site.xml:
3、flink配置文件flink-conf.yaml
你要去看hadoop yarn resourcemanager的日志,看下为什么有两个container会挂掉了,看flink这个日志看不出原因的
想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=bbs
同时,欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」,交流最新开源技术信息,群号码:30537511,项目地址:https://github.com/DTStack/chunjun