博客 Prometheus监控

Prometheus监控

数栈君发表于 2023-05-25 11:29 492 0

Prometheus架构图
分为客户端Agent和Server端。agent端推送数据给服务器。

一、Grafana介绍
Grafana是一个跨平台的开源的度量分析和可视化工具，可以通过将采集的数据查询然后可视化的展示，并及时通知。
它主要有以下六大特点：
1、展示方式：快速灵活的客户端图表，面板插件有许多不同方式的可视化指标和日志，官方库中具有丰富的仪表盘插件，比如热图、折线图、图表等多种展示方式；
2、数据源：Graphite，InfluxDB，OpenTSDB，Prometheus，Elasticsearch，CloudWatch和KairosDB等；
3、通知提醒：以可视方式定义最重要指标的警报规则，Grafana将不断计算并发送通知，在数据达到阈值时通过Slack、PagerDuty等获得通知；
4、混合展示：在同一图表中混合使用不同的数据源，可以基于每个查询指定数据源，甚至自定义数据源；
5、注释：使用来自不同数据源的丰富事件注释图表，将鼠标悬停在事件上会显示完整的事件元数据和标记；
6、过滤器：Ad-hoc过滤器允许动态创建新的键/值过滤器，这些过滤器会自动应用于使用该数据源的所有查询。

二、Prometheus组件
普罗米修斯是一个开源系统监视和警报工具包，包含一整套数据的搜索\存储\处理\可视化功能。使用http接口来传输数据(通常搭配cAdvisor使用)。

1.Server 负责从exporters拉取监控数据,提供一套非常灵活的查询语言
2.exporters 负责收集目标对象的性能数据(内存、CPU、硬盘),主动提交给Server端
3.Grafana 可视化数据组件
4.Client Library: 客户端库，为需要监控的服务生成相应的 metrics 并暴露给server。当server来pull时，直接返回实时状态的 metrics。
5.Push Gateway: 主要用于短期的 jobs。由于这类 jobs 存在时间较短，可能在 Prometheus 来 pull 之前就消失了。为此，这次 jobs 可以直接向server 端推送它们的 metrics。这种方式主要用于服务层面的 metrics，对于机器层面的 metrices，需要使用 node exporter。
6.Alertmanager: 从server端接收到警报后，会进行去除重复数据，分组，并路由到对收的接受方式，发出报警。
常见的接收方式有：电子邮件，pagerduty，OpsGenie, webhook 等。

三、prometheus运行流程
prometheus根据配置定时去拉取各个节点的数据，默认使用的拉取方式是pull，也可以使用pushgateway提供的push方式获取各个监控节点的数据。将获取到的数据存入TSDB(一款时序型数据库)。此时prometheus已经获取到了监控数据，可以使用内置的PromQL进行查询。它的报警功能使用Alertmanager提供(Alertmanager是prometheus的告警管理和发送报警的一个组件)。prometheus原生的图标功能过于简单，可将prometheus数据接入grafana，由grafana进行统一管理。

从上面架构图也可以看出 Prometheus 的主要模块包含， Server, Exporters, Pushgateway, PromQL, Alertmanager, WebUI 等。

它大致使用逻辑是这样：
1.Prometheus server 定期从静态配置的 targets 或者服务发现的 targets 拉取数据。
2.当新拉取的数据大于配置内存缓存区的时候，Prometheus 会将数据持久化到磁盘（如果使用 remote storage 将持久化到云端）。
3.Prometheus 可以配置 rules，然后定时查询数据，当条件触发的时候，会将 alert 推送到配置的 Alertmanager。
4.Alertmanager 收到警告的时候，可以根据配置，聚合，去重，降噪，最后发送警告。
5.可以使用 API， Prometheus Console 或者 Grafana 查询和聚合数据。

四、优点
✔ 强大的多维度数据模型：

时间序列数据通过 metric 名和键值对来区分。
所有的 metrics 都可以设置任意的多维标签。
数据模型更随意，不需要刻意设置为以点分隔的字符串。
可以对数据模型进行聚合，切割和切片操作。
支持双精度浮点类型，标签可以设为全 unicode。
只需定义一个全局指标,通过维度来增加监控的标准。

✔ 灵活而强大的查询语句（PromQL）：在同一个查询语句，可以对多个 metrics 进行乘法、加法、连接、取分数位等操作。
✔ 易于管理： Prometheus server是一个单独的二进制文件，可直接在本地工作，不依赖于分布式存储。
✔ 高效：平均每个采样点仅占 3.5 bytes，且一个 Prometheus server 可以处理数百万的 metrics。
✔ 使用 pull 模式采集时间序列数据，这样不仅有利于本机测试而且可以避免有问题的服务器推送坏的 metrics。
✔ 可以采用 push gateway 的方式把时间序列数据推送至 Prometheus server 端。
✔ 可以通过服务发现或者静态配置去获取监控的 targets。
✔ 有多种可视化图形界面。
✔ 易于伸缩。

五、应用范围
适用于什么场景
Prometheus 适用于记录文本格式的时间序列，它既适用于以机器为中心的监控，也适用于高度动态的面向服务架构的监控。在微服务的世界中，它对多维数据收集和查询的支持有特殊优势。Prometheus 是专为提高系统可靠性而设计的，它可以在断电期间快速诊断问题，每个 Prometheus Server 都是相互独立的，不依赖于网络存储或其他远程服务。当基础架构出现故障时，你可以通过 Prometheus 快速定位故障点，而且不会消耗大量的基础架构资源。
不适合什么场景
Prometheus 非常重视可靠性，即使在出现故障的情况下，你也可以随时查看有关系统的可用统计信息。如果你需要百分之百的准确度，例如按请求数量计费，那么 Prometheus 不太适合你，因为它收集的数据可能不够详细完整。这种情况下，你最好使用其他系统来收集和分析数据以进行计费，并使用 Prometheus 来监控系统的其余部分。

六、node_exporter
在Prometheus的架构设计中，Prometheus Server并不直接服务监控特定的目标，其主要任务负责数据的收集，存储并且对外提供数据查询支持。因此为了能够能够监控到某些东西，如主机的CPU使用率，我们需要使用到Exporter。Prometheus周期性的从exporter暴露的HTTP服务地址
Exporter是Prometheus的一类数据采集组件的总称。它负责从目标处搜集数据，并将其转化为Prometheus支持的格式。
从上面的描述中可以看出exporter可以是一个相对开放的概念，其可以是一个独立运行的程序独立于监控目标以外，也可以是直接内置在监控目标中。只要能够向Prometheus提供标准格式的监控样本数据(TS时间序列)即可。这里为了能够采集到主机的运行指标如CPU, 内存，磁盘等信息。

七、安装部署
Server1:192.168.235.10
Server2:192.168.235.20

1.基础环境
hostnamectl set-hostname server1
iptables -F
iptables-save
docker run -itd --name sys1 centos:7
docker run -itd --name web1 httpd

hostnamectl set-hostname server2
iptables -F
iptables-save
docker run -itd --name sys2 centos:7
docker run -itd --name web2 httpd

两台都做(采集硬件信息):

docker pull prom/node-exporter
docker run -d -p 9100:9100 --volume /proc/:/host/proc --volume /sys/:/host/sys --volume /:/rootfs --network host --name=exporter prom/node-exporter --path.procfs /host/proc --path.sysfs /host/sys --collector.filesystem.ignored-mount-points "^/(sys|proc|dev|host|etc|rootfs/var/lib/docker/containers|rootfs/var/lib/docker/overlay2|rootfs/run/docker/netns|rootfs/var/lib/docker/devicemapper|rootfs/var/lib/docker/aufs)($$|/)"
WARNING: 使用主机网络模式时，发布的端口将被丢弃
[root@server1 ~]# docker ps #运行起来表示成功(不清空iptables将访问不到9100端口)

运行监控容器的监控端(都做)采集容器数据:

docker pull google/cadvisor
sudo docker run \
--volume=/:/rootfs:ro \
--volume=/var/run:/var/run:ro \
--volume=/sys:/sys:ro \
--volume=/var/lib/docker/:/var/lib/docker:ro \
--volume=/dev/disk/:/dev/disk:ro \
--publish=8080:8080 \
--detach=true \
--name=cadvisor \
--network host \
google/cadvisor

验证：http://192.168.235.10:8080/metrics

2.服务端部署普罗米修斯(配置Prometheus来监视自身)
[root@server1 ~]# docker pull prom/prometheus
[root@server1 ~]# vi prometheus.yml (地址：https://prometheus.io/docs/prometheus/latest/getting_started/)
global:
scrape_interval: 15s # 默认情况下，每15秒刮一次目标。

# 将这些标签贴在任何时间序列或警报上
# 外部系统 (federation, remote storage, Alertmanager).
external_labels:
monitor: 'codelab-monitor'

# A scrape configuration containing exactly one endpoint to scrape:
# 这是普罗米修斯.
scrape_configs: #数据采集模块
# The job name is added as a label `job=<job_name>` to any 时间序列 scraped from this config.
- job_name: 'prometheus' #对于指标需要打上的标签，对于PrometheusSQL（查询语句）的标签：比如prometheus{target='values'}

# 重写全局默认值并每5秒从该作业中抓取目标.
scrape_interval: 5s

static_configs: #对于 Prometheus 的静态配置监听端口具体数据收集的位置默认的端口 9090
- targets: ['192.168.235.10:9090','192.168.235.10:9100','192.168.235.10:8080','192.168.235.11:9100','192.168.235.11:8080']
[root@server1 ~]# docker run -d -p 9090:9090 --volume /root/prometheus.yml:/etc/prometheus/prometheus.yml --name prometheus --network host prom/prometheus

3.安装图形化界面(在创建容器的时候设置密码)
docker pull grafana/grafana
docker run -i -d --name=grafana -p 3000:3000 -e "GF_SERVER_ROOT_URL=http://grafana.server.name" -e "GF_SECURITY_ADMIN_PASSWORD=123.com" --network host grafana/grafana
1
2
4.配置部署(使用Edge浏览器)
访问浏览器页面:192.168.235.10:3000–>默认用户为admin–>123.com–>DATA SOURCES–>Prometheus-如截图->Save && test=监测
使用QQ浏览器将访问不到界面；具体操作可以自行探索

免责申明：

本文系转载，版权归原作者所有，如若侵权请联系我们进行删除！

《数据治理行业实践白皮书》下载地址：https://fs80.cn/4w2atu

《数栈V6.0产品白皮书》下载地址：https://fs80.cn/cw0iw1

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=bbs

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术群」，交流最新开源技术信息，群号码：30537511，项目地址：https://github.com/DTStack

大数据架构数据中台数据开发平台大数据开发数据治理数字化转型数据仓库数据分析数据开发数据模型

0条评论

上一篇：数仓建模—建模方法论之范式建模

下一篇：Eclipse连接Hadoop（HDFS）

我要提问

分享经验

社区公告

大数据领域最专业的产品&技术交流社区，专注于探讨与分享大数据领域有趣又火热的信息，专业又专注的数据人园地

最新活动更多

Prometheus监控

我要提问

分享经验

微信扫码获取数字化转型资料

钉钉扫码加入技术交流群