search
数据采集 采集源配置 yarn 指标采集

yarn 指标采集

简介

采集yarn运行状态数据并上报到 DataFlux 中。

前置条件

配置

进入 DataKit 安装目录下的 conf.d/yarn 目录,复制 yarn.conf.sample 并命名为 yarn.conf。示例如下:

[[inputs.yarn]]
       interval    = "60s"                    # 采集间隔,默认60秒
       active      = true                     # 是否开启采集
       host        = "http://127.0.0.1:8088"  # yarn服务地址
       metricsName = "yarn"                   # 指标集名,默认值为"yarn"
       [inputs.yarn.tags]                     # 自定义标签组
               tag1 = "tag1"                  # 自定义标签1
               tag2 = "tag2"                  # 自定义标签2
               tagn = "tagn"                  # 自定义标签n

采集数据

指标集:yarn

  • section=MAIN
指标 描述 类型 单位 标签
can_connect 采集器是否可以连接到资源管理器 bool - host,section
apps_submitted 提交的应用数量 int - host,section
apps_completed 完成的应用数量 int - host,section
apps_pending 挂起的应用数量 int - host,section
apps_running 运行的应用数量 int - host,section
apps_failed 失败的应用数量 int - host,section
apps_killed 杀死的应用数量 int - host,section
reserved_mb 保留的内存大小 int MB host,section
available_mb 可用的内存大小 int MB host,section
allocated_mb 分配的内存大小 int MB host,section
total_mb 总内存大小 int MB host,section
reserved_virtual_cores 保留的虚拟核数 int - host,section
available_virtual_cores 可用的虚拟核数 int - host,section
allocated_virtual_cores 分配的虚拟核数 int - host,section
total_virtual_cores 总虚拟核数 int - host,section
containers_allocated 分配的容器数 int - host,section
containers_reserved 保留的容器数 int - host,section
containers_pending 挂起的容器数 int - host,section
total_nodes 总节点数 int - host,section
active_nodes 激活的节点数 int - host,section
lost_nodes 丢失的节点数 int - host,section
unhealthy_nodes 不健康节点数 int - host,section
decommissioned_nodes 已退出的节点数 int - host,section
rebooted_nodes 重启的节点数 int - host,section
shutdown_nodes 关闭的节点数 int - host,section
  • section=APP.xxx,其中xxx为应用id
指标 描述 类型 单位 标签
progress 应用进度百分比 int % host,section
started_time 应用开始时间 int 毫秒 host,section
finished_time 应用结束时间 int 毫秒 host,section
elapsed_time 应用启动后持续的时间 int 毫秒 host,section
allocated_mb 分配给应用的内存总量 int MB host,section
allocated_vcores 分配给应用的虚拟核数 int - host,section
running_containers 当前应用程序运行的容器数 int - host,section
memory_seconds 应用已分配的内存量(兆字节-秒) int MB host,section
vcore_seconds 应用已分配的CPU核数(虚拟核数-秒) int - host,section
  • section=NODE.xxx,其中xxx为节点id
指标 描述 类型 单位 标签
last_health_update 节点最后一次报告其健康状态的时间 int 毫秒 host,section
used_memory 节点使用的内存 int MB host,section
avail_memory 节点可用的内存 int MB host,section
used_virtual_cores 节点使用的虚拟核数 int - host,section
available_virtual_cores 节点可用的虚拟核数 int - host,section
num_containers 节点上运行的容器数 bool - host,section
  • section=QUEUE.xxx,其中xxx为队列名
指标 描述 类型 单位 标签
num_pending_applications 此队列中挂起的应用程序的数量 int - host,section
user_am_resource_limit_memory 用户可以使用的最大内存 int MB host,section
user_am_resource_limit_vcores 用户可以使用的最大核数 int - host,section
absolute_capacity 队列可以使用整个集群的绝对容量百分比 float % host,section
user_limit_factor 配置中设置的最小用户限制百分比 float % host,section
user_limit 在配置中设置的用户限制因子 int MB host,section
num_applications 队列中当前应用数量 int - host,section
used_am_resource_memory Application Masters使用内存总量 int MB host,section
used_am_resource_vcores Application Masters使用虚拟核数 int - host,section
absolute_used_capacity 队列使用的整个集群的绝对百分比 float % host,section
resources_used_memory 队列使用的内存容量 int MB host,section
resources_used_vcores 队列使用的核数 int - host,section
am_resource_limit_vcores Application Masters最大使用虚拟核数 int - host,section
am_resource_limit_memory Application Masters最大使用内存数量 int MB host,section
capacity 配置的队列容量百分比 float % host,section
num_active_applications 此队列中激活应用的数量 int - host,section
absolute_max_capacity 队列可以使用整个集群的绝对最大容量百分比 float % host,section
used_capacity 使用的队列容量百分比 float % host,section
num_containers 队列使用容器数量 int - host,section
max_capacity 配置的最大队列容量百分比 float % host,section
max_applications 队列可以拥有的最大应用数量 int - host,section
max_applications_per_user 队列每个用户可以拥有的应用程序的最大数量 int - host,section

关键事件

该数据源无关键事件数据

日志

该数据源无日志