使用CloudLens排查iLogtail文件重复配置问题-阿里云(云淘科技)

本文主要介绍如何使用CloudLens for SLS定位和解决iLogtail日常使用中的常见问题之一:重复采集配置问题。

目标读者

数字化系统开发运维(DevOps)工程师、稳定性工程师(SRE)、可观测平台运维人员等。

背景介绍

iLogtail 是阿里云日志服务(SLS)团队自研的可观测数据采集 Agent,拥有的轻量级、高性能、自动化配置等诸多生产级别特性,可以部署于物理机、虚拟机、Kubernetes 等多种环境中来采集遥测数据。目前 iLogtail 广泛应用于线上监控、问题分析/定位、运营分析、安全分析等多种场景,在实战中验证了其强大的性能和稳定性。CloudLens for SLS是日志服务推出的一款应用,帮助用户监控和管理日志服务Project、Logstore等资产,提升用户对日志服务资产的管理效率、快速了解其消耗情况。

使用场景

文件日志采集是日志采集Agent最常见的数据采集场景,iLogtail目前支持主机上文件采集以及容器场景下的文件采集。但是文件采集在实战中会遇到各种各样的问题,基于此场景,CloudLens for SLS集成了针对iLogtail的状态监控,可以实时的反馈当前iLogtail Agent的运行状况。

问题描述

iLogtail文件采集,默认情况下,同一个日志文件,只允许被一个采集配置采集,如果有两个或者两个以上的采集配置采集了同一个日志文件,那么就会报这个错误。如此设计,主要有两个原因:

  • 重复的采集会导致存储成本翻倍。
  • 用户配置采集文件的时候,通常是采用通配符的方式,在不同的采集配置中,容易导致采集文件容复。日志文件的监控和采集都是需要占用一定资源的,如果不加以限制,会导致资源占用非常大。

问题影响范围

针对同一个日志文件,只会有一个采集配置生效,其他采集配置会跳过该文件(其他文件不受影响)。

错误发现

CloudLens for SLS页面,点击报表中心下采集监控,然后查看iLogtail异常监控:可以看到针对日志文件重复配置问题(MULTI_CONFIG_MATCH_ALARM)有一个专门的报表,里面详细展示了问题发生的时间、IP、产生重复的日志文件路径以及两个重复配置所在的project、logstore和采集配置的名字。由此客户可以清晰的看到自己的哪台机、哪个日志文件、在哪两个采集配置中重复了。仪表盘比如这个图展示了在192.168.XX这个IP的机器上,/var/log/nginx/access.log这个文件存在重复配置问题,两个配置的详情分别是:配置1:

  • project:xxx-test-hongkong
  • logstore:sls-lens-logtail-test
  • 采集配置名:access_log1

配置2

  • project:xxx-test-hongkong
  • logstore:sls-lens-logtail-test
  • 采集配置名:access_log2

具体场景与方案建议

不需要重复采集同一个日志文件

大多数的场景下,对日志文件的重复配置都不是预期的,通常是采用通配符的方式、或者文件层级配置的过大,导致的误重复,在这种情况下,可以采取如下措施:由上面展示的报错详情,我们去对应的project/logstore下面分别找到对应的采集配置。​可能会导致文件配置冲突的配置有如下几种:

日志文件路径配置的层级过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log, 文件:access.log

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。方案建议此时需要细化access_log2配置的路径,比如指定/var/log/service,由此可以避免命中同样的文件。

日志文件名通配符匹配的范围过大

采集配置access_log1:

  • 路径:/var/log/nginx, 文件:access.log

采集配置access_log2:

  • 路径:/var/log/nginx, 文件:*.log

此时,两个配置都会命中/var/log/nginx/access.log这个文件,因此会导致日志文件重复配置问题发生。方案建议此时需要细化access_log2的文件名配置,比如指定/var/log/nginx/error.log,由此可以避免命中同样的文件。

容器场景下过滤条件范围太大

容器场景下,还存在一个容器过滤条件的可能。容器A:

  • label配置了test: true 和service: A
  • 采集配置access_log1,配置的Label白名单为service: A,采集路径为/var/log/nginx/access.log。

容器B:

  • label配置了test: true和service: B
  • 采集配置access_log2,配置的Label白名单为test: true,采集路径为/var/log/nginx/access.log。

此时可以知道采集配置access_log2,命中了两个容器A和B,采集配置access_log1只命中了A容器。由于两个容器的采集文件路径配置的相同,B容器中的/var/log/nginx/access.log会同时被1和2两个配置去采集。方案建议在这种场景下,需要细化容器过滤条件,确保采集配置access_log1就只采集A容器,采集配置access_log2就只采集B容器,这样可以避免容器场景下的冲突。​

需要重复采集同一个日志文件

方案建议如果确实有需求,要把一个日志文件采集多次的话,可以参考操作文档,使用软连接的方案,或者添加强制采集配置,需要注意因为在客户端上对文件中的日志采集多份需要消耗多倍的CPU、内存、磁盘IO和网络IO开销,会对同机部署的其他服务性能造成额外影响,并非优化的日志采集方案。

参考资料

关于iLogtailiLogtail作为阿里云SLS提供的可观测数据采集器,可以运行在服务器、容器、K8s、嵌入式等多种环境,支持采集数百种可观测数据(日志、监控、Trace、事件等)。目前,iLogtail已正式开源,欢迎使用及参与共建。GitHub:https://github.com/alibaba/ilogtail社区版版本:https://ilogtail.gitbook.io/ilogtail-docs/about/readme企业官网:https://help.aliyun.com/document_detail/65018.html钉钉群:iLogtail社区

发表评论