百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT知识 > 正文

阿里云自动巡检(阿里云auto scaling)

liuian 2025-06-08 22:35 18 浏览

背景简介

随着智能化的快速发展及信息通信技术的不断创新,各大企业基于对信息安全,成本等各方面的考虑开始选择上云。作为国内云服务的领军者,阿里云也成为了大家重点关注和使用的云服务之一。上云节省了我们运维人员日常的工作,再也不用担心机房的温度、湿度等一系列问题。只需要关注服务器运行状况即可。大大减少了日常的工作量。

做运维永远是预防比消防更重要相信是很多运维人员的共识。定时巡检能够及时发现设备的异常情况,避免事故的发生,保障服务的稳定运行。对于服务器巡检来说,最基础的当然就是服务器的资源使用情况。CPU使用率、内存是否有异常波动,磁盘空间是否充足。当我们服务器数量较少的时候我们可以通过监控大盘去查看,但是当服务器数量达到100台以上时,监控大盘的缺点就表现出来了。我们去观察CPU性能曲线的时候如果数量过多会导致曲线过于密集。

如果用TOP的方式去展示又有可能因为计算TOP算法的问题导致某些存在隐患的机器被掩盖掉,没有展示出来,从而导致隐患的存在。但是每一台机器去观察既浪费时间又耗费精力。所以这里针对阿里云写了一个python的脚本来解决这个问题。脚本会自动获取指定时间段的阿里云监控数据,并且与提前设置好的阈值进行对比。如果监控数据达到了设定好的阈值就会写入到文本文档中。我们只需要定时去执行这个脚本,并且查看巡检结果即可。该脚本可以配合监控大盘去使用,达到一个相互辅助的效果,让我们在日常巡检的过程中更加游刃有余。

脚本介绍

简介

脚本巡检阈值可以自行设置调整。单次执行可以对多个阿里云账号及多个地域进行巡检。

目前脚本还不断迭代中,会支持越来越多的阿里云产品。

脚本巡检内容

  1. ECS CPU使用率
  2. ECS 内存使用率
  3. ECS磁盘空间使用率
  4. OSS bucket 存储使用量
  5. OSS 资源包订购情况

脚本工作流程图

  1. 设定巡检时间
  2. 读取配置文件并生成client
  3. 获取阿里云监控数据
  4. 判断是否超过阈值并生成巡检信息
  5. 生成易读的巡检文本

脚本详解

阿里云client

当我们需要获取阿里云云监控的监控数据的时候,第一步就是要创建client,即进行鉴权。只有通过鉴权才能获取到我们想要的数据。首先我们要创建AK,这里不再详细描述如何生成AK,阿里云官方文档中有详细的步骤。这里建议使用子账号的AK进行,并且尽量缩小权限,这样可以最大限度的保证账号的安全。

创建client其实很简单,只要调用AcsClient这个方法即可。这个方法包含在阿里云python sdk的核心包里面。


云产品时序指标监控数据

当我们需要获取一些云产品在一段时间内的监控数据,就需要用到DescribeMetricList 这个接口。

接口请求参数如下:


代码如下:

这里我们通过设置request对象的参数来切换我们所需要查询的数据。其中nameSpace代表了不同的云产品,metricName代表该云产品的不同监控项。


这里需要注意的是各云产品的Namespace、Project、Metric、Period、Dimensions等参数的取值都是不一样的,可以参考如下链接:

https://help.aliyun.com/document_detail/163515.html?spm=a2c4g.11186623.2.13.7e1d7751EU8Dse

获取数据并写入数据库

有了通用的获取时序监控数据的方法后就该获取我们想要的数据了。这里我们把需要的数据写入到sqlite3数据库中备用。

代码如下:

这里首先我们设定了需要的nameSpace和metricName。然后创建了根据用户名创建了不同的ecsCPU的数据库。这里DB的名称前面加用户名是为了后续生成巡检结果的时候便于区分。

之后我们便在每个用户的数据库中创建了以实例ID为名称的表,用来存放这个实例的监控数据。这里对名称做了一下处理。首先阿里云ECS的实例ID都是以i-****开头的,但是sqlite3数据库的标明不能出现-所以将i-这部分去除掉了。去掉后的一串字符串有可能以数字开头,以数字开头的表名在sqlite3中也是不允许的,所以之前又加了ecs_作为开头以避免表名报错。

生成巡检结果

当我们获取数据后就要生成巡检结果了,这里我们只需要读取之前存好的数据并且与我们的阈值进行判断即可。

到这里我们的巡检脚本就基本完成了。


使用说明

v 0.1 版本说明

阈值修改

支持根据需求配置不同的CPU、内存和磁盘阈值

配置方法:

修改ops.py文件的ecsCpuThreshold、ecsMemThreshold、ecsDiskThreshold三项的值即可,单位为百分比

配置文件说明

复制config.ini.ex为 config.ini 修改内容即可

[test]

配置文件名称

name = aaa

个性化名称

enable = 1

是否启用,1为启用,0为不启用。不启用的配置在生成报告中会被忽略

ak = Lxxxxx9C

阿里云AccessKey ID

sk = LxxxxxUq

阿里云AccessKey Secret

region= cn-hangzhou

地域信息,目前单配置仅支持单个地域,如有多个地域请添加多个文件


已知bug

目前未对ECS信息的分页进行处理,如果实例数量较多可能会导致数据获取不全的问题,后续版本修复 (目前测试环境下上百台机器暂未发现报错)。

未进行较为详细的报错信息输出,如果报错可能会直接退出。


了解更多技术案例,可查看云掣官网。

相关推荐

教你把多个视频合并成一个视频的方法

一.情况介绍当你有一个m3u8文件和一个目录,目录中有连续的视频片段,这些片段可以连成一段完整的视频。m3u8文件打开后像这样:m3u8文件,可以理解为播放列表,里面是播放视频片段的顺序。视频片段像这...

零代码编程:用kimichat合并一个文件夹下的多个文件

一个文件夹里面有很多个srt字幕文件,如何借助kimichat来自动批量合并呢?在kimichat对话框中输入提示词:你是一个Python编程专家,完成如下的编程任务:这个文件夹:D:\downloa...

Java APT_java APT 生成代码

JavaAPT(AnnotationProcessingTool)是一种在Java编译阶段处理注解的工具。APT会在编译阶段扫描源代码中的注解,并根据这些注解生成代码、资源文件或其他输出,...

Unit Runtime:一键运行 AI 生成的代码,或许将成为你的复制 + 粘贴神器

在我们构建了UnitMesh架构之后,以及对应的demo之后,便着手于实现UnitMesh架构。于是,我们就继续开始UnitRuntime,以用于直接运行AI生成的代码。PS:...

挣脱臃肿的枷锁:为什么说Vert.x是Java开发者手中的一柄利剑?

如果你是一名Java开发者,那么你的职业生涯几乎无法避开Spring。它如同一位德高望重的老国王,统治着企业级应用开发的大片疆土。SpringBoot的约定大于配置、SpringCloud的微服务...

五年后,谷歌还在全力以赴发展 Kotlin

作者|FredericLardinois译者|Sambodhi策划|Tina自2017年谷歌I/O全球开发者大会上,谷歌首次宣布将Kotlin(JetBrains开发的Ja...

kotlin和java开发哪个好,优缺点对比

Kotlin和Java都是常见的编程语言,它们有各自的优缺点。Kotlin的优点:简洁:Kotlin程序相对于Java程序更简洁,可以减少代码量。安全:Kotlin在类型系统和空值安全...

移动端架构模式全景解析:从MVC到MVVM,如何选择最佳设计方案?

掌握不同架构模式的精髓,是构建可维护、可测试且高效移动应用的关键。在移动应用开发中,选择合适的软件架构模式对项目的可维护性、可测试性和团队协作效率至关重要。随着应用复杂度的增加,一个良好的架构能够帮助...

颜值非常高的XShell替代工具Termora,不一样的使用体验!

Termora是一款面向开发者和运维人员的跨平台SSH终端与文件管理工具,支持Windows、macOS及Linux系统,通过一体化界面简化远程服务器管理流程。其核心定位是解决多平台环境下远程连接、文...

预处理的底层原理和预处理编译运行异常的解决方案

若文章对您有帮助,欢迎关注程序员小迷。助您在编程路上越走越好![Mac-10.7.1LionIntel-based]Q:预处理到底干了什么事情?A:预处理,顾名思义,预先做的处理。源代码中...

为“架构”再建个模:如何用代码描述软件架构?

在架构治理平台ArchGuard中,为了实现对架构的治理,我们需要代码+模型描述所要处理的内容和数据。所以,在ArchGuard中,我们有了代码的模型、依赖的模型、变更的模型等,剩下的两个...

深度解析:Google Gemma 3n —— 移动优先的轻量多模态大模型

2025年6月,Google正式发布了Gemma3n,这是一款能够在2GB内存环境下运行的轻量级多模态大模型。它延续了Gemma家族的开源基因,同时在架构设计上大幅优化,目标是让...

比分网开发技术栈与功能详解_比分网有哪些

一、核心功能模块一个基本的比分网通常包含以下模块:首页/总览实时比分看板:滚动展示所有正在进行的比赛,包含比分、比赛时间、红黄牌等关键信息。热门赛事/焦点战:突出显示重要的、关注度高的比赛。赛事导航...

设计模式之-生成器_一键生成设计

一、【概念定义】——“分步构建复杂对象,隐藏创建细节”生成器模式(BuilderPattern):一种“分步构建型”创建型设计模式,它将一个复杂对象的构建与其表示分离,使得同样的构建过程可以创建...

构建第一个 Kotlin Android 应用_kotlin简介

第一步:安装AndroidStudio(推荐IDE)AndroidStudio是官方推荐的Android开发集成开发环境(IDE),内置对Kotlin的完整支持。1.下载And...