一、系统监控类脚本

1. 综合系统监控脚本 (Python/Shell混合)

功能:监控CPU、内存、磁盘、网络和关键进程

bash
#!/bin/bash
# 获取系统关键指标并报警

# 配置阈值
CPU_WARN=90
MEM_WARN=90
DISK_WARN=90

# 获取数据
cpu_usage=$(top -bn1 | grep "Cpu(s)" | sed "s/.*, *\([0-9.]*\)%* id.*/\1/" | awk '{print 100 - $1}')
mem_usage=$(free | grep Mem | awk '{print $3/$2 * 100.0}')
disk_usage=$(df -h / | awk 'NR==2 {print $5}' | tr -d '%')

# 报警逻辑
[ $(echo "$cpu_usage > $CPU_WARN" | bc) -eq 1 ] && echo "CPU使用率过高: ${cpu_usage}%" | mail -s "CPU警报" admin@example.com
[ $(echo "$mem_usage > $MEM_WARN" | bc) -eq 1 ] && echo "内存使用率过高: ${mem_usage}%" | mail -s "内存警报" admin@example.com
[ $disk_usage -gt $DISK_WARN ] && echo "磁盘使用率过高: ${disk_usage}%" | mail -s "磁盘警报" admin@example.com

2. 进程监控与自动重启 (Shell)

来源:GitHub经典项目monit

bash
#!/bin/bash
# 监控指定进程并在崩溃时自动重启

SERVICE="nginx"
LOG_FILE="/var/log/process_monitor.log"

if (( $(ps -ef | grep -v grep | grep $SERVICE | wc -l) == 0 )); then
    echo "$(date): $SERVICE 未运行,尝试重启..." >> $LOG_FILE
    systemctl start $SERVICE
fi

二、自动化维护类脚本

3. 自动化日志切割与清理 (Shell)

参考:Linux系统自带的logrotate优化版

bash
#!/bin/bash
# 智能日志切割与清理

LOG_DIR="/var/log/app"
MAX_SIZE="100M"    # 单个日志最大大小
KEEP_DAYS=30       # 保留天数

find $LOG_DIR -name "*.log" -size +$MAX_SIZE -exec bash -c '
    file="{}"
    mv "$file" "$file.$(date +%Y%m%d%H%M%S)"
    gzip "$file.$(date +%Y%m%d%H%M%S)"
' \;

find $LOG_DIR -name "*.gz" -mtime +$KEEP_DAYS -delete

4. 批量服务器SSH密钥部署 (Shell)

来源:Ansible简化版实现

bash
#!/bin/bash
# 批量部署SSH密钥到多台服务器

SERVERS=("server1" "server2" "server3")
USER="root"
KEY_FILE="/home/$USER/.ssh/id_rsa.pub"

for server in ${SERVERS[@]}; do
    ssh-copy-id -i $KEY_FILE $USER@$server && \
    echo "密钥已部署到 $server" || \
    echo "部署到 $server 失败"
done

三、安全运维类脚本

5. 异常登录检测脚本 (Shell)

参考:Fail2Ban的简化实现

bash
#!/bin/bash
# 检测异常SSH登录尝试并封锁IP

FAILED_LOG="/var/log/auth.log"
THRESHOLD=5       # 失败次数阈值
BLOCK_TIME="1h"   # 封锁时长

# 分析日志获取异常IP
grep "Failed password" $FAILED_LOG | awk '{print $(NF-3)}' | sort | uniq -c | \
awk -v limit=$THRESHOLD '$1 > limit {print $2}' | while read ip; do
    iptables -A INPUT -s $ip -j DROP && \
    echo "$(date) 封锁IP: $ip" >> /var/log/iptables_block.log
    # 定时解锁
    (sleep $BLOCK_TIME && iptables -D INPUT -s $ip -j DROP) &
done

6. 系统安全基线检查 (Shell)

参考:CIS安全基准的自动化实现

bash
#!/bin/bash
# 基础系统安全检查

echo "===== 安全检查报告 $(date) =====" > security_report.txt

# 1. 检查空密码账户
awk -F: '($2 == "") {print $1}' /etc/shadow >> security_report.txt

# 2. 检查SUID文件
find / -perm -4000 -type f 2>/dev/null >> security_report.txt

# 3. 检查SSH配置
grep -E "^PermitRootLogin|^PasswordAuthentication" /etc/ssh/sshd_config >> security_report.txt

# 4. 检查防火墙状态
iptables -L -n >> security_report.txt

echo "报告已生成: security_report.txt"

四、高级运维工具类脚本

7. 自动化Docker容器维护 (Shell)

bash
#!/bin/bash
# Docker容器自动化维护

# 清理停止的容器
docker container prune -f

# 清理无用镜像
docker image prune -a -f

# 重启不健康的容器
docker ps --filter "health=unhealthy" --format "{{.Names}}" | xargs -I {} docker restart {}

8. Kubernetes节点维护脚本 (Shell)

bash
#!/bin/bash
# K8s节点安全排水与维护

NODE=$1

if [ -z "$NODE" ]; then
    echo "Usage: $0 "
    exit 1
fi

# 设置节点不可调度
kubectl cordon $NODE

# 驱逐所有Pod(DaemonSet除外)
kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --force

# 维护完成后恢复节点
kubectl uncordon $NODE

五、推荐的开源运维脚本项目

1.Linux Check - 系统健康检查工具
GitHub:
https://github.com/mehdilauters/linuxCheck

2.OSSEC - 开源主机入侵检测系统
官网: https://www.ossec.net/

3.Glances - 高级系统监控工具
GitHub:
https://github.com/nicolargo/glances

4.Mackerel - 服务器监控脚本集合
GitHub:
https://github.com/mackerelio/mackerel-agent

5.DigitalOcean运维脚本集
GitHub:
https://github.com/digitalocean/do_user_scripts

实践建议

1.使用版本控制系统管理脚本(如Git)

2.为脚本添加详细的注释和使用说明

3.实现日志记录和错误处理机制

4.定期审查和更新脚本

5.在生产环境使用前充分测试

Logo

一站式 AI 云服务平台

更多推荐