05-风险评估与防御指南

风险评估防御指南事件响应

本章评估云控制平面凭证泄露的风险等级，提供完整的检测指南、缓解措施、安全最佳实践，以及事件响应流程。

5.1 风险等级评估

5.1.1 风险矩阵

quadrantChart
    title 云安全威胁风险矩阵
    x-axis "低影响" → "高影响"
    y-axis "低可能" → "高可能"
    quadrant-1 "优先处理"
    quadrant-2 "监控"
    quadrant-3 "接受"
    quadrant-4 "缓解"
    
    "凭证泄露导致控制平面入侵": [0.85, 0.7]
    "Rescue Mode 滥用": [0.9, 0.4]
    "API 令牌明文存储": [0.8, 0.6]
    "SSH 密钥注入": [0.85, 0.5]
    "传统 SSH 暴力破解": [0.3, 0.8]
    "应用层漏洞": [0.5, 0.6]
    
    style "凭证泄露导致控制平面入侵" fill:#ff6b6b
    style "Rescue Mode 滥用" fill:#ff6b6b
    style "API 令牌明文存储" fill:#feca57

5.1.2 风险评分

风险项	可能性	影响	风险评分	等级
密码管理器被盗	中	极高	8.5/10	🔴 高
TOTP 种子同库存	中	极高	8.0/10	🔴 高
API 令牌明文存储	中	高	7.5/10	🟠 中高
云控制台无监控	高	高	8.5/10	🔴 高
Rescue Mode 滥用	低	极高	7.0/10	🟠 中高
传统 SSH 攻击	高	低	4.0/10	🟡 中

5.1.3 关键风险洞察

风险 1：单点故障放大效应

密码管理器被盗
    ↓
密码 + TOTP 种子同时泄露
    ↓
2FA 形同虚设
    ↓
完整控制台访问
    ↓
所有云资源面临风险

缓解：分离密码和 TOTP 存储

风险 2：云控制平面盲区

传统监控覆盖：
├── 客户机 CPU/内存 ✓
├── 客户机网络 ✓
├── 客户机磁盘 ✓
└── 控制台 API 调用 ✗

盲区导致：
├── Rescue Mode 启用无告警
├── SSH 密钥添加无通知
└── API 令牌使用无审计

5.2 基于主机的检测指南

5.2.1 检测指标汇总

指标类型	具体指标	检测频率	工具
进程异常	未知高 CPU 进程	实时	top, htop, ps
文件异常	隐藏目录、可疑二进制	每日	find, ls -la
持久化	未知 crontab、systemd 服务	每日	crontab -l, systemctl
SSH 密钥	无注释密钥、未知指纹	每周	authorized_keys 审计
网络连接	矿池域名、异常端口	实时	ss, netstat
日志异常	时间戳异常、日志空白	每日	journalctl

5.2.2 检测命令速查

# 1. 检查伪装进程
ps aux | grep -E 'systemd-[^a-z]' | grep -v grep

# 2. 检查隐藏目录
find /root /home -type d -name '.*' 2>/dev/null | grep -v '^\.$'

# 3. 检查 crontab
crontab -l | grep -v '^#' | grep -v '^$'

# 4. 检查 SSH 密钥
grep -v '^#' /root/.ssh/authorized_keys | grep -v '@'

# 5. 检查网络连接
ss -tnp | grep -E ':443|:3333' | grep -v 'nginx\|apache'

# 6. 检查文件修改时间
stat /root/.ssh/authorized_keys | grep Modify

5.2.3 时间戳异常检测

#!/bin/bash
# 检测 VM 离线期间的文件修改

echo "=== 检测离线期间文件修改 ==="

# 获取关机时间
shutdown_time=$(journalctl | grep "Systemd shutdown" | tail -1 | awk '{print $1, $2}')

# 获取开机时间
boot_time=$(who -b | awk '{print $3, $4}')

echo "关机时间：$shutdown_time"
echo "开机时间：$boot_time"

# 检查此期间修改的关键文件
for file in /root/.ssh/authorized_keys /etc/passwd /etc/shadow; do
    if [ -f "$file" ]; then
        mod_time=$(stat -c %y "$file")
        echo "$file 修改时间：$mod_time"
    fi
done

5.3 基于云控制平面的检测

5.3.1 Hetzner Cloud 特定检测

检测项	API 端点	频率	告警阈值
SSH 密钥添加	`GET /ssh_keys`	每小时	任何新增
Rescue Mode 启用	审计日志	实时	任何调用
API 令牌创建	审计日志	实时	任何创建
服务器重启	`GET /actions`	每小时	非计划重启
网络配置变更	`GET /networks`	每日	任何变更

5.3.2 通用云审计建议

# cloud_audit_config.yaml
# 云审计配置模板

audit_settings:
  enabled: true
  retention_days: 365
  real_time_alerts: true

critical_events:
  - event: "console.login"
    alert: true
    notification: "slack, email"
    
  - event: "ssh_key.create"
    alert: true
    notification: "slack"
    
  - event: "ssh_key.delete"
    alert: true
    notification: "slack"
    
  - event: "server.enable_rescue"
    alert: true
    notification: "pagerduty"
    
  - event: "server.reboot"
    alert: false
    log: true
    
  - event: "token.create"
    alert: true
    notification: "slack, email"
    
  - event: "token.use"
    alert: false
    log: true
    anomaly_detection: true

5.3.3 异常 API 调用检测

# detect_anomalous_api_calls.py
# 检测异常 API 调用（伪代码示例）

import requests
from datetime import datetime, timedelta

def detect_anomalies():
    # 获取过去 24 小时 API 调用
    api_calls = get_api_calls(hours=24)
    
    anomalies = []
    
    # 规则 1: 非工作时间调用
    for call in api_calls:
        hour = datetime.fromtimestamp(call['timestamp']).hour
        if hour < 6 or hour > 22:  # 非工作时间
            anomalies.append({
                'type': 'after_hours_api_call',
                'command': call['command'],
                'timestamp': call['timestamp']
            })
    
    # 规则 2: 敏感命令
    sensitive_commands = ['enable_rescue', 'create_ssh_key', 'create_token']
    for call in api_calls:
        if call['command'] in sensitive_commands:
            anomalies.append({
                'type': 'sensitive_command',
                'command': call['command'],
                'timestamp': call['timestamp']
            })
    
    # 规则 3: 频率异常
    # ... 实现频率检测逻辑
    
    return anomalies

5.4 缓解措施

5.4.1 凭证管理最佳实践

flowchart TD
    subgraph Before[当前状态（不安全）]
        A1[密码管理器] --> A2[密码 + TOTP 种子]
        A2 --> A3[单点故障]
    end
    
    subgraph After[推荐状态（安全）]
        B1[密码管理器] --> B2[仅密码]
        B3[硬件密钥/独立 Authenticator] --> B4[TOTP 种子]
        B2 --> B5[双因素保持]
        B4 --> B5
    end
    
    style A3 fill:#ff6b6b
    style B5 fill:#a8e6cf

具体建议：

措施	实施难度	安全提升	优先级
分离密码和 TOTP 存储	低	极高	P0
使用硬件安全密钥（YubiKey）	中	极高	P0
API 令牌最小权限	中	高	P1
定期轮换凭证	中	中	P2
启用登录通知	低	中	P1

5.4.2 API 令牌安全

# 1. 最小权限原则
# 创建仅读令牌用于监控
hcloud context create readonly
# 设置只读权限

# 2. 定期轮换
# 建议每 90 天轮换一次
# 使用自动化工具管理令牌生命周期

# 3. 安全存储
# 禁止：明文存储在配置文件
# 推荐：使用密钥管理服务（HashiCorp Vault, AWS Secrets Manager）

# 4. 审计使用
# 定期审查令牌使用日志
# 检测异常使用模式

5.4.3 SSH 密钥管理

最佳实践	实施说明
密钥注释	所有密钥必须包含 `user@host` 注释
定期审计	每周审查 authorized_keys
密钥轮换	每 6 个月轮换所有密钥
禁止硬编码	不在脚本/配置中硬编码密钥
使用证书	考虑 SSH 证书而非静态密钥

5.4.4 云控制台安全配置

# cloud_security_config.yaml
# 云控制台安全配置

security_settings:
  # 强制 2FA
  require_2fa: true
  
  # 2FA 类型限制（仅允许硬件密钥）
  allowed_2fa_types:
    - "hardware_key"
    # - "totp"  # 如果必须使用，确保独立存储
  
  # 会话管理
  session_timeout_minutes: 30
  concurrent_sessions: 1
  
  # IP 白名单
  ip_whitelist:
    enabled: true
    ranges:
      - "办公室 IP"
      - "VPN 出口 IP"
  
  # 登录通知
  login_notifications:
    enabled: true
    channels:
      - "email"
      - "slack"
  
  # API 速率限制
  api_rate_limit:
    requests_per_minute: 60
    burst: 10

5.5 事件响应流程

5.5.1 入侵确认流程

flowchart TD
    A[发现异常] --> B{CPU 异常？}
    B -->|是 | C[检查进程列表]
    B -->|否 | D{其他指标？}
    
    C --> E{发现可疑进程？}
    E -->|是 | F[收集取证数据]
    E -->|否 | D
    
    D --> G{检查 SSH 密钥？}
    G -->|是 | H[审计 authorized_keys]
    G -->|否 | I{检查 crontab?}
    
    H --> J{发现可疑密钥？}
    J -->|是 | F
    J -->|否 | K
    
    I --> L{发现可疑任务？}
    L -->|是 | F
    L -->|否 | M[继续监控]
    
    F --> N[启动事件响应]
    
    style N fill:#ff6b6b

5.5.2 清除与恢复检查清单

## 事件响应检查清单

### 阶段 1: 遏制（0-2 小时）
- [ ] 隔离受影响服务器
- [ ] 杀死恶意进程
- [ ] 禁用可疑 SSH 密钥
- [ ] 撤销泄露的 API 令牌
- [ ] 更改控制台密码

### 阶段 2: 清除（2-4 小时）
- [ ] 运行清除脚本
- [ ] 验证所有持久化已删除
- [ ] 清理 crontab
- [ ] 删除隐藏目录
- [ ] 检查其他服务器

### 阶段 3: 恢复（4-24 小时）
- [ ] 重建受影响服务器（从干净镜像）
- [ ] 轮换所有凭证
- [ ] 恢复数据（从干净备份）
- [ ] 重新部署应用
- [ ] 验证功能正常

### 阶段 4: 改进（1-7 天）
- [ ] 编写事件报告
- [ ] 实施额外监控
- [ ] 更新安全策略
- [ ] 团队培训
- [ ] 定期演练

5.5.3 取证数据收集

#!/bin/bash
# collect_forensics.sh
# 收集取证数据

FORENSICS_DIR="/tmp/forensics-$(date +%Y%m%d-%H%M%S)"
mkdir -p "$FORENSICS_DIR"

echo "收集取证数据到：$FORENSICS_DIR"

# 1. 进程信息
ps auxf > "$FORENSICS_DIR/ps_auxf.txt"
pstree -a > "$FORENSICS_DIR/pstree.txt"

# 2. 网络连接
ss -tnp > "$FORENSICS_DIR/ss_tnp.txt"
netstat -an > "$FORENSICS_DIR/netstat_an.txt"

# 3. 文件系统
find /root /home -type f -mtime -7 > "$FORENSICS_DIR/recent_files.txt"
ls -la /root/.ssh/ > "$FORENSICS_DIR/ssh_keys.txt"

# 4. 持久化
crontab -l > "$FORENSICS_DIR/crontab.txt"
systemctl list-units --all > "$FORENSICS_DIR/systemd_units.txt"

# 5. 日志
journalctl --since "2 days ago" > "$FORENSICS_DIR/journalctl.txt"
cat /var/log/auth.log > "$FORENSICS_DIR/auth.log" 2>/dev/null

# 6. 时间线
stat /root/.ssh/authorized_keys > "$FORENSICS_DIR/auth_keys_stat.txt"

# 压缩
tar -czf "$FORENSICS_DIR.tar.gz" "$FORENSICS_DIR"
rm -rf "$FORENSICS_DIR"

echo "取证数据已收集：$FORENSICS_DIR.tar.gz"

5.6 长期防御策略

5.6.1 纵深防御架构

flowchart TB
    subgraph Layer1[第一层：身份验证]
        A1[硬件密钥]
        A2[分离 TOTP 存储]
        A3[IP 白名单]
    end
    
    subgraph Layer2[第二层：访问控制]
        B1[最小权限 API 令牌]
        B2[SSH 证书]
        B3[定期凭证轮换]
    end
    
    subgraph Layer3[第三层：监控检测]
        C1[云审计日志]
        C2[实时告警]
        C3[异常检测]
    end
    
    subgraph Layer4[第四层：响应恢复]
        D1[事件响应流程]
        D2[自动化清除]
        D3[干净备份]
    end
    
    Layer1 --> Layer2
    Layer2 --> Layer3
    Layer3 --> Layer4
    
    style A1 fill:#a8e6cf
    style B1 fill:#a8e6cf
    style C1 fill:#feca57
    style D1 fill:#ffcc5c

5.6.2 监控成熟度模型

级别	特征	检测时间	建议
L0: 无监控	仅客户机监控	数周 - 数月	立即改进
L1: 基础监控	CPU/内存/磁盘告警	数天 - 数周	部署云审计
L2: 云审计	API 调用日志	数小时 - 数天	实时告警
L3: 实时告警	敏感操作即时通知	分钟 - 小时	异常检测
L4: 智能检测	ML 异常检测	秒 - 分钟	持续优化

5.6.3 安全债务管理

安全债务清单：

高优先级（立即处理）：
├── 分离密码和 TOTP 存储
├── 启用云审计日志
└── 配置实时告警

中优先级（30 天内）：
├── 轮换所有 API 令牌
├── 实施 IP 白名单
└── 部署取证数据收集

低优先级（90 天内）：
├── 迁移到 SSH 证书
├── 实施硬件密钥认证
└── 部署 ML 异常检测

5.7 行业建议

5.7.1 对云提供商的建议

建议	实施难度	安全提升
Rescue Mode 操作强制二次确认	低	高
敏感操作需要邮件确认	中	高
API 令牌使用审计日志	中	高
异常登录地理位置告警	中	中
密钥无注释检测	低	低

5.7.2 对用户组织的建议

立即行动（本周）：

审计所有云账户的 SSH 密钥
检查密码管理器中是否同时存储密码和 TOTP
启用云审计日志
配置登录通知

短期行动（本月）：

轮换所有 API 令牌
实施最小权限原则
部署云控制平面监控
培训团队识别此类攻击

长期行动（本季度）：

迁移到硬件密钥认证
实施零信任架构
部署自动化事件响应
定期进行红队演练

5.8 本章小结

本章提供了完整的风险评估和防御指南：

风险矩阵：识别和优先级排序关键风险
检测指南：基于主机和云控制平面的检测方法
缓解措施：凭证管理、API 令牌、SSH 密钥最佳实践
事件响应：确认流程、清除检查清单、取证收集
长期策略：纵深防御、监控成熟度、安全债务管理

防御此类攻击需要多层策略，核心是分离凭证存储和启用云审计监控。

参考资料

报告结束 | 完整技术分析完成