本地LLM自动分析基础设施,从自动防御攻击到动态控制带宽质量。
安全与质量双模块,应对云服务提供商的运维挑战。
在云AI无法触及的领域
于闭域内完成「AI Ops」
AWS DevOps Agent和Azure Security Copilot功能强大,但无法覆盖闭域环境、本地物理设备以及「安全以外的运维挑战」。
数据主权问题
日志被发送至云厂商的AI基础设施。无法应用于金融、政府、医疗等闭域环境。
按量计费的不透明性
AWS DevOps Agent按每秒$0.0083计费。调查次数越多成本越高,预算难以预测。
运维挑战不仅限于安全
除攻击检测外,带宽质量、资源优化、成本管理等,希望由AI处理的运维挑战涉及多个方面。
两个模块
并行运作的平台
BASTION并非单一功能产品,而是作为AI Ops平台提供多个模块。各模块拥有独立的故障边界,一方故障不会波及另一方。
安全模块
从攻击检测到自动防御。多层关联引擎结合单个设备的检测,可视化整体攻击活动。检测后8秒内执行多系统同步防御。
- 多层关联引擎(FW/VPN/认证/应用/端点)
- 协同攻击组检测(同一子网・ASN单位)
- 级联防御(边界设备+DMZ Agent同时阻断)
- DMZ・隔离环境用轻量Agent
质量模块
持续观测带宽使用情况并进行动态分配控制。直接利用虚拟平台的网络标识符进行精确统计,实现时段上限判定、加权分配。生产投入分阶段进行。
- 定期收集VM流量
- 按子网・时段・上下行的阈值判定
- 拥塞触发时的动态速率控制(加权分配)
- 试运行模式观察→分阶段投入
运维自动化・成本优化
通过平台扩展,计划依次添加运维负担自动减轻、成本优化、客户管理联动等功能。
- 客户门户联动(工单自动创建)
- Management Console统合可视化
- 资源优化建议
在我司基础设施上,实际运行中
BASTION在BESTNET-CLOUD的生产环境24小时运行中。安全模块防御10台设备,质量模块观察76个VM。
「不完全依赖AI」
运维安全设计
在生产环境基础设施中引入自动控制时,必须应对AI判断失误或意外情况。BASTION采用明确区分「人工判断与AI执行」的分阶段设计。
阶段A — AI掌握现状
AI以只读模式调查并报告现状。不输出判断或评估。对生产环境零影响。
阶段B — 运维人员判断
分类、阈值设置、生产模式切换等所有判断均由运维人员执行。不委托给AI。
阶段C — AI执行实施
基于运维人员的判断,AI精确执行。生产环境写入采用「演练 → 限定生产 → 全面生产」三阶段。常备紧急停止命令。
AI协作基本原则
虚拟机分类、网络配置、数据结构细节、组织特有情况。这些是只有运维人员才了解的事实领域。BASTION设计理念是让AI「不推测,而是主动确认」。将实际运维中获得的10余条经验教训体系化为「设计原则」,并应用于所有新实施项目。
与现有解决方案的差异
| 云AI监控 (AWS/Azure) |
传统SIEM/SOAR | BASTION | |
|---|---|---|---|
| 数据主权 | 外部传输 | 依赖产品 | 完全闭域 |
| 计费体系 | 按量计费 | 许可证 | 范围报价 |
| 攻击活动检测 | ○ | 固定规则 | 数学判定 + 协同攻击分组 |
| DMZ・隔离环境支持 | × | 有限 | 专用Agent + 验证引擎 |
| 带宽质量动态控制 | × | × | ○ (质量模块) |
| 生产投入安全性 | 依赖供应商 | 固定运作 | 三阶段模式 + 紧急停止 |
| 设备添加 | 需API对接 | 定制对应 | 仅需syslog连接 |
「数学判定」基于珍田 秀幸(代表)的独立研究(IHD/Stigmergic/PRSA)独有模型。详情因专利申请准备中暂不公开,但概念层面将通过技术博客分阶段发布。
安全 + 质量,双轴功能展开
🛡 安全模块
- 多层关联活动检测 — 跨5层日志分析。可视化单个设备无法发现的攻击场景
- 协同攻击组检测 — 以同一子网、ASN为单位一次性掌握组织性攻击
- 级联防御 — 从1次检测同时传播至多个设备。边界设备+DMZ Agent同时阻断
- OS统一阻断方式 — 统一firewalld/ufw/iptables。不依赖客户环境的中间件
- DMZ专用Agent — WebSocket通信。Agent侧最小权限·验证引擎双重防御
- 设备自动分类 — 仅需指向syslog即可开始监控。零注册操作
- 白名单保护 — 物理防止我司IP、合作方IP误阻断
- 24小时自动解除 — 即使临时误检测阻断也不会永久化的设计
📊 质量模块
- 基于虚拟平台标识符的精确统计 — 从虚拟平台的网络标识符直接获取VM识别,排除误判
- 按子网·时段·上下行判定 — 根据线路特性设计独立阈值
- 动态rate控制 — 拥塞发生时通过加权分配对VM进行独立控制
- 权重控制 — 运维人员可按VM单位调整优先级
- 试运行默认 — 仅判定动作进行观察,正式模式切换由运维人员决定
- 分阶段正式投入 — 限定1个子网 → 全部子网 的谨慎部署
- 紧急停止命令 — 从一开始就实现全部控制的即时解除
- 自动解除 — 拥塞解除持续15分钟后自动解除控制
通过工具链构建
混合LLM协作(实验阶段)
以本地LLM(Qwen2.5-14B)为基础,正在实验阶段构建与Claude、GPT等外部高性能LLM API的协作功能。通过根据用途切换合适LLM的工具链,实现定型业务自动化和应对意外问题的框架。
定型业务的自动化
定期报告、盘点、运维记录整理等外部LLM擅长的定型处理自动化。将判断工作交给人工,仅委托记录和结构化的用途。
问题发生时的高级推理
常规运维中不会出现的复杂问题或意外故障场景等,在本地LLM难以应对的场景借助外部LLM的推理能力。
通过工具链进行切换控制
控制在何种场景使用何种LLM的工具链。可根据客户环境设计成本·数据主权·推理性能的平衡。
公开技术详情
我们认为”能否运行到底”是最大的差异化,积极公开概念层面的设计决策和运维经验。具体的客户IP、组织信息、专利相关公式不予公开。
欢迎先行咨询
我们将在听取目标设备和需求后,根据范围提供相应方案。
可以单独引入安全模块,也可以同时引入两个模块。
搭建费用根据范围单独报价 / 月度运维为可选项 / 全部组件为开源软件 / 日志数据不会对外传输
修订历史
| 日期 | 版本 | 变更内容 |
|---|---|---|
| 2026-04-16 | v1.0 | 初版发布。架构图、Slack实际界面5张、竞品比较表、功能列表。 |
| 2026-04-17 | v1.1 | Evidence部分追加横向分析(OPNsense×AD)截图。设置官网导航。 |
| 2026-04-21 | v2.0 | 功能列表追加自动设备分类·端点监控。追加技术博客4篇链接部分。 |
| 2026-04-23 | v2.1 | 追加反应式防御(攻击源IP自动拦截·全自动运行中)。 |
| 2026-04-24 | v2.2 | 追加多层关联活动检测。技术博客更新至8篇。 |
| 2026-05-10 | v2.3 | BASTION 重新定义为 AI Ops Platform。变更为安全模块+品质模块的双轴结构。反映协同攻击组检测、级联防御、DMZ Agent、AI协作的安全设计(阶段A/B/C·默认空运行)。反映生产环境防御对象10台设备、品质模块观察对象76台虚拟机的数值。追加通过Harness搭建实现混合LLM联动(实验阶段)部分。 |
| 2026-05-14 | v2.4 | 发布技术博客3篇(多层关联活动检测 / DMZ Agent与验证引擎 / 使用本地LLM自动分析基础设施日志的机制),将LP内相关链接更新为实际URL。追加NEW / Coming soon标识。 |

