某大型银行数据防泄漏项目
高级项目经理兼技术方案专家 · 明朝万达
项目背景
2019年监管总局现场检查指出该行数据安全管控存在明显短板,要求限期整改。此前部署的赛门铁克 DLP 系统暴露出系统性问题——网络 DLP 无法与代理服务器集成曾引发网络拥塞、终端 DLP 性能不足、产品架构封闭无法满足定制需求、技术服务薄弱无法提供有效现场支持。基于国产化、安全、自主、可控的要求,经同业调研引入明朝万达产品替代赛门铁克,建设覆盖总行及境内外分行、终端用户超 6.8 万台的全行级数据安全管控体系。
我的职责
从项目前期沟通、POC 测试、签单、实施到售后运维全程参与,兼任高级项目经理与技术方案专家。技术维度:主导 POC 方案设计、系统架构评审、关键技术选型与难题攻克、信创改造技术方案设计。管理维度:统筹 8 人项目团队(3 研发 + 3 实施 + 1 测试 + 1 项目经理),制定实施计划与里程碑、建立项目沟通与同步机制、管理需求变更与风险、协调研发/测试/实施/客户多方资源。
系统架构
整体架构与技术选型
统一管理门户(集中入口、统一登录)
│
├── 终端敏感信息管控子系统(终端DLP · CS架构)
│ └── 打印管控 | 水印 | 加密 | 移动介质 | 即时通讯 | 网络行为
│
├── 网络敏感信息管控子系统
│ ├── 邮件DLP(SMTP扫描 → OA审批 → 归档 → F5负载均衡)
│ └── 网络DLP(ICAP协议 → 上网代理集成 → 内容审计)
│
└── 日志分析与报表子系统
└── 日志采集 → 数据清洗 → 关联分析 → 异常检测 → 策略联动
┌──────────────────────────────────────────────────────────────┐
│ 统一内容识别引擎 │
│ 关键字 · 正则 · 文档指纹(LSH) · NLP语义 · OCR · 文档DNA │
└──────────────────────────────────────────────────────────────┘
命中 → 阻断 / 加密 / 加水印 / 触发审批 未命中 → 放行 + 审计 执行过程
从需求分析到落地交付
- 1 POC 测试与方案设计:驻场与用户深入沟通业务痛点,梳理非法外联管控、跨网传输监测、邮件内容审计等特色场景;针对非法外联核心场景 1 周完成 Demo 开发,一次通过 POC 测试——在竞品对比中我方是唯一能现场演示实时检测与阻断能力的厂商
- 2 系统架构设计与全行交付:整合终端 DLP、邮件 DLP、网络 DLP、日志分析与报表等子系统,设计总行/分行二级部署架构(总行集中管控、分行监控分发),与行内 8 个核心系统集成(AD 域、邮件、OA、上网代理、VDI、态势感知等)
- 3 五阶段实施管理:需求评审(2 周)→ 定制开发(持续贯穿)→ 联调测试(4 周)→ 灰度发布(4 周)→ 全量上线(8 周),历时 1.5 年;建立双周项目例会与周报同步机制,累计处理需求变更 40+ 项,进度偏差始终控制在 5% 以内
- 4 Windows 底层兼容性攻克:终端适配成功率仅 85%,带领团队深入排查底层 API 调用逻辑,定位不同 Windows 版本(Win7/10/11)对驱动加载和 hook 机制的差异,通过调整驱动加载策略和 hook 注入方式将适配率提升至 99.5%
- 5 全栈信创改造(2024 起):主导从传统环境到金融云的全栈迁移——Docker Compose → Kubernetes、MySQL → GoldenDB 同城三副本、Windows/CentOS → 麒麟 V10、引入昇腾 GPU,完成 115 组容器 + 42 台虚拟机部署,分行节点上收至总行集中管理
项目成果
用数据说话
- ✓ 监控终端 6.8 万+台,日均审计邮件 5000+ 封,累计识别并处置 165 件安全事件
- ✓ 荣获年度"最具创新项目奖",成为行内数据安全建设标杆案例
- ✓ 信创改造经验成功复用至交通银行、国泰君安等多家金融客户
- ✓ 形成金融级信创改造的完整实践方法论——涵盖容器化改造、国产数据库迁移、国产 OS 适配、AI 芯片应用等全链路
终端 DLP 系统设计
终端 DLP 采用 C/S 架构,分为三层:系统服务层(CryptographicHelper 服务 + DLP 驱动 transfilter.sys)→ 核心态层(crypthelper.exe server/plugin,负责网络通信与插件管理)→ 用户态层(interface.exe 交互界面 + cryptfunction.exe 用户态插件管理)。
15 个功能模块覆盖终端安全全场景:文件打印管控、共享目录管控、移动介质管控、刻录管控、明文外发管控、水印显示、操作审计、文件加密、即时通信管控、网络行为管控、进程管理、密文权限管控、外部设备管控、敏感信息发现、控制台管理。
核心技术:HOOK 钩子(替换目标函数头部指令实现跳转,对 explorer.exe 实现文件另存/剪切板/截屏/打印/水印等行为管控)、透明加解密(基于双缓冲文件过滤驱动,打开时内存解密替换、关闭时加密替换)、网络重定向(基于 SPI/LSP 抓取网络连接行为进行协议分析)、内容识别(NLP + 数据分类 + 聚类分析)、文件指纹(局部敏感哈希 LSH,文件局部更改后指纹仍在容许范围内)。
大规模策略下发:单台 8C24GB 虚拟机可支撑 2500 点终端同时在线,总行 41366 终端配置 4 台负载服务器。核心服务器与负载服务器之间通过数据库同步实现数据统一,策略由核心计算后下发至负载再分发到终端。
系统集成与高可用设计
系统需与行内 8 个核心系统集成:AD 域/HR 系统(LDAP 批量接口获取员工身份与组织架构)、邮件系统(SMTP 获取外发邮件扫描)、办公邮件网关(SMTP 转发扫描通过的邮件)、上网代理系统(ICAP 协议双向交互获取流量镜像与管控指令)、OA 办公系统(WebService 接口提交审批请求与接收结果)、VAI/VDI(虚拟打印驱动 + 复制粘贴操作记录)、RMS 系统(AD RMS SDK 扫描受控文档)、态势感知平台(SYSLOG 单向推送 DLP 日志)。
高可用设计覆盖所有子系统:邮件 DLP 采用 F5 负载均衡 + 单台宕机自动切换 + 两台全宕 bypass 直连网关 + 缓存队列保证断电不丢邮件;网络 DLP 旁路部署 + 超时放行;管理平台 F5 + 数据库主从自动切换;终端 DLP 负载服务器自动重连(选择连接数较少的服务器)。
信创环境升级为双 AZ(Active-Active)双活模式:容器应用 AZ 内集群调度 + 跨 AZ ELB 流量切换;虚拟机反亲和部署不同宿主机;GoldenDB 同城三副本;Redis Cluster 集群模式(缓存空值防穿透 + 互斥锁防击穿 + 分散过期防雪崩)。
安全架构遵循"三员分立"原则——系统管理员(系统配置运维)、安全管理员(策略配置下发)、审计管理员(审计日志查看分析),支持一级(全局)和二级(分行/部门)分级管理。数据传输采用 HTTPS 单向/双向认证 + 基于 TCP 的私有协议加密。
信创改造:从传统环境到金融云
改造前(传统环境) 改造后(全栈信创云)
───────────────────── ─────────────────────
x86物理机 + 虚拟机 金融云容器化(SCC) + 虚拟机
Windows / CentOS 麒麟V10
MySQL 主从 GoldenDB 同城三副本
Docker Compose Kubernetes
F5 硬件负载均衡 ELB 弹性负载
无 GPU 昇腾310P
分行独立部署(44台) 上收至总行集中管理
单机房 HA 双AZ双活
数据迁移(7类,混合策略):
· 邮件DLP数据库 MySQL → GoldenDB 整库迁移
· 存储DLP数据库 MySQL → GoldenDB(策略/规则需重配)
· 邮件证据文件 NAS → OBS 对象存储
· NLP智慧模型样本 手动迁移 + 重新训练
· 报表ES数据 约7TB,业务代码迁移 + 日志清洗
· 终端DLP数据 工具迁移 + 策略手工重配
· 管理员操作日志 延迟迁移
系统切换三步走:
第一步 邮件网络DLP业务切割(周末执行)
第二步 终端DLP客户端升级后切割
第三步 报表系统历史数据迁移 项目演进与关键里程碑
2019 2020 2021-2023 2024-2025 2026
│ │ │ │ │
▼ ▼ ▼ ▼ ▼
┌──────────┐ ┌───────────┐ ┌──────────────┐ ┌──────────────────┐ ┌──────────┐
│ POC测试 │ │ 一期建设 │ │ 运维优化 │ │ 信创改造 │ │ 持续运营 │
│ 与方案 │ │ 全行上线 │ │ 策略调优 │ │ 全栈国产化 │ │ AI赋能 │
│ 设计 │ │ │ │ │ │ │ │ │
└──────────┘ └───────────┘ └──────────────┘ └──────────────────┘ └──────────┘
·驻场调研 ·需求评审 ·策略持续优化 ·Docker→K8s迁移 ·UEBA行为
·Demo开发 ·定制开发 ·终端6.8万+ ·MySQL→GoldenDB 分析上线
·一次通过 ·联调测试 ·日均邮件5000+ ·麒麟V10适配 ·NLP语义
POC验证 ·灰度发布 ·165件案例处置 ·昇腾GPU引入 识别增强
·方案评审 ·全量上线 ·Windows兼容 ·分行节点上收 ·模型持续
·1.5年交付 85%→99.5% ·AI能力引入 迭代优化
关键里程碑:
2019 ─── POC一次通过,项目签单
2020 ─── 一期系统上线,替代赛门铁克DLP
2021 ─── 荣获年度"最具创新项目奖",成为行内数据安全标杆
2022 ─── 终端覆盖6.8万+,日均邮件审计5000+
2024 ─── 启动全栈信创改造,完成容器化迁移
2025 ─── 信创环境上线,UEBA/NLP AI能力引入
2026 ─── 经验复用至交通银行、国泰君安等多家金融客户 核心数据防护流程
┌──────────────────────────────────────────────────────────────────────────────┐
│ 敏感数据外发途径全覆盖 │
│ │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ 终端外发 │ │ 邮件外发 │ │ 网络外发 │ │
│ │ ·U盘拷贝 │ │ ·SMTP外发 │ │ ·HTTP上传 │ │
│ │ ·打印输出 │ │ ·附件传输 │ │ ·HTTPS上传 │ │
│ │ ·即时通讯 │ │ │ │ ·网盘上传 │ │
│ │ ·文件共享 │ │ │ │ │ │
│ │ ·刻录 │ │ │ │ │ │
│ └──────┬──────┘ └──────┬──────┘ └──────┬──────┘ │
│ │ │ │ │
│ ▼ ▼ ▼ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 统一内容识别引擎 │ │
│ │ 关键字 · 正则 · 文档指纹(LSH) · NLP语义 · OCR · DNA │ │
│ └──────────────────────────┬───────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 策略决策引擎 │ │
│ │ 未命中 ──→ 放行 + 审计记录 │ │
│ │ 命中 ──→ 阻断 / 加密 / 加水印 / 触发审批 │ │
│ └──────────────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ DLP日志分析与报表系统 │ │
│ │ 日志采集 → 存储(大数据集群) → 规则引擎 → 分布式计算 │ │
│ │ → 报表展示 → 策略联动反馈 │ │
│ └──────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────────────────────┘ 部署架构与服务器配置
采用总行集中管控、分行监控分发的二级部署架构,所有服务器部署在上海生产机房。
总行部署(Internet DMZ区):网络DLP服务器2台、邮件DLP服务器2台、外发MTA邮件网关2台——处理来自互联网的流量和邮件数据。
总行部署(办公区域):网络/邮件DLP管理服务器2台、终端DLP核心EndPoint服务器2台、终端DLP负载EndPoint服务器8台、DLP日志分析与报表服务器5台、外发邮件归档服务器1台。
分行部署(办公区域):终端DLP负载EndPoint服务器,差异化部署——终端点数>2000的分行部署2台,<2000的部署1台,总行提供热备机。
信创环境部署规模:统一管理平台应用容器30组(认证、审批、网关、注册中心等10类服务×3实例)、业务处理应用容器34组(客户端代理、管理、交互等6类服务)、数据处理应用容器9组、智能语义应用容器12组 + GPU应用容器8组 + OCR应用容器12组 + UEBA应用容器10组、虚拟机42台(网页检测、邮件检测、报表系统、NLP训练预测等)。
邮件 DLP 与网络 DLP 设计
邮件DLP与行内邮件系统串联集成,实现外发邮件全量扫描与管控。
业务流程:外发邮件 → 邮件系统转发给邮件DLP服务器扫描 → 同时归档eml到NAS → 未命中敏感信息的直接放行至办公邮件网关 → 命中的自动在OA系统发起审批 → 审批通过则转发至网关并通知审批人 → 审批拒绝则终止发送并通知。
高可用设计:邮件服务器通过F5负载均衡分发至2台邮件DLP;单台宕机自动切换至另一台;两台全宕时邮件服务器bypass直接发送至网关;支持远程关闭DLP实现紧急bypass;缓存队列机制保证断电重启后邮件不丢失。
网络DLP与上网代理系统通过ICAP协议集成,对互联网出口流量进行敏感信息扫描和管控。
业务流程:用户外发访问请求 → 上网代理服务器将数据包发网络DLP扫描 → 扫描结果转化为管控指令反馈 → 放行则直接访问互联网 → 阻断则通知用户请求被阻断 → 含敏感信息的事件上报管理平台并存证据至NAS。
日志分析与报表系统:采集终端DLP、邮件DLP、网络DLP三类日志 → 数据封装送入处理队列 → 原始日志存储到大数据存储集群 → 通过规则引擎实时分析产生告警 → 分布式计算检测可疑行为 → 通过策略联动接口对DLP系统联动控制 → 报表引擎可视化展示。
AI 能力引入
信创改造同步引入了两大AI应用场景:
UEBA(用户和实体行为分析):解决传统SIEM对异常警报规则难界定、无法给出警报优先级、无法应对内部恶意人员的痛点。AI引擎通过"数据预处理→特征及标签构建→行为建模→行为预测"四步流程,输出用户画像与行为偏离评分。训练流程:选择场景和建模类型→数据校验→获取日志→特征构建→标签构建→基线构建→多元回归建模→保存模型。预测流程:Kafka获取实时数据→特征构建→获取模型→标记结果+异常评分→输出至集中安管平台展示。支持业务专家结合排查结果进行模型优化——修改标记结果后模型自动学习调整权重。
NLP智能语义分析识别系统:解决传统基于文本内容的识别方法误报漏报多、规则配置无法穷举的痛点。管理员上传样本集→训练服务进行文本解析/关键词提取/聚类/模型训练→模型发布到邮件网络DLP系统→对文件进行特征匹配预测。支持模型自动更新同步,子模型最多保留5个版本。