SkyWalking 10.0.1 源码编译与安全攻防实践指南

原创于 2026-06-22 10:25:22 发布 · 295 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#SkyWalking #源码编译 #APM

1. 项目概述：从“会用”到“懂它”的必经之路

如果你已经用SkyWalking做过微服务链路追踪，看着Dashboard上的拓扑图和调用链感觉一切尽在掌握，那说明你已经迈出了第一步。但作为技术人，尤其是负责系统稳定性和安全性的架构师或资深开发者，仅仅停留在“会用”层面是远远不够的。当生产环境出现一个诡异的性能毛刺，或者安全团队发来一个关于你所使用的SkyWalking版本存在某个CVE漏洞的预警时，那种“知其然不知其所以然”的无力感会瞬间袭来。今天要聊的，就是如何跨越这个鸿沟——通过亲手编译SkyWalking 10.0.1的源码，来深入理解其内部机理，并在此基础上，探讨如何应对其可能面临的安全漏洞，进行一次从构建到防御的深度实践。

SkyWalking作为一个优秀的APM（应用性能监控）系统，其价值在于为我们描绘了分布式系统的“经络图”。但这份地图是如何绘制的？它的每一个数据采集点（Agent）、每一段数据处理流水线（OAP Server）、每一个存储查询逻辑背后，到底藏着怎样的代码逻辑？编译源码，就是打开这个黑盒最直接、也是最有效的方式。这不仅仅是得到一个可执行的二进制文件，更是一个沉浸式的代码阅读和调试过程。你会看到配置是如何加载的，网络通信是如何建立的，数据序列化协议（如gRPC）是如何被使用的。这些细节，在直接使用发行版时是完全透明的。

而“安全漏洞攻防”则是这个过程的自然延伸。当你理解了系统的构成，你才能更精准地评估风险。例如，最近安全社区经常讨论的Nginx相关CVE（如CVE-2025-23419、CVE-2026-27654），虽然不直接针对SkyWalking，但其原理（如配置错误导致的权限绕过、解析漏洞）对我们审视自身系统的安全配置有极强的借鉴意义。SkyWalking的UI、Collector（OAP）的HTTP/gRPC接口、甚至其使用的Elasticsearch/MySQL等存储组件，都可能成为攻击面。通过源码编译环境，我们可以搭建一个“靶场”，模拟攻击者视角进行安全审计和加固实践，这才是“进阶之路”的核心价值：变被动为主动，从漏洞的受害者转变为系统的守护者。

2. 源码编译：不止于 `mvn clean package`

很多人认为编译开源项目就是运行一条构建命令，等待结束。但对于SkyWalking这样一个模块众多、依赖复杂的大型Java项目，编译过程本身就是一次绝佳的学习机会。它迫使你去解决环境问题、理解项目结构、甚至窥探其构建哲学。

2.1 环境准备与项目结构解析

工欲善其事，必先利其器。SkyWalking 10.0.1的编译对环境有明确要求，盲目开始只会陷入无尽的报错中。

基础环境清单：

JDK: 必须使用JDK 17。这是SkyWalking 10.x系列的硬性要求。建议使用OpenJDK 17 LTS版本，并通过 java -version 确认。
Maven: 推荐使用3.6.x或更高版本。确保 mvn -v 命令输出正确，并且 settings.xml 文件配置了合适的国内镜像源（如阿里云镜像），这将极大加速依赖下载。
Git: 用于克隆代码库。
Node.js (可选但重要): SkyWalking的UI（ skywalking-ui 模块）是一个前端项目。如果你想完整编译包括UI在内的所有组件，需要Node.js环境（建议14.x以上）和npm。如果只编译后端（OAP Server, Agent），则可以跳过。

获取源码：

git clone https://github.com/apache/skywalking.git
cd skywalking
# 切换到10.0.1版本，这是一个稳定的发布版本
git checkout v10.0.1

项目结构初窥： 进入目录，你会看到一个典型的Apache顶级项目结构。对编译而言，关键子目录如下：

agent/ : 探针部分。这是编译的重难点之一，因为它涉及字节码增强和多种组件的适配。
oap-server/ : OAP（Observability Analysis Platform）服务端，核心中的核心，负责处理、分析、聚合和存储从Agent上传的数据。
skywalking-ui/ : 前端可视化界面。
test/ : 集成测试和e2e测试模块，对于深入理解组件交互非常有帮助。
dist-material/ : 存放最终打包的配置、启动脚本等材料。

注意： 第一次编译前，强烈建议花半小时浏览根目录的 README.md 和 CONTRIBUTING.md 文件。里面包含了最新的构建要求、代码风格指南，甚至是一些常见编译问题的提示。

2.2 核心编译流程与参数解读

单纯的 mvn clean package -DskipTests 可以产出基础包，但要想获得生产可用的、包含所有组件的发行包，需要更精确的命令。

完整编译命令：

mvn clean package -Pagent,dist -DskipTests

这个命令是精髓所在。我们来拆解一下：

-Pagent,dist : 这是激活Maven的 agent 和 dist profile。 agent profile会确保agent模块被正确编译和打包； dist profile是关键，它会触发项目使用 apache-rat 插件进行许可证检查，并最终在 dist 目录下生成一个完整的、类似官方发布的发行包（ apache-skywalking-apm-10.0.1.tar.gz ）。
-DskipTests : 跳过单元测试和集成测试，可以显著加快编译速度。在首次探索性编译时建议使用。但在后续为了验证修改或深入研究时，应该运行测试。

编译输出物： 成功编译后，在项目根目录下的 dist 文件夹（由 dist profile生成）或 agent 、 oap-server 模块的 target 目录下，你会找到以下核心产出：

agent/ : 独立的探针目录，包含 skywalking-agent.jar 和所有可选插件。
oap-server/ : OAP服务端可执行jar包和启动脚本。
config/ : 应用程序（OAP）和WebApp（UI）的配置文件。
bin/ : 启动、停止服务的shell脚本和bat脚本。
webapp/ : 编译好的前端静态资源。

编译中的“坑”与技巧：

网络问题与依赖下载： Maven依赖下载失败是最常见的问题。除了配置镜像源，对于某些难以下载的依赖（如gRPC原生库），可以尝试单独下载后手动安装到本地仓库，或者使用 -o （offline）模式配合已准备好的本地仓库。
内存不足： SkyWalking编译过程，特别是运行测试时，可能消耗大量内存。如果遇到 GC overhead limit exceeded 或 OutOfMemoryError ，需要设置Maven运行参数： export MAVEN_OPTS="-Xmx4g -Xms2g" （Linux/macOS）或相应设置Windows环境变量。
前端编译失败： 如果完整编译， skywalking-ui 模块可能因node-sass等原生模块编译失败而报错。确保你的Node.js版本符合要求，并尝试在 skywalking-ui 目录下先运行 npm install --legacy-peer-deps 来解决依赖冲突，然后再回到根目录进行整体编译。
理解 assemble 目标： 除了 package ，你还会看到 mvn clean install 或 mvn compile 。 install 会将构件安装到本地Maven仓库，方便其他本地项目引用。而最彻底的打包是 mvn clean install -Pagent,dist -Dcheckstyle.skip=true -Drat.skip=true -DskipTests ，它跳过了代码风格和许可证检查，适合快速迭代。

3. 从编译产物到安全视角的切换

成功编译出发行包，相当于你获得了一套“源代码级”的SkyWalking。此时，不要急于部署，而是应该带着“攻击者”和“防御者”的双重身份，审视这些产物。

3.1 部署架构与攻击面分析

一个标准的SkyWalking生产部署包含以下组件，每个都是潜在的攻击面：

Agent: 植入到业务应用中的探针。它通常以Java Agent方式启动，权限很高。 攻击面： Agent配置被篡改（如篡改 agent.config 文件，将数据上报到恶意Collector）；Agent自身漏洞（如反序列化漏洞）导致宿主应用被攻击。
OAP Server (Collector): 接收、处理Agent数据的服务端。暴露gRPC和HTTP（Restful API）端口。 攻击面： 未授权访问（gRPC/HTTP接口无认证）；接口注入（如通过Trace ID或Log参数进行SQL注入、命令注入）；拒绝服务（大量伪造的监控数据流）。
Storage (Elasticsearch/MySQL/等): 存储监控数据的数据库。 攻击面： 数据库默认端口暴露在公网且使用弱密码；因OAP Server的漏洞导致数据库被间接攻击。
UI (Web Dashboard): 提供给用户查看数据的Web界面。 攻击面： 跨站脚本（XSS）、跨站请求伪造（CSRF）等经典Web漏洞；未授权访问管理界面。

3.2 基于编译环境的安全审计实践

有了源码，我们可以进行更深入的安全检查，这比黑盒扫描要精准得多。

1. 依赖组件漏洞扫描： 使用 mvn dependency:tree 命令导出项目的完整依赖树，然后使用OWASP Dependency-Check或Snyk等工具进行扫描。重点关注：

网络通信库： gRPC、Netty、HTTP Client的版本是否存在已知漏洞（类似之前提到的Nginx CVE，虽然不直接相关，但思路一致）。
数据序列化库： Jackson、Protobuf等，检查是否存在反序列化漏洞。
数据库驱动： MySQL Connector、Elasticsearch Client等。编译环境让你可以自由升级这些依赖的版本进行测试，验证新版本是否兼容。

2. 关键配置安全审查： 编译后的 config/application.yml 是核心配置文件。带着安全眼光去审视：

认证与鉴权： 检查 core/default/authentication 配置项。SkyWalking支持Basic Auth、Bearer Token等多种方式。在编译后，你可以修改源码中关于认证的默认值或逻辑，例如强制开启认证、增强Token生成算法。
网络暴露： 检查 core/default/gRPCHost 和 core/default/restHost 。 绝对不要 使用 0.0.0.0 并将其直接暴露在公网。应该绑定内网IP，并通过反向代理（如Nginx）对外提供服务，并在Nginx层配置SSL/TLS、WAF（Web应用防火墙）规则。
存储安全： 检查 storage 部分关于Elasticsearch或MySQL的连接串。确保密码不是硬编码在配置文件中，而是通过环境变量或密钥管理服务传入。

3. 模拟攻击测试（靶场思想）： 在你的编译开发机上，搭建一个微服务 demo（如Spring Boot + SkyWalking Agent），并连接到你编译的OAP Server。然后尝试：

畸形数据攻击： 模拟Agent，向OAP的gRPC端口发送格式错误、超大或嵌套极深的Trace数据，观察OAP Server的容错性和资源消耗情况。这可以帮助你理解 oap-server 模块中数据解析部分（如 trace-receiver-plugin ）的健壮性。
未授权接口探测： 使用 curl 或Postman，直接访问OAP的HTTP API（默认端口12800），尝试访问 /graphql 、 /v3 等端点，看是否返回数据而不需要认证。
日志注入： 在业务应用中，尝试输入包含特殊字符或换行的日志内容，查看在SkyWalking UI中展示时，是否会被错误解析导致XSS。

4. 针对常见安全场景的加固实操

理论结合实践，下面我们针对几个具体的安全威胁，进行基于源码理解和编译环境的加固操作。

4.1 加固一：启用并强化OAP Server访问认证

场景： 防止攻击者直接访问OAP Server的API，窃取链路、服务拓扑等敏感监控数据，或向其中注入恶意数据。

操作步骤：

修改配置： 打开编译产物中的 config/application.yml ，找到 core/default/authentication 部分（或搜索 authentication ）。将默认的 active 设置为 true 。
```
authentication:
  active: ${SW_AUTHENTICATION:true} # 确保默认开启
  # 选择一种认证方式，如Bearer Token
  bearer:
    token: ${SW_AUTHENTICATION_BEARER_TOKEN:your-strong-secret-token-here}
```
关键点： your-strong-secret-token-here 必须替换为高强度、随机生成的字符串，并像管理数据库密码一样管理它。通过环境变量 SW_AUTHENTICATION_BEARER_TOKEN 传入是更安全的方式。
Agent端配置： 在业务应用的Agent配置文件 agent.config 中，必须添加对应的认证信息，否则数据无法上报。
```
# 在agent.config中
agent.authentication=your-strong-secret-token-here
```
深入源码（可选）： 如果你想定制认证逻辑，可以查看 oap-server/server-core 模块下与认证相关的源码（如 org.apache.skywalking.oap.server.core.auth 包）。你可以看到 AuthenticationInterceptor 等类是如何工作的。例如，你可以编译一个自定义的认证插件，实现更复杂的鉴权逻辑。

4.2 加固二：网络隔离与传输加密

场景： 防止监控数据在传输过程中被窃听或篡改。

操作步骤：

强制TLS/SSL： SkyWalking的gRPC通信支持TLS。你需要生成或获取服务器证书和私钥。

在OAP Server的


     config/application.yml

中配置：

core:
  default:
    gRPCHost: ${SW_CORE_GRPC_HOST:0.0.0.0}
    gRPCPort: ${SW_CORE_GRPC_PORT:11800}
    gRPCSslEnabled: ${SW_CORE_GRPC_SSL_ENABLED:true} # 开启SSL
    gRPCSslKeyPath: ${SW_CORE_GRPC_SSL_KEY_PATH:/path/to/server.key.pem}
    gRPCSslCertChainPath: ${SW_CORE_GRPC_SSL_CERT_CHAIN_PATH:/path/to/server.crt.pem}

在Agent的


     agent.config

中配置：

collector.backend_service=${SW_AGENT_COLLECTOR_BACKEND_SERVICES:your-oap-server-ip:11800}
# 如果OAP使用了自签名证书，Agent需要信任它
collector.ssl_cert_chain_path=${SW_AGENT_SSL_CERT_CHAIN_PATH:/path/to/ca.crt.pem}

网络层面隔离： 这是最有效的一层。确保OAP Server的 11800 (gRPC)、 12800 (HTTP)端口 仅对业务应用所在的VPC或内网开放 ，绝对不在安全组或防火墙规则中向 0.0.0.0/0 开放。UI端口（默认8080）也应通过Nginx反向代理暴露，并在Nginx上配置SSL和访问控制。

4.3 加固三：存储层安全配置

场景： 防止攻击者通过OAP Server漏洞或直接攻击存储层（如Elasticsearch）获取数据。

操作步骤：

Elasticsearch安全： 如果使用Elasticsearch，必须启用X-Pack安全功能（或OpenSearch的安全插件）。

在


     config/application.yml

的


     storage

部分，使用带认证的连接串：

storage:
  selector: ${SW_STORAGE:elasticsearch}
  elasticsearch:
    namespace: ${SW_NAMESPACE:""}
    clusterNodes: ${SW_STORAGE_ES_CLUSTER_NODES:localhost:9200}
    protocol: ${SW_STORAGE_ES_HTTP_PROTOCOL:"http"}
    # 启用认证
    user: ${SW_ES_USER:"elastic"}
    password: ${SW_ES_PASSWORD:"your-strong-password"}
    trustStorePath: ${SW_STORAGE_ES_SSL_JKS_PATH:""}
    trustStorePass: ${SW_STORAGE_ES_SSL_JKS_PASS:""}

配置Elasticsearch本身只接受来自OAP Server IP的请求。

定期审计与更新： 利用编译环境，你可以定期将SkyWalking的依赖（特别是Elasticsearch Client、MySQL Driver）更新到已知安全的最新版本，进行兼容性测试后，再部署到生产环境。这比等待官方发布新版本更主动。

5. 攻防演练：构建一个简易的SkyWalking安全测试靶场

理论最终要服务于实践。我建议你在本地或一个隔离的虚拟机中，搭建一个完整的、 故意留有安全弱点 的SkyWalking环境，然后尝试攻击它。这个过程能让你对上述加固措施有刻骨铭心的理解。

靶场搭建步骤：

环境准备： 使用Docker Compose快速拉起一个包含脆弱配置的SkyWalking集群。

# docker-compose.test.yml
version: '3.8'
services:
  oap:
    image: apache/skywalking-oap-server:10.0.1
    container_name: sw-oap-vulnerable
    ports:
      - "11800:11800" # gRPC 暴露给宿主机，模拟错误配置
      - "12800:12800" # HTTP API 暴露给宿主机，模拟错误配置
    environment:
      SW_CORE_GRPC_HOST: 0.0.0.0
      SW_CORE_REST_HOST: 0.0.0.0
      SW_STORAGE: elasticsearch
      SW_STORAGE_ES_CLUSTER_NODES: elasticsearch:9200
      # 注意：这里没有设置认证环境变量！
  elasticsearch:
    image: elasticsearch:7.17.0 # 使用一个旧版本，可能包含已知漏洞
    container_name: sw-es-vulnerable
    environment:
      - "discovery.type=single-node"
      - "xpack.security.enabled=false" # 禁用安全！
    ports:
      - "9200:9200"
  ui:
    image: apache/skywalking-ui:10.0.1
    container_name: sw-ui-vulnerable
    ports:
      - "8080:8080"
    environment:
      SW_OAP_ADDRESS: http://oap:12800

这个配置集成了多个“坏习惯”：服务端口直接暴露、无认证、存储禁用安全、使用旧版本镜像。

攻击模拟练习：
- 信息收集： 使用 nmap 扫描靶机IP，发现开放的11800、12800、9200端口。
- 未授权访问： 直接 curl http://靶机IP:12800/graphql ，尝试查询数据。直接 curl http://靶机IP:9200/_cat/indices ，查看Elasticsearch中的所有索引（可能包含敏感的跟踪数据）。
- 数据注入： 编写一个简单的Python脚本，模拟一个恶意的“Agent”，向 靶机IP:11800 发送伪造的、带有异常标签（Tags）的Trace数据，观察是否会影响SkyWalking UI的展示或OAP的处理逻辑。
- 漏洞利用： 搜索该版本Elasticsearch（7.17.0）的公开CVE，尝试利用（请在完全隔离的环境中进行）。
防御加固实践： 在同一个靶场，停止服务，然后：
- 修改Docker Compose文件，为OAP添加环境变量 SW_AUTHENTICATION=true 和 SW_AUTHENTICATION_BEARER_TOKEN 。
- 启用Elasticsearch的X-Pack安全，并配置密码。
- 移除不必要的端口映射，或改为仅映射到宿主机 127.0.0.1 。
- 将Elasticsearch镜像升级到最新的安全版本。重新启动环境，重复上面的攻击步骤，你会发现所有简单的攻击都已失效。