Java 程序员第 43 阶段 04：微服务整合大模型，跨服务调用架构设计实战，Sentinel微服务流量控制

最新推荐文章于 2026-06-17 15:07:57 发布

原创最新推荐文章于 2026-06-17 15:07:57 发布 · 999 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#wpf

Sentinel是阿里巴巴开源的面向分布式、多语言异构化服务架构的流量控制、熔断降级组件。作为微服务架构中不可或缺的防线，Sentinel提供了精细化的流量控制、并发控制、熔断降级、系统自适应保护等多种保护策略。在微服务整合大模型的场景中，AI服务通常是整个系统的性能瓶颈和风险点，Sentinel能够帮助我们保护下游AI服务不被过载请求打垮。

Sentinel的核心概念包括资源、规则和 sentinel客户端。资源是Sentinel保护的对象，可以是一段代码、一个接口或者整个服务。在Sentinel中，资源通过Entry注解或手动调用 SphU.entry()方法来定义。规则定义了如何保护资源，包括流量控制规则、熔断降级规则、热点参数规则、系统保护规则等。Sentinel客户端（sentinel-core）负责采集实时监控数据、执行规则校验、将数据上报给Dashboard。

Sentinel的工作原理基于滑动窗口算法。系统会为每个资源维护一个滑动窗口统计器，窗口被划分成多个Bucket，每个Bucket统计一小段时间内的请求数据。当有请求到达时，Sentinel会检查当前窗口的统计数据，判断是否应该拒绝请求。滑动窗口算法相比简单的计数器算法能够更准确地处理突发流量，避免误判。

滑动窗口结构:
┌─────────────────────────────────────────────────────┐
│                   1分钟窗口                          │
├─────────┬─────────┬─────────┬─────────┬─────────┤
│ 0-12s   │ 12-24s │ 24-36s │ 36-48s │ 48-60s │
├─────────┼─────────┼─────────┼─────────┼─────────┤
│ Bucket1 │ Bucket2 │ Bucket3 │ Bucket4 │ Bucket5 │
│ count=3 │ count=5 │ count=2 │ count=8 │ count=4 │
└─────────┴─────────┴─────────┴─────────┴─────────┘
                           ↑
                    当前时间所在Bucket

Sentinel的架构分为两个部分：客户端嵌入到业务应用中，负责规则执行和数据采集；Dashboard是独立部署的Web控制台，用于规则配置和监控展示。客户端与Dashboard通过HTTP协议通信，客户端会定期将监控数据上报给Dashboard，同时也从Dashboard拉取最新的规则配置。这种架构设计使得Sentinel能够支持大规模的微服务部署。

Sentinel提供了多种规则类型，每种规则针对不同的保护场景。本节详细介绍各种规则的原理和使用方法，帮助读者在实际项目中选择合适的规则组合。

流量控制规则（FlowRule）是最常用的规则类型，用于控制请求的流量。流量控制有三种计算模式：直接拒绝模式，当QPS超过阈值时直接拒绝请求；冷启动模式，让系统预热一段时间后才达到期望的QPS；排队等待模式，让请求在队列中排队，超过超时时间则被拒绝。流量控制还可以基于调用关系进行，包括入口流量控制和出口流量控制。

@Configuration
public class SentinelRuleConfig {
    @PostConstruct
    public void initFlowRules() {
        List<FlowRule> rules = new ArrayList<>();
        // AI服务流控规则
        FlowRule aiServiceRule = new FlowRule();
        aiServiceRule.setResource("chat-completion");
        aiServiceRule.setGrade(RuleConstant.FLOW_GRADE_QPS);
        aiServiceRule.setCount(100); // QPS阈值100
        aiServiceRule.setControlBehavior(RuleConstant.CONTROL_BEHAVIOR_DEFAULT);
        aiServiceRule.setStrategy(RuleConstant.STRATEGY_DIRECT);
        aiServiceRule.setLimitApp("default");
        rules.add(aiServiceRule);
        FlowManager.loadRules(rules);
    }
}

熔断降级规则（CircuitBreakerRule）用于在服务异常时自动切断调用，防止故障扩散。Sentinel支持三种熔断策略：慢调用比例，当请求的平均响应时间超过阈值且比例超过设定值时触发熔断；异常比例，当异常比例超过阈值时触发熔断；异常数，当异常数量超过阈值时触发熔断。熔断后的一段时间内，所有请求都会直接失败，之后Sentinel会放行一个试探请求，如果成功则恢复正常，否则继续熔断。

热点参数规则（ParamFlowRule）是一种更精细的流量控制手段，它能够针对携带特定参数值的请求进行限流。例如，在AI对话场景中，可以针对特定用户或特定会话进行限流，防止个别用户占用过多资源。热点规则支持参数索引、参数类型设置、参数值限流等高级特性。

系统保护规则（SystemRule）从系统维度进行保护，而不是针对单个资源。系统规则包括：Load保护，当系统load1超过阈值时触发保护；RT保护，当平均响应时间超过阈值时触发保护；并发线程数保护，当活跃线程数超过阈值时触发保护；入口QPS保护，当入口QPS超过阈值时触发保护。系统规则是一种全局性的保护措施，适合在系统濒临崩溃时进行兜底保护。

Sentinel与Spring Cloud Alibaba深度集成，提供了便捷的自动化配置和注解支持。本节介绍如何在Spring Cloud项目中集成Sentinel，并演示如何使用注解定义资源和配置规则。

添加Sentinel依赖：

<dependency>
    <groupId>com.alibaba.cloud</groupId>
    <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

<dependency>
    <groupId>com.alibaba.cloud</groupId>
    <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

<dependency>
    <groupId>com.alibaba.csp</groupId>
    <artifactId>sentinel-spring-webmvc-adapter</artifactId>
</dependency>

配置Sentinel连接信息：

spring:
  cloud:
    sentinel:
      enabled: true
      transport:
        dashboard: localhost:8858
        port: 8719
        heartbeat-interval-ms: 5000
      datasource:
        ds:
          nacos:
            server-addr: ${NACOS_SERVER_ADDR:127.0.0.1:8848}
            data-id: sentinel-rules
            group-id: SENTINEL_GROUP
            data-type: json
            rule-type: flow
      eager: true

使用Sentinel注解定义资源：

@RestController
@RequestMapping("/chat")
public class ChatController {
    @SentinelResource(value = "chat-completion",
                      blockHandler = "chatBlockHandler",
                      fallback = "chatFallback")
    @PostMapping("/completions")
    public Result<ChatResponse> completions(@RequestBody ChatRequest request) {
        // 调用AI服务
        return aiService.chat(request);
    }
    // 流控/熔断处理
    public Result<ChatResponse> chatBlockHandler(ChatRequest request,
                                                   BlockException ex) {
        log.warn("请求被Sentinel拦截: {}", ex.getClass().getSimpleName());
        return Result.error(429, "系统繁忙，请稍后再试");
    }
    // 降级处理
    public Result<ChatResponse> chatFallback(ChatRequest request,
                                               Throwable throwable) {
        log.error("AI服务调用失败", throwable);
        return Result.error(500, "AI服务暂时不可用");
    }
}

Sentinel还支持对Feign客户端进行集成保护。只需要在配置中启用Sentinel对Feign的支持，即可自动为Feign调用添加Sentinel保护：

feign:
sentinel:
enabled: true

Sentinel Dashboard是Sentinel的可视化控制台，提供了规则配置、实时监控、簇点链路查看等功能。本节介绍如何部署Dashboard以及如何使用其提供的各种功能。

使用Docker快速部署Sentinel Dashboard：

docker run -d \
  --name sentinel-dashboard \
  -p 8858:8858 \
  -e JVM_OPTS="-Xms256m -Xmx256m" \
  -e MODE=standalone \
  bladex/sentinel-dashboard:1.8.8

启动完成后，通过浏览器访问http://localhost:8858即可进入Dashboard控制台。默认用户名和密码都是sentinel。Dashboard提供了丰富的功能入口，包括首页概览、流控规则、新增熔断规则、热点规则、系统规则、机器列表等。

首页概览展示了系统的整体健康状态，包括实时QPS、响应时间、拦截次数等关键指标。机器列表显示了所有连接到Dashboard的Sentinel客户端，包括客户端IP、端口、版本号、状态等信息。通过机器列表可以确认客户端是否成功连接到Dashboard。

流控规则页面可以查看和配置所有的流量控制规则。点击新增按钮可以创建新的流控规则，需要指定资源名、规则类型、阈值、控制行为等参数。规则创建后会自动下发到对应的客户端，实时生效。这种在线配置的方式非常方便，但需要注意的是，Dashboard配置的规则存储在Dashboard内存中，服务重启后会丢失。

实时监控页面展示了每个资源的详细监控数据，包括QPS、时间窗口内的请求统计、拦截统计等。监控数据默认保留5分钟，过期的数据会自动清理。通过实时监控可以直观地观察系统的运行状态，及时发现异常情况。

在生产环境中，规则的持久化和动态配置是非常重要的需求。本节介绍如何将Sentinel规则存储到Nacos等配置中心，实现规则的持久化存储和动态更新。

Sentinel支持将规则存储到多种数据源，包括文件、Nacos、Apollo、ZooKeeper等。在Spring Cloud Alibaba环境中，通常使用Nacos作为规则存储中心。

添加Sentinel规则持久化依赖：

<dependency>
<groupId>com.alibaba.csp</groupId>
<artifactId>sentinel-datasource-nacos</artifactId>
</dependency>

配置Nacos作为规则存储：

spring:
  cloud:
    sentinel:
      datasource:
        # 流控规则存储到Nacos
        flow-rule:
          nacos:
            server-addr: ${NACOS_SERVER_ADDR:127.0.0.1:8848}
            data-id: ${spring.application.name}-flow-rules
            group-id: SENTINEL_RULE_GROUP
            data-type: json
            rule-type: flow
        # 熔断规则存储到Nacos
        degrade-rule:
          nacos:
            server-addr: ${NACOS_SERVER_ADDR:127.0.0.1:8848}
            data-id: ${spring.application.name}-degrade-rules
            group-id: SENTINEL_RULE_GROUP
            data-type: json
            rule-type: degrade

Nacos中存储的流控规则JSON格式：

[
    {
        "resource": "chat-completion",
        "controlBehavior": 0,
        "count": 100,
        "grade": 1,
        "limitApp": "default",
        "strategy": 0,
        "clusterMode": false
    },
    {
        "resource": "chat-completion",
        "controlBehavior": 1,
        "count": 10,
        "grade": 1,
        "limitApp": "default",
        "maxQueueingTimeMs": 5000
    }
]

使用@SentinelDatasource注解可以在代码中更灵活地定义规则数据源：

@SentinelDatasource(
    dataType = "json",
    ruleType = RuleType.FLOW,
    dataSource = "flowDataSource"
)
@Configuration
public class SentinelDataSourceConfig {
    @Bean
    public Converter<String, List<FlowRule>> flowDataSource() {
        return source -> JSON.parseArray(source, FlowRule.class);
    }
}

在微服务整合大模型的场景中，AI服务通常是最需要保护的组件。大模型调用具有响应时间长、资源消耗大、成本高等特点，如果不加以控制，可能会导致系统资源耗尽或产生巨额账单。本节针对AI服务调用场景，介绍具体的流量控制策略设计。

针对AI服务的特点，需要从多个维度进行保护：

@Configuration
public class AiServiceSentinelConfig {
    @PostConstruct
    public void initAiServiceRules() {
        initFlowRules();
        initDegradeRules();
        initSystemRules();
    }
    private void initFlowRules() {
        List<FlowRule> rules = new ArrayList<>();
        // API级别限流
        FlowRule apiRule = new FlowRule("chat-completion-api");
        apiRule.setGrade(RuleConstant.FLOW_GRADE_QPS);
        apiRule.setCount(50); // 单机QPS限制50
        apiRule.setControlBehavior(RuleConstant.CONTROL_BEHAVIOR_DEFAULT);
        rules.add(apiRule);
        // 线程数限制，防止资源耗尽
        FlowRule threadRule = new FlowRule("chat-completion-thread");
        threadRule.setGrade(RuleConstant.FLOW_GRADE_THREAD);
        threadRule.setCount(20); // 最大并发20
        rules.add(threadRule);
        FlowManager.loadRules(rules);
    }
    private void initDegradeRules() {
        List<CircuitBreakerRule> rules = new ArrayList<>();
        // 慢调用熔断
        CircuitBreakerRule slowRule = new CircuitBreakerRule();
        slowRule.setResource("chat-completion");
        slowRule.setGrade(RuleConstant.DEGRADE_GRADE_RT);
        slowRule.setCount(5); // 5秒
        slowRule.setSlowRatioThreshold(0.5); // 50%慢调用比例
        slowRule.setMinRequestAmount(10); // 最小请求数
        slowRule.setStatIntervalMs(30000); // 统计窗口30秒
        slowRule.setTimeWindow(30); // 熔断时长30秒
        rules.add(slowRule);
        // 异常比例熔断
        CircuitBreakerRule errorRule = new CircuitBreakerRule();
        errorRule.setResource("chat-completion");
        errorRule.setGrade(RuleConstant.DEGRADE_GRADE_EXCEPTION_RATIO);
        errorRule.setCount(0.5); // 50%异常比例
        errorRule.setMinRequestAmount(5);
        errorRule.setStatIntervalMs(60000);
        errorRule.setTimeWindow(60);
        rules.add(errorRule);
        DegradeManager.loadRules(rules);
    }
    private void initSystemRules() {
        List<SystemRule> rules = new ArrayList<>();
        SystemRule rule = new SystemRule();
        rule.setAvgRt(3000); // 平均响应时间超过3秒
        rule.setQps(100); // 全局QPS超过100
        rule.setMaxThread(50); // 最大线程数50
        rules.add(rule);
        SystemRuleManager.loadRules(rules);
    }
}

降级后的处理策略也很重要。当AI服务不可用时，系统应该能够优雅地降级，而不是直接失败。常见的降级策略包括：返回默认回复，提示用户稍后重试；返回缓存的历史回答；对于非实时性要求高的场景，使用异步队列暂存请求，待服务恢复后处理。

@Service
@Slf4j
public class AiServiceFallback {
    public ChatResponse fallback(ChatRequest request) {
        log.warn("AI服务降级，返回默认响应");
        // 记录降级请求
        saveFallbackRequest(request);
        return ChatResponse.builder()
                .content("抱歉，AI服务暂时繁忙，请稍后再试。")
                .model("fallback")
                .build();
    }
    public ChatResponse fallbackForCache(ChatRequest request) {
        // 尝试从缓存获取类似的回答
        String cached = getFromCache(request.getPrompt());
        if (cached != null) {
            log.info("从缓存返回回答");
            return ChatResponse.builder()
                    .content(cached)
                    .model("cache")
                    .cached(true)
                    .build();
        }
        return fallback(request);
    }
}

Sentinel的生产环境高可用部署需要考虑多个方面，包括Dashboard集群、规则同步、监控数据存储等。本节介绍Sentinel生产环境部署的最佳实践。

Sentinel Dashboard本身也是一个Spring Boot应用，可以进行集群部署以保证可用性。Dashboard集群部署需要使用共享存储（如MySQL或Redis）来同步规则数据。客户端需要配置所有Dashboard节点的地址，客户端会自动选择可用的节点进行通信。

spring:
  cloud:
    sentinel:
      transport:
        dashboard: dashboard-1:8858,dashboard-2:8858,dashboard-3:8858
        heartbeat-interval-ms: 5000

对于大规模微服务部署，Sentinel客户端的资源开销也需要考虑。Sentinel默认会为每个资源创建滑动窗口统计器，如果资源数量过多，可能会占用较多内存。可以通过配置来限制统计器的数量，或者禁用某些非必要的监控功能。

spring:
  cloud:
    sentinel:
      eager: true # 启动时立即连接Dashboard
      metrics:
        enabled: true
        # 聚合的流量维度统计时间窗口
        interval-ms: 5000
      # 是否隐藏context
      hide-context: false

监控数据的存储是生产环境需要重点关注的问题。Sentinel默认在内存中存储监控数据，重启后会丢失。对于需要长期存储监控数据的场景，可以使用Sentinel的推模式将数据推送到Prometheus、InfluxDB等时序数据库，然后使用Grafana进行可视化展示。

Sentinel与Kubernetes的集成也是生产环境需要考虑的问题。在Kubernetes环境中，服务实例的IP和端口可能会频繁变化。Sentinel客户端需要能够正确感知这些变化，并更新注册信息。同时，规则的生效范围可能需要从单机扩展到服务级别，这需要更精细的规则配置。

本章全面介绍了Sentinel微服务流量控制组件的使用方法。首先讲解了Sentinel的核心概念，包括资源、规则和滑动窗口算法原理。然后详细介绍了各种规则类型，包括流量控制规则、熔断降级规则、热点参数规则和系统保护规则，每种规则都有其特定的适用场景。

在Spring Cloud集成部分，演示了如何在项目中引入Sentinel依赖、配置客户端连接信息、使用@SentinelResource注解定义资源以及配置blockHandler和fallback处理。Sentinel Dashboard的部署和使用部分是实践的基础，通过Dashboard可以直观地进行规则配置和监控查看。

规则持久化是生产环境的必备功能，本章介绍了如何将规则存储到Nacos配置中心，实现规则的集中管理和动态更新。最后，针对AI服务调用场景，详细介绍了流量控制策略的设计，包括API限流、线程数限制、慢调用熔断和异常比例熔断等策略，以及降级后的处理方案。

通过本章的学习，读者应该能够熟练使用Sentinel保护微服务系统，特别是在AI服务整合场景中，如何设计合理的流量控制策略来保证系统的稳定性和可用性。

附录：Sentinel完整配置参考

以下是Sentinel在Spring Cloud Alibaba环境中的完整配置示例：

spring:
  application:
    name: microservice-ai
  cloud:
    sentinel:
      # 基础配置
      enabled: true
      eager: true # 启动时立即初始化
      # Dashboard连接配置
      transport:
        dashboard: ${SENTINEL_DASHBOARD:localhost:8858}
        port: 8719 # 客户端暴露的端口
        heartbeat-interval-ms: 5000
        client-ip: ${CLIENT_IP:auto}
      # 规则数据源配置
      datasource:
        ds:
          nacos:
            server-addr: ${NACOS_SERVER_ADDR:127.0.0.1:8848}
            data-id: ${spring.application.name}-sentinel-rules
            group-id: SENTINEL_RULE_GROUP
            data-type: json
            rule-type: flow # flow, degrade, system, param-flow
      # 日志配置
      log:
        dir: /var/log/sentinel
        switch: true
        metric:
          enabled: true
          file-single-size: 5242880 # 5MB
          file-total-size: 104857600 # 100MB
# Sentinel注解配置
feign:
  sentinel:
    enabled: true
# actuator端点暴露
management:
  endpoints:
    web:
      exposure:
        include: '*'
  endpoint:
    health:
      show-details: always

Nacos中存储的完整Sentinel规则JSON示例（包含多种规则类型）：

{
  "flowRules": [
    {
      "resource": "chat-completion",
      "controlBehavior": 0,
      "count": 100,
      "grade": 1,
      "limitApp": "default",
      "strategy": 0,
      "clusterMode": false
    },
    {
      "resource": "chat-completion",
      "controlBehavior": 0,
      "count": 20,
      "grade": 0,
      "limitApp": "default",
      "strategy": 0,
      "clusterMode": false
    }
  ],
  "degradeRules": [
    {
      "resource": "chat-completion",
      "grade": 1,
      "count": 5.0,
      "slowRatioThreshold": 0.5,
      "minRequestAmount": 10,
      "statIntervalMs": 30000,
      "timeWindow": 30
    }
  ],
  "systemRules": [
    {
      "avgRt": 3000,
      "qps": 100,
      "maxThread": 50,
      "highestCpuUsage": -1,
      "highestSystemLoad": -1
    }
  ]
}