有来有去9527
码龄15年
求更新 关注
提问 私信
  • 博客:78,048
    社区:200
    问答:8,984
    87,232
    总访问量
  • 28
    原创
  • 257
    粉丝
  • 110
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
加入CSDN时间: 2011-08-12
查看详细资料
个人成就
  • 获得257次点赞
  • 内容获得59次评论
  • 获得380次收藏
  • 代码片获得1,875次分享
  • 博客总排名30,842名
  • 原力等级
    原力等级
    4
    原力分
    495
    本月获得
    23
创作历程
  • 4篇
    2026年
  • 8篇
    2025年
  • 3篇
    2024年
  • 10篇
    2023年
  • 3篇
    2022年
成就勋章
TA的专栏
  • 大模型训推
    15篇
  • llm
    20篇
  • 模型评测
    1篇
  • linux
    3篇
  • tensorrt
    3篇
  • cuda
    1篇
  • torch
    3篇

TA关注的专栏 4

TA关注的收藏夹 0

TA关注的社区 1

TA参与的活动 0

兴趣领域 设置
  • 编程语言
    pythonc++
  • 开发工具
    docker
  • 人工智能
    语音识别计算机视觉目标检测pytorch图像处理
  • 游戏
    unity
  • 软件工程
    性能优化
  • 服务器
    linux
创作活动更多

「谁说嵌入式只是调包和焊板子?」—— 2026嵌入式全栈技术征锋令

谁说嵌入式只会“Ctrl+C 调包”和“拿电烙铁焊板子”?2026嵌入式全栈技术征锋令正式启幕! 本次活动专为硬核硬件/软件开发者打造,无论你是刚玩转裸机外设的萌新,还是精通RTOS调度、死磕底层驱动的行业老手,亦或是执掌系统架构的大神,这里都是你证明实力的舞台! 拒绝表面功夫,每一行代码,都有撬动硬件的力量!晒出你的硬核工程实战,为嵌入式开发者的全栈硬实力正名!

213人参与 去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

【训推框架】Vime-大规模 LLM/VLM 强化学习训练框架

vime 强化学习训练框架使用指南 vime 是专为大规模语言模型(LLM)和视觉语言模型(VLM)强化学习训练设计的开源框架,由GLM团队开发。该框架基于Megatron和vLLM构建,支持多种RL算法和训练场景。 核心功能: 支持GRPO、GSPO、Reinforce++、PPO等多种RL算法 提供异步训练架构,优化GPU利用率 支持MoE模型训练和专家并行 集成vLLM推理引擎实现高吞吐量数据生成 支持多轮交互、工具调用等Agent场景 典型应用场景: 数学推理能力强化(使用规则奖励) 代码生成与编程
原创
博文更新于 2026.06.15 ·
316 阅读 ·
10 点赞 ·
0 评论 ·
6 收藏

【模型评测】-基于 Claude-CLI 的 Agent 评测指南

本文介绍了使用EvalScope框架评测Claude模型Agent能力的指南,主要包含三种评测方案: General FC函数调用评测:适用于自定义Agent工具评测,支持JSONL格式数据集,可灵活定义工具和测试用例。 Tau2-Bench多轮对话评测:模拟真实用户交互,评估客服类Agent的任务完成能力,支持航空、零售、电信等场景。 BFCL函数调用评测:标准化函数调用评测基准,包含简单调用、多轮交互、编程语言调用等子集。 文档详细说明了各方案的实现步骤,包括环境配置、数据集格式、API调用方法和评测指
原创
博文更新于 2026.06.11 ·
164 阅读 ·
9 点赞 ·
0 评论 ·
3 收藏

大模型评测脚本 基于claude-cli

发布资源 2026.06.11 ·
py

claude-cli评测agent

发布资源 2026.06.11 ·
py

【模型评测】SWE-bench Verified数据集-1-配置评测任务

本文介绍了使用mini-swe-agent工具评测大模型在SWE-bench Verified数据集上的操作指南。主要内容包括:1) 安装步骤,通过pip安装开发模式获取两个CLI命令;2) 核心命令mini-extra swebench的参数说明及使用方法;3) 单条实例调试和批量运行模式;4) 输出结果结构说明和官方评测方法;5) 完整实操流程总结;6) 常见问题解决方法;7) 离线使用方案。该指南详细说明了从安装、测试到全量运行的完整流程,支持多种大模型评测,并提供结果验证和问题排查方法。
原创
博文更新于 2026.06.11 ·
271 阅读 ·
8 点赞 ·
0 评论 ·
4 收藏

【模型评测】SWE-bench Verified数据集-2-修复精度偏离

摘要:当评测分数低于模型发布精度时,可通过调整以下参数优化:1)提示词(影响最大),可使用不同风格配置(如详细工作流指引的backticks版本或XML格式);2)资源限制(step_limit、cost_limit、命令超时时间);3)输出格式截断阈值;4)temperature参数。排查步骤包括分析失败原因、匹配模型输出格式偏好、逐步调高资源限制。提示词调整需注意评测标准不变,但要适配模型特性,建议从小规模测试开始迭代。
原创
博文更新于 2026.05.30 ·
255 阅读 ·
5 点赞 ·
0 评论 ·
3 收藏

[服务可观测]vllm推理服务指标监控看板搭建手册

摘要:本文介绍了vLLM推理服务监控看板的搭建过程,使用Prometheus+Grafana+vLLM-metrics组件。主要内容包括:1)环境准备,详细说明了Prometheus和Grafana的安装配置步骤;2)看板配置,包含数据源添加和仪表盘导入;3)最终效果展示。通过配置Prometheus采集vLLM服务指标,结合Grafana可视化展示,实现了对vLLM推理服务的实时监控。文章提供了完整的配置文件示例和操作流程,便于快速搭建监控系统。
原创
博文更新于 2026.01.08 ·
497 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

[模型适配]-[多模态生成]-基于昇腾910B部署Qwen-Image-2512

vLLM-Omni框架扩展了多模态支持,实现文本、图像、视频和音频的并行生成。环境配置使用vLLM-Ascend镜像和GitHub代码库,成功安装所需依赖。通过启动vLLM模型推理服务和图形界面,测试了图像生成功能。此外,采用TeaCache和Cache-DiT两种加速方法优化性能,对比显示TeaCache将端到端延迟降低至基准的93.3%,Cache-DiT达到96.6%。该框架显著提升了多模态模型的推理效率。
原创
博文更新于 2026.01.08 ·
939 阅读 ·
3 点赞 ·
0 评论 ·
7 收藏

[模型适配]基于910B部署Qwen3-Reranker模型教程

基于最新vllm版本成功部署qwen3-rerank模型服务
原创
博文更新于 2026.01.08 ·
2022 阅读 ·
25 点赞 ·
0 评论 ·
16 收藏

[大模型评测]-OpenCompass本地部署手册及使用方案

本文介绍了OpenCompass大语言模型评测平台的本地部署方法及使用方案。主要内容包括:1)环境搭建,通过conda创建Python 3.10环境并安装PyTorch;2)安装OpenCompass的三种方式(pip基本/完整安装、源码安装);3)数据集准备,支持Hugging Face、ModelScope及自定义数据集;4)本地模型评测配置,包括Hugging Face模型配置文件和评测任务设置(命令行或Python脚本方式)。OpenCompass支持多种主流大模型评测,提供灵活的数据集加载和任务配
原创
博文更新于 2026.01.08 ·
1990 阅读 ·
12 点赞 ·
4 评论 ·
26 收藏

[模型部署]-[LLM]昇腾部署Qwen3-Coder-30B-A3B-Instruct

摘要:本文介绍了在Ascend NPU上部署Qwen3-Coder-30B-A3B-Instruct大模型的实践过程。通过vLLM-Ascend框架,详细说明了环境准备(CANN 8.1、PyTorch-NPU 2.5.1等)、模型下载、容器启动及服务部署步骤,包括vLLM服务的启动参数配置和接口测试方法。测试结果显示在当前2卡910B3配置下性能表现仅为8token/s(1并发),并指出流式调用时存在无法输出usage信息的问题。该方案为Ascend平台私有化部署大模型推理服务提供了参考实现。
原创
博文更新于 2026.01.08 ·
1608 阅读 ·
13 点赞 ·
2 评论 ·
3 收藏

[推理优化] 基于昇腾910B的mooncake组件部署指导手册

本文解决了vllm-ascend官方镜像环境不匹配问题,详细记录了mooncake配置vllm-ascend的完整过程。首先完成mooncake环境搭建,包括安装依赖、编译和启动服务;随后解决vllm和torch版本冲突问题,统一降级到兼容版本;最后通过lmcache benchmark测试验证效果。测试结果表明:1)不使用mooncake时,TTFT增加拐点与NPU内存容量匹配;2)使用mooncake时,TTFT增加拐点与配置的存储空间匹配;3)随着样本量增大,KV缓存需求增加,TTFT平均值趋于收敛,
原创
博文更新于 2026.01.08 ·
1786 阅读 ·
19 点赞 ·
0 评论 ·
31 收藏

[推理优化]-[量化]-大模型量化效果评价-Qwen2.5-72B

本文对Qwen2.5-72B-Instruct模型进行了量化效果评测,主要考察精度损失和推理性能。使用msit/msmodelslim工具进行w8a8和w4a16两种量化,并在evalscope工具上进行测试。结果显示:w8a8量化最大精度损失仅0.012,w4a16为0.0261;在性能方面,w8a8在8卡部署时吞吐提升1.46倍,而w4a16性能提升有限,适合并发需求低的场景。测试数据表明,w8a8量化在精度和性能间取得了较好平衡,是更优选择。
原创
博文更新于 2026.01.08 ·
1109 阅读 ·
30 点赞 ·
0 评论 ·
21 收藏

vllm服务指标prometheus模版

发布资源 2025.12.19 ·
json

【问题解决】LLM推理chat接口流式调用不输出usage信息

摘要:vLLM-Ascend部署Qwen3-Coder-30B-A3B-Instruct模型时,流式调用接口不返回usage信息。测试发现设置stream_options={"include_usage": True}无效,需参考vLLM官方代码,同时设置include_usage和continuous_usage_stats参数才能获取token统计信息。该问题涉及vLLM 0.9.2版本在Ascend环境下的特殊配置需求。
原创
博文更新于 2025.12.18 ·
844 阅读 ·
7 点赞 ·
0 评论 ·
4 收藏

qwen3-coder-30b-a3b-instruct模型config文件适配MindIE

发布资源 2025.08.11 ·
json

昇腾910B+llm量化脚本+w8a8+qwen2.5-72B

发布资源 2025.01.01 ·
py

LLM训推适配-[昇腾910B]-qwen2.5精度测试+高效推理

昇腾部署qwen2.5大模型,以及相关适配验证。
原创
博文更新于 2024.11.11 ·
5285 阅读 ·
19 点赞 ·
10 评论 ·
36 收藏

LLM训推适配-[昇腾910B]-大模型量化推理-qwen2-72B

大模型量化
原创
博文更新于 2024.09.04 ·
2623 阅读 ·
9 点赞 ·
2 评论 ·
5 收藏

LLM训推适配-[昇腾910B]-Qwen1.5-72B模型SFT

昇腾硬件大模型训练迁移。
原创
博文更新于 2024.09.03 ·
1969 阅读 ·
25 点赞 ·
2 评论 ·
29 收藏
加载更多