当前,科学研究正经历由人工智能驱动的深刻范式变革。随着观测技术精密化、数值模拟复杂化与计算基础设施规模化,高校与科研院所的研究者普遍面临三重挑战:海量异构数据的清洗分析耗时费力,传统方式难以应对数据指数级增长;深度学习、Transformer等前沿AI模型架构复杂、调参门槛高,对非计算机背景研究者形成障碍;从科研灵感到论文产出涉及文献综述、实验设计、数据分析、图表制作等多个环节,转化链条漫长。在此背景下,本文旨在为一线研究者提供从Python编程到PyTorch深度学习、从经典机器学习到Transformer与扩散模型前沿的完整技术进阶路径,帮助系统掌握AI赋能科研的核心方法论,实现从"人工编程"到"智能体自动化"的科研能力跃迁。以"全栈技能筑基、效率工具赋能、智能体自动化提效"为三大支柱,构建兼具学术严谨性与工程实用性的培养体系。全栈技能层面,从Python高阶编程出发,系统讲授XGBoost、LightGBM、随机森林等经典ML算法,深入CNN、ResNet、U-Net、自编码器与变分自编码器等DL核心架构,并延伸至Transformer注意力机制、GAN、扩散模型等前沿生成式AI技术;同时以科学问题为牵引,强化SHAP可解释分析、LIME局部解释与因果推断方法,确保模型具备科学依据与可解释性。效率革命层面,前瞻引入Vibe Coding氛围编程与上下文工程技术,通过自然语言与大模型协同编程,让AI精准理解领域数据并自动生成分析代码与科研图表,告别重复编码,效率提升十倍以上。科研自动化层面,深度讲解Hermes智能体工作流构建,通过Skill架构连接本地数据库与计算环境,实现"一句话科研需求→自动化数据清洗→多维度归因分析→假设检验→报告生成"的端到端流水线。课程配备9大实战案例,覆盖图像光谱分析、时空序列预测、科学归因探索、论文Idea生成等真实场景,融合"传统统计思想×现代深度学习×大模型自动化"三重视角,不仅教授算法原理,更教您高效指挥AI完成科研任务,打通从算法理解到科研落地的最后一公里。
专题一、Python核心编程与Hermes智能体开发环境配置
Python核心基础速通
1.Anaconda/UV环境管理
2.Spyder编辑器的使用
3.虚拟环境创建与包管理(pip vs conda)
4.Python基础数据结构:列表,字典与元组
5.OOP编程基础:类与实例、属性与方法,继承、多态与抽象基类,魔术方法
6.Python容器进阶:列表推导式与生成器表达式, 字典推导式与集合操作
7.Hermes Agent的安装与初步应用
案例分析与实践(一)
专题二、经典机器学习全链路:数据预处理、集成学习与SVM算法
1.类型识别:定性,定序,定距以及定比数据;外生与内生变量
2.异常值:Z-Core,IQR
3.缺失值:删除,填充,模型预测,MICE方法
4.数据不平衡的处理:过采样,欠采样与混合策略
5.分类:分类任务,分类任务性能指标,召回率,AUC
6.回归:分类与回归的区别,损失函数,正则化技术
7.决策树:分类回归树,分裂策略,正则化剪枝(参数调优)
8.随机森林:装袋树,特征随机性,袋外估计,特征重要性度量
9.梯度提升树:XGBoost、LightGBM、CatBoost,梯度提升树的调优策略
10.支持向量机(SVM):理论基础,最大间隔分类器,软间隔与硬间隔
11.支持向量机:核函数及其本质,常用核函数,支持向量回归,
12.堆叠集成(Stacking)与超参数调优
案例分析与实践(二)
专题三、大模型数据分析:上下文工程、RAG检索增强与智能代码生成
1.大模型推理机制深度解析:Tokenization、上下文窗口、影响模型表现的参数
2.提示词工程的核心:Prompt、Completion、System Message三元组架构
3.常见大语言模型的性能差异与适配策略:语言模型、多模态模型
4.数据上下文的"三次表达"法则:元数据、样本与关系
5.数据分析角色的精准定义:角色光谱、约束输入与输出格式限制
6.提示词工程的示例策略
7.大语言模型的本地化选择:Ollama,vllm,sglang等
8.表格数据的上下文压缩:分层抽样上下文,自动数据画像的提示词
9.上下文分块与检索增强生成技术:让数据分析更加专业
10.数据分析提示词设计:描述性统计的提示词,假设检验上下文工程,时间序列分析上下文工程等等
11.数据建模的代码生成与调试
案例分析与实践(三)
专题四、可解释机器学习:SHAP值分析、LIME与PDP模型诊断技术
1.全局变量重要性:置换重要性,基尼重要性,分裂增益重要性
2.部分依赖图(PDP)与个体条件期望
3.局部代理模型解释框架:代理模型,LIME
4.SHAP理论基础:博弈论基础与夏普利值,SHAP解释体系的构建
5.高效SHAP的计算:基于树模型的计算方法(TreeSHAP)与模型无关算法(KernelSHAP)
6.特征相关的处理:Conditional SHAP与因果SHAP
7.交互效应:H 统计量与多维可视化
案例分析与实践(四)
专题五、PyTorch深度学习框架、张量运算、自动微分与神经网络构建
1. Tensor基础与创建:张量(Tensor) vs 数组(Array)vs矩阵(Matrix)概念辨析及转换
2.Pytorh数据类型与张量创建
3.张量的基本操作与设备指定
4.张量索引与切片的高级技巧
5.张量的维度与操作
6.计算图与梯度基础
7.自动微分与反向传播
8.常见Pytorch错误诊断
9. nn.Module基类与模型构建
10.常见神经网络层:线性层、池化层、卷积层与正则化层
11.激活函数选择
12.损失函数与优化器
13.模型保存与加载
案例分析与实践(五)
专题六、Vibe Coding氛围编程:AI协同开发与人机代码审查
氛围编程:不用写代码的编程技术
1.什么是氛围编程:定义,适用范围,人机分工的模式
2.工具链与大语言模型配置与选择策略
3.代码库的上下文管理
4.编程需求的结构化模板
5.代码质量控制:幻觉检测,人机Code Review
6.代码调试与修复策略
7.安全策略检查清单
案例分析与实践(六)
专题七、深度学习核心架构:CNN、自编码器与U-Net图像模型
1.多层感知机(MLP):层间连接,深度与宽度权衡,图像数据预处理
2.激活函数深度比较与选择:Sigmoid,Tanh,Relu,ELU,GELU等
3.正则化与优化策略:Dropout机制,批归一化,权重矩阵约束
4.自编码器(AE):无监督降维与特征提取,编码-解码架构,瓶颈层设计
5.变分自编码器(VAE):生成模型,变分下界,重参数化,图像的VAE应用
6.卷积神经网络基础:局部感知,卷积的本质,权值共享机制
7.卷积层设计要点:感受野的计算,空洞卷积,分组卷积
8.CNN架构,LeNet,AlexNet,残差学习,ResNet
9.U-Net 架构:上采样,下采样与跳跃连接,U-Net的训练技术
10.U-Net扩展:多输出,物理约束,半监督学习与半监督U-Net
案例分析与实践(七)
专题八、深度学习进阶:Transformer、GAN与扩散模型前沿
1.RNN:时序展开,随时间反向传播,梯度消失,长期依赖,双向RNN
2.门控循环单元:细胞状态,遗忘门,输入门,输出门
3.LSTM与GRU:记忆机制对比与选择策略
4.注意力机制:自注意力,交叉注意力,全局与局部注意力
5.Transformer:多头自注意力,残差连接与层归一化,位置编码,掩码自注意力与因果建模
6.Swin Transformer:层次视觉与移位窗口
7.生成对抗网络(GAN):极大极小博弈,生成器,判别器与价值函数
8.ConvLSTM、PredRNN ,SWIN TRANSFORMER等时空预测架构
9.扩散模型介绍
案例分析与实践(八)
专题九、Hermes智能体科研自动化:技能进化、多Agent协作与知识沉淀
Hermes Agent从私有化部署到智能体自我进化:本地化深度研究助手的构建
1.从静态配置到动态进化:AI Agent能力获取范式的跃迁
2.Hermes Agent运行时架构解析
3.技能蒸馏与自动化编程:从任务执行到Python Skills的生成与优化
4.子代理的设置:Delegate与Profile
6.子Agent并行策略:任务拆解、隔离执行与结果聚合机制
7.知识沉淀的自动化策略:Skills版本控制、冲突解决与长期进化路径
8.自动本地化科研助手的典型应用场景
案例分析与实践(九)


294

被折叠的 条评论
为什么被折叠?



