具身智能算法基础
文章平均质量分 95
算法原理、应用与微调部署
夜幕龙
该死的破智能制造中的咸鱼,做科研的日常,回头看忘了之前怎么做的,日常科研笔记记一记
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
扩散模型(二)——DDPM详解
本文详细解析了扩散模型(DDPM)的训练与采样算法及其数学原理。DDPM通过前向加噪过程将图像逐步转化为噪声,再通过反向去噪过程学习从噪声还原图像。核心在于:1)前向过程利用重参数化技巧直接计算任意时间步的噪声分布;2)反向过程通过变分推断和KL散度优化,将问题转化为噪声预测任务;3)采用简化的MSE损失训练网络预测噪声。最终通过从纯噪声逐步去噪生成高质量图像。该方法理论严谨且实现高效,成为当前主流的生成模型范式之一。原创 2025-08-05 15:00:00 · 3291 阅读 · 0 评论 -
扩散模型(一)——综述
本文系统梳理了扩散模型(Diffusion Models)的理论基础与技术实现。文章首先对比了VAE和GAN等传统生成模型的局限性,指出扩散模型通过模拟噪声扩散与逆扩散过程,在图像、视频生成等领域展现出显著优势。核心内容涵盖:1)理论基础,包括非平衡热力学和马尔可夫链的数学原理;2)工作原理,详细解析正向加噪和逆向去噪的双阶段过程;3)三大主流架构(DDPMs、SGMs、SDEs)的技术特点与对比;4)与传统生成模型的性能比较。文章特别强调了扩散模型在训练稳定性、样本多样性和生成质量方面的突破性进展,并提供原创 2025-08-03 22:32:31 · 2111 阅读 · 0 评论 -
深度生成模型(六)——GAN 简单项目实战 StyleGAN on CelebA
使用 PyTorch 实现了一个简化版的 StyleGAN 模型,对 CelebA 数据集进行训练,并生成新的人脸图像原创 2025-03-08 14:35:35 · 1120 阅读 · 0 评论 -
深度生成模型(五)——生成对抗网络 GAN
如何克服VAE模型的这些局限性呢?一种有效的策略是采用生成对抗网络(GAN)模型,其在图像生成领域通常能够提供更高质量的输出。GAN通过生成器与判别器之间的对抗训练,使生成器不断提升生成样本与真实数据之间的相似性,同时实现样本多样性的有效保持生成对抗网络(Generative Adversarial Network, GAN)通过两个神经网络——生成器(Generator)和判别器(Discriminator)之间的对抗训练,实现高质量样本的生成原创 2025-03-08 14:32:07 · 2230 阅读 · 0 评论 -
深度生成模型(四)——VAE 简单项目实战 VAE on CelebA
用 VAE 做一个简单的人脸图像生成任务使用 PyTorch 训练一个基于 VAE 的模型,对 CelebA 数据集进行训练,并生成新的人脸图像原创 2025-03-03 20:54:53 · 1914 阅读 · 0 评论 -
深度生成模型(三)——变分自编码器 VAE
生成式模型的基础模型主要有两种:变分自编码器(Variational Auto-Encoder, VAE)和生成对抗网络(Generative Adversari Network, GAN)VAE 通过引入隐变量z来捕捉数据的潜在结构,并利用变分推断方法来近似计算数据的似然。其目标是最大化变分下界(Evidence Lower Bound, ELBO)GAN 由生成器G和判别器D其训练过程通常采用交替优化的方式。原创 2025-03-03 20:53:46 · 3353 阅读 · 0 评论 -
深度生成模型(二)——基本概念与数学建模
上一篇笔记中提到了端到端模型底层核心采用了深度生成模型,先简单梳理一下生成式人工智能(Artificial Intelligence Generated Content,AIGC)经历了从早期基于概率模型和规则系统的方法到现代深度生成模型的跨越式发展。原创 2025-02-27 22:59:33 · 2359 阅读 · 0 评论 -
深度生成模型(一)——具身智能综述与算法分类简介
具身智能对于机器人的控制可以分为端到端模型和非端到端模型原创 2025-02-27 22:58:26 · 2319 阅读 · 0 评论 -
ViT 模型介绍(三)——简单实战项目
用 ViT 做一个简单的图像分类任务在数据集上进行图像分类。通过 Hugging Face 的 transformers 库,加载一个预训练的 ViT 模型,并使用 PyTorch 进行微调。通过训练模型,评估测试集上的准确性,并可视化部分预测结果可以将此方法应用到其他数据集或任务上,只需调整数据加载部分以及输出类别数。原创 2025-02-24 23:57:25 · 2479 阅读 · 0 评论 -
ViT 模型介绍(二)——模型架构
ViT 是一个基于 Transformer 架构的计算机视觉模型,它将 Transformer 直接应用于图像分类任务,跳脱了传统卷积神经网络(CNN)的框架ViT的核心思想是将图像转化为一维的序列数据,并将其输入到Transformer中进行处理,最终进行分类。以下是ViT模型的详细架构解析原创 2025-02-24 23:56:59 · 4504 阅读 · 0 评论 -
ViT 模型介绍(一)——综述
机器人所采用的大模型均为多模态大模型,输入至少为视觉图像及末端笛卡尔坐标系位姿,因此 ViT 算是基础模型之一在计算机视觉领域,是由谷歌团队于2020年提出的一个革命性研究成果,它成功挑战了自2012年AlexNet提出以来,卷积神经网络(CNN)在视觉任务中的主导地位ViT 的核心创新在于将 Transformer 模型直接应用于图像处理任务,彻底打破了传统计算机视觉中依赖卷积神经网络的惯例ViT的引入对计算机视觉与自然语言处理的融合起到了催化作用原创 2025-02-23 12:05:50 · 2502 阅读 · 0 评论 -
Transformer 模型介绍(六)——残差连接、线性层与损失函数
残差连接的核心思想是跳跃连接,即直接将某一层的输入x加上其输出f(x),并作为该层的最终输出。这样,即使网络变得非常深,网络的效果也不会比浅层网络差简言之,残差连接通过保持信息流动,使得网络更容易训练,并能在深层网络中保持较好的性能这种结构的优势在于,它能够帮助网络保持稳定的梯度流动,避免深层网络的退化问题。原创 2025-02-23 11:53:11 · 2148 阅读 · 0 评论 -
Transformer 模型介绍(五)——归一化 Add & Norm
Transformer模型的编码器和解码器都由6层神经网络堆叠而成。随着网络深度的增加,梯度消失和梯度爆炸问题的风险也会增加,尤其是在深度网络的训练过程中,梯度的传播可能变得非常不稳定为了解决这些问题,归一化(Normalization)被广泛应用于深度学习模型中,尤其是层归一化(Layer Normalization),它能够有效地稳定训练过程,确保模型顺利收敛原创 2025-02-16 10:35:29 · 1705 阅读 · 0 评论 -
Transformer 模型介绍(四)——编码器 Encoder 和解码器 Decoder
上篇中讲完了自注意力机制 Self-Attention 和多头注意力机制 Multi-Head Attention,这是 Transformer 核心组成部分之一,在此基础上,进一步展开讲一下编码器-解码器结构(Encoder-Decoder Architecture)原创 2025-02-16 00:29:56 · 8033 阅读 · 0 评论 -
Transformer 模型介绍(三)——自注意力机制 Self-Attention
在本篇文章中,我们将逐步深入探讨 Transformer 模型的架构,以机器翻译任务为例,输入是一种语言的句子,输出是另一种语言的句子。我们将从整体架构入手,逐步拆解模型的各个组件原创 2025-02-15 17:25:24 · 4461 阅读 · 4 评论 -
Transformer 模型介绍(二)——位置编码 Position Embedding
为了引入序列的顺序信息,Transformer 模型在处理输入序列时使用了位置嵌入(也称为位置编码,Position Embedding)。位置嵌入是一种将单词的位置信息嵌入到输入词向量中的方法,通过额外的向量来表示单词之间的距离,从而提供顺序信息位置嵌入的作用:提供顺序信息:位置嵌入为每个单词的位置生成一个唯一的向量表示,使得模型能够区分不同位置的单词结合语义信息:位置嵌入的向量会与输入的词向量相加,从而在模型中同时考虑单词的语义信息和位置信息原创 2025-02-14 12:01:49 · 2637 阅读 · 0 评论 -
Transformer 模型介绍(一)——综述
transformer 是一种完全基于注意力机制的神经网络模型,首次在2017年的论文中提出。该模型最初用于机器翻译任务,并在特定任务中表现优于谷歌的其他神经网络机器翻译模型。Transformer 也是 Seq2Seq(序列到序列)结构的模型,但与之前基于 RNN(循环神经网络)的 Seq2Seq 模型相比,Transformer 具有更好的并行性,能够显著提高模型的训练和推理速度原创 2025-02-13 23:43:21 · 2796 阅读 · 0 评论
分享