人工智能与机器学习基本概念知识入门

一.人工智能概述

1.人工智能的定义

定义: 让机器模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门技术科学。简单说,就是让机器像人一样思考、学习、推理、决策和解决问题

目标: 创建能够执行通常需要人类智能才能完成的任务的系统。

范围: 非常广泛,包含机器学习、深度学习、计算机视觉、自然语言处理、机器人学、专家系统、规划、推理、知识表示等众多子领域。

类比: 就像“智能”本身是一个宽泛的概念一样。

        人工智能(AI)指通过计算机系统模拟人类智能行为的科学与工程。其目标是使机器具备以下能力:

感知(如视觉、语音识别)

推理(逻辑分析、决策)

学习(从数据中自我优化)

解决问题(处理复杂任务)

交互(自然语言对话、协作)

2.人工智能的发展历程

时期里程碑事件
1950s图灵提出“图灵测试”,达特茅斯会议确立AI概念
1980s专家系统兴起(用规则模拟人类知识)
1990s机器学习成为主流(数据驱动取代规则编程)
2010s至今深度学习爆发(算力+大数据推动AI革命)

3.AI的典型应用场景

领域应用案例
医疗医学影像分析、药物研发辅助
金融欺诈检测、量化交易、风险评估
交通自动驾驶、智能交通调度
消费电子语音助手(Siri/Alexa)、推荐系统
工业预测性设备维护、智能制造
内容创作AI绘画(Midjourney)、文本生成(GPT)

二.人工智能技术的主要分支

1. 机器学习(ML)

定义:让计算机通过数据自动学习规律,无需显式编程。

类型

  • 监督学习(带标签数据,如分类/回归)

  • 无监督学习(无标签数据,如聚类)

  • 强化学习(环境反馈优化决策,如AlphaGo)

2. 深度学习(DL)

本质:基于多层神经网络的机器学习。

突破领域

  • 计算机视觉(图像识别、人脸检测)

  • 自然语言处理(机器翻译、ChatGPT)

3. 其他关键技术

知识图谱:结构化表示现实世界关系(如谷歌搜索)

机器人技术:物理世界感知与行动(如工业机器人)

计算机视觉:让机器“看懂”图像/视频

机器学习是人工智能的一个实现途径,深度学习是人工智能的一个方法发展而来

三.人工智能发展的必备三要素

1. 数据(Data)—— AI的“燃料”

核心作用

  • 训练模型的基础原料,决定AI的认知边界
  • 数据质量直接影响模型性能(Garbage in, garbage out)

关键要求

  • 规模性:深度学习需海量数据(如GPT-3训练数据达45TB)
  • 多样性:覆盖多场景避免模型偏见(如医疗AI需包含不同人种病例)
  • 标注质量:监督学习依赖精准标注(ImageNet数据集含1400万人工标注图)

数据集的介绍:

一行的数据我们称为一个样本,一列数据我们称为一个特征。

常见的数据类型的构成有:

  • 特征值+目标值
  • 只有特征值,没有目标值

数据划分:

  • 训练数据(训练集)-- 构建模型
  • 测试数据(测试集)-- 测试模型

2. 算法(Algorithms)—— AI的“大脑”

核心作用

  • 将数据转化为智能决策的数学逻辑
  • 决定AI的学习效率和能力上限

演进关键

  • 传统ML算法:SVM、决策树(解决结构化数据问题)
  • 深度学习革命
    • CNN(2012年AlexNet引爆图像识别)
    • Transformer(2017年推动NLP跨越发展,支撑ChatGPT)
  • 强化学习:AlphaGo自我博弈突破人类棋艺

3. 算力(Computing Power)—— AI的“发动机”

核心作用

  • 支撑复杂模型训练与实时推理

  • 算力成本决定AI应用可行性

技术演进

时代算力载体算力提升关键
2010年前CPU摩尔定律
2012-2018GPU(NVIDIA)并行计算架构
2019至今TPU/ASIC芯片专用硬件设计

现状需求

  • 大模型训练需超算级集群(GPT-3训练耗电≈120个家庭年用电量)

  • 边缘计算推动终端芯片革新(自动驾驶芯片算力达1000+TOPS)

四.机器学习工作流程

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

1.数据基本处理

主要包括问题定义,数据收集,数据预处理等。

(1).问题定义(Problem Formulation)

核心任务:将业务需求转化为机器学习可解决的问题

关键步骤

  1. 明确目标(如预测用户流失、识别欺诈交易)

  2. 确定问题类型:

    • 分类(Classification)→ 离散结果(是/否)

    • 回归(Regression)→ 连续数值(房价、销量)

    • 聚类(Clustering)→ 无标签分组

  3. 定义评估指标:

    • 分类:准确率、精确率、召回率、F1-score、AUC-ROC

    • 回归:MAE(平均绝对误差)、RMSE(均方根误差)、R²

(2).数据收集(Data Collection)

数据来源

  • 结构化数据:数据库(MySQL)、数据仓库(Hive)

  • 非结构化数据:日志文件、图像、文本、传感器流

关键原则

  • 覆盖场景:包含正负样本(如欺诈交易与非欺诈交易)

  • 时间连贯性:训练/测试数据需按时间划分(避免未来数据泄漏)

(3).数据预处理(Data Preprocessing)

占整个项目60%以上时间,核心目标是构建干净、一致的数据集

任务方法说明
缺失值处理删除样本/列、均值填充、插值法、预测模型填充金融数据常用多重插补(MICE)
异常值处理IQR法、Z-Score、孤立森林谨慎删除(可能包含重要模式)
数据标准化Min-Max缩放、Z-Score标准化加速梯度下降收敛
类别编码One-Hot编码、标签编码(Label Encoding)树模型可直处理类别特征
不平衡数据处理SMOTE过采样、欠采样、类别权重调整医疗诊断需保留少数类样本完整性

2.特征工程

目标:从原始数据中提炼对预测有用的信息,使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

关键技术

  1. 特征构造

    • 时间序列:生成“星期几”、“是否节假日”

    • 文本数据:TF-IDF、词向量(Word2Vec)

  2. 特征选择

    • 过滤法:相关系数、卡方检验

    • 包裹法:递归特征消除(RFE)

    • 嵌入法:L1正则化(Lasso)、树模型特征重要性

  3. 维度约简

    • PCA(主成分分析)、t-SNE(高维可视化)

黄金法则:一个优秀的特征比复杂的模型更有效

3.机器学习(算法的分类)

(1).监督学习

定义:输入数据是由特征值和目标值组成的

任务类型代表算法特点说明典型应用场景
分类逻辑回归线性决策边界,可解释性强垃圾邮件检测
决策树可处理类别特征,易过拟合贷款审批
随机森林集成多树,抗过拟合医疗诊断
SVM高维空间找最优超平面图像分类
朴素贝叶斯基于概率,文本处理高效情感分析
回归线性回归拟合线性关系房价预测
多项式回归捕获非线性趋势商品销量预测
梯度提升树(GBRT)迭代优化,预测精度高广告点击率预估

(2).无监督学习

定义:输入的数据由输入的特征值组成

任务类型代表算法特点说明典型应用场景
聚类K-Means球形簇,需指定K值客户分群
DBSCAN发现任意形状簇,抗噪声异常检测
层次聚类树状结构,无需预设簇数生物物种分类
降维PCA线性投影保留最大方差人脸识别预处理
t-SNE非线性保留局部结构高维数据可视化
关联Apriori发现频繁项集购物篮分析

(3).半监督学习

特点少量标签+大量无标签数据协同训练
典型算法

  • 标签传播:基于图结构扩散标签(社交网络分析)

  • 半监督SVM:利用无标签数据调整决策边界(医学影像分类)

  • 自训练:用模型预测结果扩充训练集(低成本文本分类)

优势

降低90%+标注成本,在医疗影像、语音识别等领域应用广泛

算法类型原理说明优势场景
标签传播基于图结构扩散少量标签社交网络用户分类
半监督SVM用未标注数据调整决策边界医学影像标注不足时
自训练用模型预测结果扩充训练集文本分类低成本场景

(4). 强化学习(Reinforcement Learning)

实质是,make decisions问题,即自行进行决策,并且可以做连续决策

特点:智能体通过环境反馈学习最优策略
经典算法演进

算法类型关键机制突破性应用
Q-Learning学习状态-动作价值函数机器人路径规划
DQN神经网络逼近Q值函数Atari游戏通关
策略梯度(PG)直接优化策略函数连续控制(如机械臂)
A3C异步多线程加速训练复杂3D环境导航

4.模型评估

        模型评估是模型开发过程中不可缺少的一部分,它有助于发现表达数据的最佳模型和所选模型的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

(1).监督学习评估指标

分类任务:

关键指标对比

指标公式适用场景缺陷
准确率(Accuracy)(TP+TN)/(TP+FP+TN+FN)均衡数据不平衡数据失效
精确率(Precision)TP/(TP+FP)抑制误报(垃圾邮件过滤)忽略FN漏报风险
召回率(Recall)TP/(TP+FN)避免漏报(癌症筛查)可能放大误报
F1-Score2×Precision×Recall/(Precision+Recall)平衡精确率与召回率无法区分业务代价差异
AUC-ROCROC曲线下面积综合评估分类器性能对均衡数据不敏感

回归任务:

指标公式特点
MAEΣ|y_true - y_pred|/n直观反映平均误差
MSEΣ(y_true - y_pred)²/n放大大误差(惩罚离群点)
RMSE(均方根误差)√MSE量纲与原始数据一致
1 - Σ(y_true-y_pred)²/Σ(y_true-ȳ)²解释方差比例,越接近1越好

关键提示:预测房价时RMSE=5万,意味着68%预测值在真实值±5万内(正态分布假设)

(2).无监督学习评估

1. 聚类评估
方法类型指标原理
内部评估轮廓系数(Silhouette)衡量样本与自身簇/其他簇距离
戴维斯堡丁指数(DBI)簇内紧密度/簇间分离度
外部评估调整兰德指数(ARI)对比聚类结果与真实标签
2. 降维评估
  • 可解释方差比:PCA保留信息量(>85%达标)

  • 重建误差:自编码器重建原始数据的能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值