【深度学习基础】数据集&评估指标

最新推荐文章于 2026-04-15 11:04:57 发布

原创

最新推荐文章于 2026-04-15 11:04:57 发布 · 1.4k 阅读

标签

#深度学习 #人工智能

基础目录

一、数据集
二、评估指标

一、数据集

在机器学习和自然语言处理（NLP）领域中，数据通常被分成三个文件：train.tsv、dev.tsv和test.tsv，并放在一个名为data的目录下。这种划分有助于模型的训练和评估。

train.tsv：训练数据集

用于训练机器学习模型。这个文件包含大部分的数据，模型通过学习这些数据中的模式和关系来调整其参数。

dev.tsv：开发数据集（也称验证数据集）

用于模型的验证和调优。训练过程中，模型会在dev数据集上进行验证，以评估其在未见过的数据上的表现，并用于调整超参数和防止过拟合。

test.tsv：测试数据集

用于最终评估模型的性能。在模型训练和调优完成后，使用test数据集来评估模型的泛化能力，确保模型在实际应用中具有良好的表现。

二、评估指标

评估指标
在文本分类任务中，常用的评估指标包括：
损失（Loss）：模型在验证集上的平均损失。
准确率（Accuracy）：分类正确的样本数占总样本数的比例。
精确率（Precision）：分类器预测为正类的样本中实际为正类的比例。
召回率（Recall）：实际为正类的样本中被正确分类的比例。
F1分数（F1 Score）：精确率和召回率的调和平均数。

import pandas as pd
from sklearn.model_selection import train_test_split
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
import torch
from torch.utils.data import Dataset
import numpy as np
from sklearn.metrics import accuracy_score, precision_recall_fscore_support

# 读取数据
data = pd.read_csv('/mnt/data/processed_example2.txt', delimiter='\t', header=None, names=['Sentence', 'Label'])

# 标签映射
label_map = {
   
   1: 0, 2: 1, 3:

最低0.47元/天解锁文章