目录
- kaggle没什么可怕的。
- 简单的算法也很有效,逻辑回归打遍天下。
- 数据预处理和特征工程很重要。
Kaggle竞赛网站:
https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
1. 导入数据集
import pandas as pd
data_train = pd.read_csv('./train.tsv', sep = '\t')
data_test = pd.read_csv('./test.tsv', sep = '\t')
data_train.head()
data_train.shape
2. 构建语料库
# 提取训练集中的文本内容
train_sentences = data_train['Phrase']
# 提取测试集中的文本内容
test_sentences = data_test['Phrase']
# 构建一个语料库。通过pandas中的contcat函数将训练集和测试集的文本内容合并到一起
sentences = pd.concat([train_sentence, test_sentence])
# 合并的一起的语料库的规模
sentences.shape
# 提取训练集中的情感标签
label = data_train['Sentiment']
# 导入停词库
stop_words = open('./stop_words.txt', encoding = 'utf-8').read().splitlines()
3. 特征工程
词袋模型,TF-IDF模型,word2vec模型进行文本的特征工程

本文介绍了如何在Kaggle的电影评论情感分析比赛中使用简单的算法如多项式朴素贝叶斯和逻辑回归进行文本分类。重点强调了数据预处理、特征工程(词袋模型、TF-IDF、word2vec)以及超参数调优的重要性。通过GridSearchCV进行逻辑回归的C和dual参数优化,以提升模型在验证集的预测准确率。

1877

被折叠的 条评论
为什么被折叠?



