movielens中的genres列有多个值,由“|”隔开,在统计的时候需要将其分割,以便统计每个电影类型,这就涉及到python中的一行转多行了。。(不知道学名叫啥。。)
目录
1. 先看一下数据
test = [{"a":1,"b":9,"genres":"Animation|Children's|Musical"},{"a":2,"b":9,"genres":"Musical|Romance"}]
test = pd.DataFrame(test)
test

2. 仅分割genres列
test["genres"].str.split('|',expand=True).stack().reset_index(level=1,drop=True).reset_index(name='genres')

看看每一步都在干啥
(1) .str.split('|', expand=True);分割并展开,缺失的为None

<

本文介绍了如何使用Python对movielens数据集中的genres列进行多值分割,演示了如何在保留不同索引列的情况下进行操作,包括设置单列、双列和多列索引。通过一步步解析代码,帮助读者理解数据处理过程。
&spm=1001.2101.3001.5002&articleId=124117687&d=1&t=3&u=7b711068602e47d29fdfb15d6f7fde2d)
1万+

被折叠的 条评论
为什么被折叠?



