相关知识
推荐引擎是最常见的机器学习应用,我们可以在各大购物网站上看见这方面的应用。
Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法通过观察所有用户给产品的评价来推断每个用户的喜好,并向每个用户分别推荐多个合适的产品,也可以把某个产品推荐给多个用户。

系统环境
Linux Centos7
Python 3.7.3
Anaconda
Spark2.4.2
IPython Notebook
任务步骤
前期准备
- 将hadoop相关服务打开
在hadoop/sbin目录下./start-all.sh
- 启动mysql服务
- 将文件上传到hdfs中
命令:hadoop fs -put /ml-100k(ml-100k的目录) /
- 开启PySpark
代码调试
我们使用sc.textFile读取ml-100k
我们使用sc.textFile读取HDFS上的ml-100k数据集中的u.data,并且查看数据项数
rawUserData = sc.textFile("hdfs://172.18.74.236:9000/ml-100k/u.data")
rawUserData.count()

从以上运行结果中可以看到共有100000项评分数据。
查看u.data第一项数据
rawUserData.first()

以上4个字段分别是:用户id、项目id、评分、日期时间,\t为分隔符。
导入Rating模块
from pyspark.mllib.recommendation


1812

被折叠的 条评论
为什么被折叠?



