基于PySpark的电影推荐引擎

相关知识

推荐引擎是最常见的机器学习应用,我们可以在各大购物网站上看见这方面的应用。

Spark MLlib支持ALS(Alternating Least Squares)推荐算法,是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法通过观察所有用户给产品的评价来推断每个用户的喜好,并向每个用户分别推荐多个合适的产品,也可以把某个产品推荐给多个用户。

image

系统环境

Linux Centos7
Python 3.7.3
Anaconda
Spark2.4.2
IPython Notebook

任务步骤

前期准备

  1. 将hadoop相关服务打开

在hadoop/sbin目录下./start-all.sh

  1. 启动mysql服务
  2. 将文件上传到hdfs中

命令:hadoop fs -put /ml-100k(ml-100k的目录) /

  1. 开启PySpark

代码调试

我们使用sc.textFile读取ml-100k

我们使用sc.textFile读取HDFS上的ml-100k数据集中的u.data,并且查看数据项数

rawUserData = sc.textFile("hdfs://172.18.74.236:9000/ml-100k/u.data")  
rawUserData.count()  

从以上运行结果中可以看到共有100000项评分数据。

查看u.data第一项数据
rawUserData.first()  

以上4个字段分别是:用户id、项目id、评分、日期时间,\t为分隔符。

导入Rating模块
from pyspark.mllib.recommendation 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值