一、悉新闻推荐系统基本流程
-
环境搭建:
- vmware + ubuntu20.04(虚拟机)
- 前端框架: Vue、 后端框架: Flask
- 数据库: MySQL、MongoDB、redis
- IDE:vscode(个人觉得连接虚拟机或者服务器很nice)
-
题外话:(如何拥有自己的项目?)
- 找开源项目(github)
- 第一步先配好环境
- 第二部先把人家的项目跑起来
- 看源码
- 自己尝试修改,最后复现
-
新闻推荐系统架构图:

- offline:
- 最核心的一点就是要定时的得到用户另一天需要展示的推荐列表
- 操作系统要运作起来,不可缺少的就是数据,还有就是用户的操作(交互)
- 数据最开始的来源,只能靠爬取(因为是新闻推荐系统,所以都是从新闻网站中爬的)(scrapy)
- 每天的物料都会落盘到MongoDB中,MongoDB中的数据格式是Json格式,增加或者删除字段非常方便
- 爬完数据之后要做一个画像的处理,因为刚开始爬的数据比较原始。那我们做画像可能会新增一些其他的数据,比如这篇文章的热度,点击次数,收藏次数。
- 物料画像处理,要做两部分,一部分是新来的物料,一部分是动态属性更新
- 处理完画像之后,会把前端需要展示的一些信息存到redis中去,Redis就可以直接获取了。如果前端展示还是从MongoDB中去拉的话,展示的会更卡顿。
- 用户画像,用户画像也分为两部分,一部分为新注册的用户,一部分老用户,用户的年龄性别,用户的长短期的一些兴趣,具体表现形式就是关于物料侧的一些标签。比如我们可以统计用户历史看的所有文章中,类别最多的那一类,可以认为用户对这一类比较感兴趣。
- 物料的自动化构建:如果不自动化构建的话,每一步都需要人为的去操作
- crontab
- offline:
-
未完待续…
- 最近事挺多,先写到这,后续补上。。。
-
参考资料
本文介绍了新闻推荐系统的环境搭建,包括使用vmware+ubuntu20.04的虚拟机环境,前端采用Vue框架,后端使用Flask。数据库涉及MySQL、MongoDB和redis。在了解项目流程后,通过爬虫(scrapy)获取新闻数据,存储在MongoDB中,进行画像处理并存入redis以提升前端展示速度。同时,文章提到了用户画像的构建,包括新老用户兴趣分析,并讨论了自动化构建的重要性。

4505

被折叠的 条评论
为什么被折叠?



