一、熟悉新闻推荐系统基本流程

最新推荐文章于 2025-09-20 17:57:10 发布

原创最新推荐文章于 2025-09-20 17:57:10 发布 · 2.7k 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#推荐系统

从零搭建新闻推荐系统专栏收录该内容

3 篇文章

订阅专栏

本文介绍了新闻推荐系统的环境搭建，包括使用vmware+ubuntu20.04的虚拟机环境，前端采用Vue框架，后端使用Flask。数据库涉及MySQL、MongoDB和redis。在了解项目流程后，通过爬虫（scrapy）获取新闻数据，存储在MongoDB中，进行画像处理并存入redis以提升前端展示速度。同时，文章提到了用户画像的构建，包括新老用户兴趣分析，并讨论了自动化构建的重要性。

一、悉新闻推荐系统基本流程

环境搭建：
- vmware + ubuntu20.04（虚拟机）
- 前端框架： Vue、后端框架： Flask
- 数据库： MySQL、MongoDB、redis
- IDE：vscode(个人觉得连接虚拟机或者服务器很nice）
  - vscode连接虚拟机教程
题外话：（如何拥有自己的项目？）
- 找开源项目（github）
- 第一步先配好环境
- 第二部先把人家的项目跑起来
- 看源码
- 自己尝试修改，最后复现
新闻推荐系统架构图：
- offline:
  - 最核心的一点就是要定时的得到用户另一天需要展示的推荐列表
  - 操作系统要运作起来，不可缺少的就是数据，还有就是用户的操作（交互）
  - 数据最开始的来源，只能靠爬取（因为是新闻推荐系统，所以都是从新闻网站中爬的）(scrapy)
  - 每天的物料都会落盘到MongoDB中，MongoDB中的数据格式是Json格式，增加或者删除字段非常方便
  - 爬完数据之后要做一个画像的处理，因为刚开始爬的数据比较原始。那我们做画像可能会新增一些其他的数据，比如这篇文章的热度，点击次数，收藏次数。
  - 物料画像处理，要做两部分，一部分是新来的物料，一部分是动态属性更新
  - 处理完画像之后，会把前端需要展示的一些信息存到redis中去，Redis就可以直接获取了。如果前端展示还是从MongoDB中去拉的话，展示的会更卡顿。
  - 用户画像，用户画像也分为两部分，一部分为新注册的用户，一部分老用户，用户的年龄性别，用户的长短期的一些兴趣，具体表现形式就是关于物料侧的一些标签。比如我们可以统计用户历史看的所有文章中，类别最多的那一类，可以认为用户对这一类比较感兴趣。
  - 物料的自动化构建：如果不自动化构建的话，每一步都需要人为的去操作
    - crontab
未完待续…
- 最近事挺多，先写到这，后续补上。。。
参考资料

DataWhale开源资料