22. [进阶] 扣子(coze)教程 | 小红书新闻日报自动生成，手把手教你全自动抓取网页数据 + 日报生成

原创

已于 2025-06-13 09:16:48 修改 · 2.6k 阅读

·

33

·

标签

#大数据 #人工智能

于 2025-06-13 08:52:56 首次发布

大师兄之前写过了一些关于扣子编程的文章。并对扣子编程分了[极简]，[实用]，[进阶]三个阶段。之前的文章主要集中在[极简]的初级阶段，为了让大家可以从零开始学习扣子编程的基本内容。

今天大师兄想写一篇稍微 [进阶]一点的例子。这个例子中结合了扣子编程平台的很多的基本组件。还包含了使用python脚本制作自定义组件的内容。

实例描述

今天大师兄写一个例子，从一个AI信息网站中读取当天的所有新闻链接，使用AI进行归纳总结出5篇新闻稿并做出一份小红书格式的新闻日报。

先上一张生成后的日报效果，看起来还是有模有样的。

创建工作流

流程描述

完成后的工作流在这里（稍微宽了一点，可以点击图片放大观看），结构还是比较清晰简单的。用到了比较多的组件类型。

主页读取

首先进行主页内容的读取。我们使用了HTTP组件。

在GET参数中设置为“开始”节点的input参数。

内容链接获取

从上一个组件中获取的是网页的html内容。我们要从中分离出内容页面的链接。

首先打开浏览器，F12。进入开发模式。使用工具可以看到链接的格式都是 /p/XXXXXXXXX

没个网页其实格式是不同的。所以我们这里使用了代码模块，插入一些python脚本来提炼内容。

使用正则表达式抽取页面中所有符合 /p/XXXXXXXXX 格式的内容。

循环读取内容

接下来就需要对每一个链接进行读取，获取其中的内容。

在循环体中：

拼装网址（因为获取的是相对网址）。
读取网页内容
将网页内容调整为我们需要存储的格式。

网址拼接

之前使用代码模块获取的链接都是 /p/XXXX 格式的。要访问真正的网址需要加上首页的地址。比如我们的首页是 https://www.36kr.com 网址是 /p/123456 那实际的网址就是

https://www.36kr.com/p/123456

这个组件就可以将字符串拼接起来。

内容读取

内容读取我们就使用linkReaderPlugin。输入使用拼接的字符串。

格式整理

这一步非常关键，因为在后续的大模型新闻总结/生成过程中还是要读取这些标题和内容的。所以这里需要一个统一格式转换以便后续使用。

将上一步输出的标题（title）和内容（content）。修改加入一个field的object中，这样后续的大模型可以读取field字段来获取信息。

获取当前日期

这一步添加一个组件获取今日的日期。（注意不要使用大模型来直接获取当天时间，大模型有幻觉，没有能力直接获取当天的日期）

添加大模型

在这一步添加一个大模型，输入为之前循环中输出的内容，以及当天的日期。

通过提示词生成标准的日报格式以及内容。

创建应用

为了使用起来更加方便，就新建一个应用，包含这个工作流，这样就可以直接使用了。

发布工作流

为了要在智能体中引用我们的工作流，先要将刚刚制作的工作流进行发布。

创建智能体

在“项目开发”中创建一个智能体。

添加自建工作流

在新建的智能体中添加我们的工作流。

测试

在智能体中打入“日报生成”，大模型就会自动调用工作流，并将生成的图片链接显示出来，点击图片链接就可以看到新闻的日报了。

总结

今天大师兄演示了一个使用飞书扣子平台自动读取新闻网站内容，并且自动创建日报的例子。在这个例子中使用到了许多的组件，其中也包括了在代码组件中用到了一小段python的代码来进行格式的转换。

此类稍复杂的应用都是基于之前的简单模块进行不断迭代生成的。所以前期的系统学习和实践是非常有必要的。循序渐进才能发生质变。

历史文章检索：

扣子（coze）编程

21.「实用」| 扣子智能体一键秒变微信小程序，手把手教你小程序发布

20.「实用」扣子(coze)教程 | 工作流组件升级教程，一键封装工作流（一）

19.「实用」扣子(coze)教程 | 口播内容秒变逐字稿，抖音口播转文字全攻略！手把手教程

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。