什么是合成数据 (Synthetic Data)？

最新推荐文章于 2025-07-07 17:53:52 发布

原创

最新推荐文章于 2025-07-07 17:53:52 发布 · 8.9k 阅读

·

2

·

标签

#人工智能 #数据挖掘 #big data

企业在部署人工智能时，往往会遇到数据获取困难、成本高昂，或采集的数据根本不可用等挑战。研究人员在2018年曾发现，顶尖的面部识别软件在识别肤色较深的人时，错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个种群的子集。在这种情况下，合成数据可以提供一种令人信服的解决方案。

合成数据是通过计算机程序人工生成的数据，而不是由真实事件产生的数据。企业可以通过使用合成数据填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求。随着计算能力的提高和云数据存储的崛起，比以往更容易获取的合成数据无疑是推动AI部署的一股积极力量。

为什么要使用合成数据？

改进模型的可靠性

无需采集更多数据，即可为模型获取更多样化的数据。合成数据可以用同一个人的不同发型、头部姿势等来训练模型，还能以肤色、种族特征、骨骼结构等特征创造出不同面孔，使模型变得更加可靠。

比“真实”数据获取更快

团队可以在短时间内生成大量的合成数据。当真实数据依赖于很少发生的事件时，这一点尤其有帮助，例如自动驾驶场景下的极端路况。数据科学家还可以设置算法，在合成数据创建时自动进行标注，从而减少标注过程的耗时。

边缘案例的补充

机器学习算法更喜欢均衡的数据集。例如补充肤色较深的面孔合成数据，不仅可以使模型的准确度提高，还会生成更符合道德标准的模型。合成数据可以帮助团队涵盖更多数据不足或根本不存在的边缘用例。

保护用户的个人信息

根据行业和数据类型的不同，企业在

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。