企业在部署人工智能时,往往会遇到数据获取困难、成本高昂,或采集的数据根本不可用等挑战。研究人员在2018年曾发现,顶尖的面部识别软件在识别肤色较深的人时,错误率高达34%。原因就在于用于训练这些模型的数据缺少一整个种群的子集。在这种情况下,合成数据可以提供一种令人信服的解决方案。

合成数据是通过计算机程序人工生成的数据,而不是由真实事件产生的数据。企业可以通过使用合成数据填补潜在或边缘的使用场景、节省数据采集成本及满足隐私要求。随着计算能力的提高和云数据存储的崛起,比以往更容易获取的合成数据无疑是推动AI部署的一股积极力量。
为什么要使用合成数据?
改进模型的可靠性
无需采集更多数据,即可为模型获取更多样化的数据。合成数据可以用同一个人的不同发型、头部姿势等来训练模型,还能以肤色、种族特征、骨骼结构等特征创造出不同面孔,使模型变得更加可靠。
比“真实”数据获取更快
团队可以在短时间内生成大量的合成数据。当真实数据依赖于很少发生的事件时,这一点尤其有帮助,例如自动驾驶场景下的极端路况。数据科学家还可以设置算法,在合成数据创建时自动进行标注,从而减少标注过程的耗时。
边缘案例的补充
机器学习算法更喜欢均衡的数据集。例如补充肤色较深的面孔合成数据,不仅可以使模型的准确度提高,还会生成更符合道德标准的模型。合成数据可以帮助团队涵盖更多数据不足或根本不存在的边缘用例。
保护用户的个人信息
根据行业和数据类型的不同,企业在


4493

被折叠的 条评论
为什么被折叠?



