一项新的研究表明,应该为合成数据的生成和处理制定明确的指导方针,以确保透明度、问责制和公平性。
通过机器学习算法从原始现实世界数据生成的合成数据正在变得越来越重要,因为它可以为传统数据源提供保护隐私的替代方案。 在实际数据太敏感而无法共享、太稀缺或质量太低的情况下,它特别有用。
合成数据与现实世界的数据不同,因为它是由称为合成数据生成器的算法模型生成的,例如生成对抗网络或贝叶斯网络。
该研究警告说,仅适用于个人数据的现有数据保护法不足以规范所有类型合成数据的处理。
GDPR 等法律仅适用于个人数据的处理。 GDPR 对个人数据的定义包括“与已识别或可识别的自然人相关的任何信息”。 然而,并非所有合成数据集都是完全人造的——有些可能包含个人信息或存在重新识别的风险。 原则上,完全合成的数据集不受 GDPR 规则的约束,除非有可能重新识别。
目前尚不清楚什么程度的重新识别风险足以触发它们在完全合成数据处理的背景下的应用。 这给处理此类数据集带来了法律上的不确定性和实际困难。
埃克塞特大学 Ana Beduschi 教授的这项研究发表在《大数据与社会》杂志上。
它表示,应该有明确的程序来追究那些负责合成数据生成和处理的人的责任。 应该保证合成数据的生成和使用不会对个人和社会带来不利影响,例如延续现有偏见或创造新偏见。
Beduschi 教授表示:“应该为所有类型的合成数据制定明确的指导方针。他们应该优先考虑透明度、问责制和公平性。拥有这样的指导方针对于生成人工智能和高级语言模型(例如 DALL-E 3 和 GPT-4)尤其重要 – – 既可以接受培训,也可以生成合成数据 – 可能会促进误导性信息的传播,并对社会产生有害影响,因此,遵守这些原则有助于减轻潜在危害并鼓励负责任的创新。
“因此,合成数据应明确标记,并且应向用户提供有关其生成的信息。”
资讯来源:由a0资讯编译自THECOINREPUBLIC。版权归作者A0资讯所有,未经许可,不得转载