“去中心化合成数据联盟”释出万亿级纯合成语料库，震撼全网_AI创业及开发

AI照护资讯

首页 AI照护资讯 AI创业及开发

“去中心化合成数据联盟”释出万亿级纯合成语料库，震撼全网

#AI创业及开发时间2026-05-04 11:25:27

针对欧盟《AI版权法案》的极限施压，昨日刚刚由上百家科技机构成立的“去中心化合成数据联盟（DODA）”在短短24小时内便抛出了首个反击成果。该联盟正式对外免费开源了名为“Genesis-1T”的全球最大纯合成数据集。这个包含高达 1 万亿个高质量 Token 的语料库，完全由多个前沿大模型在封闭超级沙盒中通过逻辑推演、数学证明和物理规律模拟交叉生成，其中未抓取任何受现实版权保护的人类文章或图片。经多家独立顶尖实验室连夜评测，使用 Genesis-1T 训练出的语言模型，在逻辑推理、代码生成等核心指标上，竟然超越了使用人类互联网脏数据训练的同量级模型。这一惊人结果犹如在版权界引爆了一颗核弹，不仅直接宣告了传统数据贩卖商和版权流氓商业模式的破产，也让监管机构试图通过版权法案“卡脖子”的意图面临实质性的彻底落空。

AI照护资讯

“去中心化合成数据联盟”释出万亿级纯合成语料库，震撼全网

“去中心化合成数据联盟”释出万亿级纯合成语料库，震撼全网

评论