“去中心化合成数据联盟”释出万亿级纯合成语料库,震撼全网
#AI热点与创业 时间2026-05-04 11:25:27

针对欧盟《AI版权法案》的极限施压,昨日刚刚由上百家科技机构成立的“去中心化合成数据联盟(DODA)”在短短24小时内便抛出了首个反击成果。该联盟正式对外免费开源了名为“Genesis-1T”的全球最大纯合成数据集。这个包含高达 1 万亿个高质量 Token 的语料库,完全由多个前沿大模型在封闭超级沙盒中通过逻辑推演、数学证明和物理规律模拟交叉生成,其中未抓取任何受现实版权保护的人类文章或图片。经多家独立顶尖实验室连夜评测,使用 Genesis-1T 训练出的语言模型,在逻辑推理、代码生成等核心指标上,竟然超越了使用人类互联网脏数据训练的同量级模型。这一惊人结果犹如在版权界引爆了一颗核弹,不仅直接宣告了传统数据贩卖商和版权流氓商业模式的破产,也让监管机构试图通过版权法案“卡脖子”的意图面临实质性的彻底落空。
评论
0 条登录后才可以发表评论。
立即登录