最近,数据授权交易如OpenAI与News Corp和Reddit的合作,凸显了人工智能(AI)对高质量数据的渴求。然而,现有的数据收集模式面临许多限制。本文探讨了数据DAO(去中心化自治组织)如何成为攻克数据壁垒,推动AI发展的关键。
近期备受关注的数据授权交易,如OpenAI与News Corp和Reddit之间的合作,突显了人工智能对高质量数据的需求。然而,目前的数据收集模式存在诸多挑战与局限。
现今,AI模型主要依赖公共数据源,例如Meta的Llama 3使用了来自公开来源的巨大数据集。尽管这些数据集在聚合大量数据方面非常有效,但在数据类型和采集方法方面仍然存在限制。
数据质量和数量的瓶颈限制了AI技术的进一步发展。Leopold Aschenbrenner曾指出,这些“数据墙”阻碍了算法的进一步提升:“在更多数据抓取方面,预训练更大语言模型的传统做法可能会遭遇严重瓶颈。”
解决这些挑战的一个潜在方法是通过新的数据集扩展可用的训练数据。数据DAO的概念已经引起了广泛讨论,尤其是在加密货币领域。但是,随着AI技术的快速发展,一个新的问题浮出水面:“为什么现在是数据DAO的时代?”
数据DAO的潜力与应用
数据DAO代表了一种新兴的组织形式,专注于创建、管理和组织数据的群体。它们可以通过去中心化的方式生成新的数据集,并为数据贡献者和创建者提供经济奖励。以下是数据DAO可能在AI领域发挥作用的几个方面:
现实世界数据收集:DEPIN网络,如Hivemapper,通过激励用户贡献全球地图数据,展示了去中心化物理基础设施的潜力。这些数据对多个行业具有商业价值,并通过代币奖励回报给贡献者。
个人健康数据:生物黑客运动展示了个人通过DIY方法研究生物学的趋势。数据DAO可以激励参与者共享实验结果,并从研究实验室或制药公司获得经济回报。
用人类反馈强化学习:利用人类输入来优化AI系统的性能。通过代币奖励吸引专家参与,这种方法在提升模型质量方面具有巨大潜力。
私人数据利用:解决对私人用户数据访问的法律和道德挑战,通过去中心化的方式允许数据所有者管理和变现他们的数据,例如在Reddit数据DAO中的尝试。
开放问题与挑战
尽管数据DAO有着巨大的潜力,但也面临一些挑战:
激励扭曲影响:代币激励可能导致参与者行为的扭曲,影响数据质量和类型。
数据测量和奖励:确定数据贡献的确切价值是一个复杂的问题,需要建立有效的评估机制。
新数据递增量:数据DAO必须确保收集的数据集与现有数据的增量和附加是显著的,以确保其对AI训练的实际价值。
评估收益机会:成功的数据DAO需要吸引多样化的客户群体,愿意为高质量数据付费。
结论
数据DAO代表了一个克服AI数据壁垒的新兴方法。通过去中心化的组织方式,它们有望为AI领域带来新的高质量数据源,推动人工智能技术的进步。尽管面临着挑战,但数据DAO的潜力和应用前景令人兴奋,将在未来AI发展的道路上扮演重要角色。