算力之后，高质量语料数据集或决定大模型能力上限

文学
2025-02-20 20:18:13
14

界面新闻记者 | 李如嘉
界面新闻编辑 | 文姝琪

2月21日至23日，上海市将举办2025全球开发者先锋大会（Global Developer Conference，以下简称GDC）。上海市经信委介绍，Hugging Face、微软开发者社区、CSDN、阿里魔搭社区、Linux基金会、阿帕奇基金会、华为社区等国内外100家开发者社区将参与本届GDC；聚焦大模型、算力、语料、工具、软件平台等核心技术，参与的开发者群体涉及硬件开发、云计算、大数据、物联网、AI、机器人、区块链和元宇宙等。

上海库帕思科技有限公司是本次参会的公司之一。库帕思是按照上海市委市政府要求专门设立的人工智能语料数据平台型企业，公司定位是专业化的功能性语料服务运营平台，致力于面向基模、垂类模型、中小创新创业者提供低成本、高质量的语料数据服务。

“我们整个团队从大年初四开始就没有休息了，都在对DeepSeek的创新做研究和跟进。”库帕思CEO黄海清对界面新闻表示，DeepSeek的横空出世，让整个AI行业既兴奋，又焦虑。焦虑的点主要在于，为什么现有的大模型投入了这样多的资金，却没有达到DeepSeek这样的效果。

他认为，DeepSeek的成功核心除了原始算法的创新以外，还在于采用了高质量语料数据集，这样可以大大节约算力和数据，这为中国大模型行业“弯道超车”提供了思路。黄海清表示，根据大模型目前的发展情况，高质量的语料数据集会决定大模型能力的上限，高质量的语料供给能极大降低大模型公司的训练成本。

他介绍，库帕思已经全面启动具身智能、金融、制造、教育、医疗、文娱、城市治理等领域的行业语料库建设，语料运营1.0平台已投入运营，正加快布局从真实世界到模拟仿真到数据合成平台2.0研制。目前，该企业已经链接了超过50家语料生态合作伙伴，通过给合作伙伴提供高质量有效数据集降低大模型成本。

Scaling Law还在发挥作用，但是速度已经慢了下来，黄海清判断。他认为今后，在语言大模型之外，多模态大模型的应用将开始爆发，而ToB（企业）和ToG（政府）的商业模式将会成为大模型公司主要的发展方向，现在很多基础大模型公司都在转向行业垂类，未来中国市场上能存活下来的基础大模型只会有不到十个。

在具体行业中，他认为，目前金融、教育、医疗、工业已经优先拥抱了大模型。而在重点领域，比如说自动驾驶、具身智能、科学智能等也都在积极应用大模型。随着时间的推进，未来的交通行业、零售业等行业都会应用大模型。相应也对垂直行业语料有更大、更高质量的需求。面向推理模型，还需要在原来的数据上构造推理过程，这也对语料生产提出了新的要求。

在语料数据的采集和生产上，黄海清还建议要在版权法方面做到与时俱进，对人工智能、大模型训练语料数据的合理界定范围做一些更新。

“这并非要改变过去（的规则），只是增加和更新，我认为这是一个比较适合和可以操作的路径。”黄海清说，“在人工智能、大模型、语料数据领域，以前的版权法都是给人看的，大模型在训练语料数据的时候，如果再用过去的标准来衡量机器学习的标准，就不一定那么恰当。而且，这个问题已经给大模型公司的语料采购成本以及法律风险造成了影响。”

他建议，要加快明确大模型语料数据的合理使用规则，推动“文本与数据挖掘”在预训练领域的适用；在国内推行针对机器学习的数据合理使用，平衡著作权人权利和科技发展需要，解决授权难的问题；政府要出台鼓励政策，支持语料数据企业加强自动化工具链平台研发，降低语料数据成本；打造AI自动化清洗与标注工具链平台，降低语料成本；加快人工智能生成物保护范围的法律研究，制定规则明确的人工智能生成物的权属与责任。

黄海清还表示，未来，AI将主导数据的标注和清洗，数据标注将从劳动密集型产业向知识型和技术型转型。