两个博士1年干出120亿独角兽 AI测评引发资本热潮!美国加州大学伯克利分校孵化的创业公司LMArena成立仅一年,便成为估值17亿美元的独角兽。该公司通过构建全球最大的用户偏好大模型实时数据集,满足市场对AI可靠性评估的需求,受到资本市场的高度认可。在短短一年内,LMArena完成了由Andreessen Horowitz(a16z)、Felicis Ventures等顶尖风投领投的两轮融资,包括种子轮1亿美元和A轮1.5亿美元的资金。

LMArena源自大型模型系统组织(LMSYS),该组织由多所大学合作发起,旨在孵化早期开源和研究项目。2023年,加州大学伯克利分校的两位博士生Anastasios N. Angelopoulos和Wei-Lin Chiang受LMSYS资助,创立了Chatbot Arena,即LMArena的前身。Chatbot Arena旨在构建一个公开透明的评估平台,反映大型语言模型在现实世界中的应用情况。

Chatbot Arena于2023年5月正式推出,用户可以通过匿名方式选择更喜欢的答案,对不同的人工智能模型进行投票。2025年1月,Chatbot Arena注册为商业化实体LMArena,由Anastasios N. Angelopoulos担任首席执行官、Wei-Lin Chiang担任首席技术官,Ion Stoica是联合创始人兼顾问。三位创始人均具有丰富的学术背景和技术经验。
目前,LMArena已经吸引了数百万参与者,记录超过300万次比较,评估了400多个模型。LMArena利用实时评估来缓解大模型基准测试中可能出现的问题,通过持续收到来自真实用户的新反馈进行修正。这些反馈被梳理成开放的排行榜和技术文章,为大模型的性能提供重要意见,指导LLM的改进和持续开发。此外,LMArena还与开源和商业模型供应商合作,将他们的最新模型投放到平台社区进行预测试。

然而,LMArena的商业模式也面临争议。尽管其在短时间内完成两轮融资并跃升为独角兽,但其测评内容的可靠性仍受到质疑。一些人认为,LMArena完全依赖于不受控制的志愿者在平台上进行的游戏化劳动,用户可能没有动力认真思考作答。此外,用户更倾向于选择带有表情符号和冗长的内容,而不是实质性高质量的内容。因此,这种测评模式可能无法真正筛选出能生产高质答案的大模型。

尽管如此,LMArena仍然获得了知名风投机构的支持。硅谷著名风险投资基金a16z合伙人Anjney Midha表示,他们投资LMArena是因为看到其在人工智能评估领域的潜力。随着政府机构和受监管行业的参与,中立客观的评估变得越来越重要。LMArena构建的规模最大、基于人工智能输出的人类偏好实时数据集,使其在人工智能评估领域具备先发优势。
市场上还有其他大模型测评企业,如LiveBench、OpenRouter Rankings以及国内的OpenCompass和SuperCLUE。这些平台各有特色,但在商业化程度上相对较低。LMArena能否在激烈的竞争中保持领先地位,还需时间验证。

十大线上实盘配资
元鼎证券提示:本文来自互联网,不代表本网站观点。