专访面壁智能：大模型仍处于技术发展期，只做应用放弃模型迭代很危险

facai888 阅读：483 2024-08-22 01:40:53 评论：0

大模型落地应用元年③：

2023，随着ChatGPT的横空出世，大模型迎来了前所未有的关注。2024，业内普遍认为，大模型将迎来落地应用热潮。

大模型落地应用元年，人工智能技术也行至产业应用的临界点。红星资本局采访多家国内大模型企业，聚焦大模型应用行业前沿关键节点。

大模型时代也将拥有自己的“摩尔定律”——按照国内大模型厂商面壁智能的观察，模型知识密度呈现出每8个月提升一倍的规律。

按照这个规律，面壁智能预计将在2026年年底，做到GPT-4水平的端侧模型。

如何在端侧算力、内存、能耗有限的条件下，把知识浓缩到更小的参数规模里，是一项极大挑战。

面壁智能联合创始人、CEO李大海在接受红星资本局等媒体采访时表示，未来两三年未必就能出现一个“国民级应用”，如今大模型仍处于技术发展期，只做应用放弃模型迭代很危险。

李大海

应用和技术创新同等重要

被称为“AI应用元年”的2024年已过半。李大海认为，今年的WAIC世界人工智能大会上大家确实更关注应用落地了。但在他看来，行业目前还没有达成一个共识，各家算是一个“百花齐放”的阶段，“大家都还在寻找落地场景，这个过程不会太快。”

不过李大海认为，这样的状态很正常。“有像我们做端侧，也有做通用基座大模型、行业垂直模型。只要大家认准一个方向使劲去深挖，总是有机会的。”

回顾移动互联网时代，以iPhone发布为移动互联网元年来算，等到移动互联网真正大范围落地，也是差不多几年之后的事。

不过李大海提到，这个过程中，最忌讳的就是“三心二意”。“看到A机会好去做A，然后把A做到一半的时候，发现B更好转头又去做B，反而把A给抛掉。这种方式很危险。”李大海说。

李大海认为，目前仍是技术的发展期，当前阶段对大模型公司的技术要求实则很高，如果企业完全聚焦到应用上是有很大风险的。据他介绍，面壁智能会花费接近50%的人力来探索基础模型的持续研究迭代，同时还有50%的人力花费在应用创新落地上。

“技术创新很重要，同时坚定地、持续地去寻找应用落地也很重要，这是一个量变到质变的过程。”

如果想让大模型落地得更好，李大海强调，必须得用产品思维去看用户真正需要什么，以及需要的能力是否能让模型和产品很好地结合在一起，把它落地。即“产模一体”。

“移动互联网发展这么多年，如果没有大模型这样一个变量出现的情况之下，再想做一个全新的C端产品或应用出来，其实已经很难了，因为大家已经做了非常多探索。所以大模型作为一个非常大的变量如果能带来变化，一定是变量在里面起了核心作用，它才能产生一个很重要的变化。”李大海说，所以一定需要让大模型成为这个核心变量，并且能够“产模一体”，把它变成产品中最重要的一个原生且切割不开的能力。反过来，用户到底需要的是什么，以及在新的场景里需求能不能被模型服务好，才是特别重要的事情。

C端应用爆发需要探索和试错

尽管业内普遍认为今年会是“大模型应用元年”，但市面上至今还未出现现象级应用。李大海认为，未来两三年未必就能出现一个“国民级应用”，但可能形成一个“大家一致认为这个产品非常有潜力成为国民级应用”的共识。

国民级应用需要时间探索。“回看例如抖音这种爆发性产品的历史，它是在4G基础设施成熟几年以后才发生的，哪怕回到过去的移动互联网时代，也需要各种各样的摸索。”

李大海直言，探索不是短期的事，具体需要多长时间说不准，但他认为，一定是“相信这件事、并且在持续探索的人”最有机会成为应用爆发时候的“排头兵”。“排头兵一定不是突然冒出来的。”李大海指出，特别是C端应用的成功爆发，需要不断探索、试错和学习成长。

李大海强调大模型的“价值”属性。他认为，大模型本身不仅仅是一个技术，而是要为用户提供实际价值，专访面壁智能：大模型仍处于技术发展期，只做应用放弃模型迭代很危险同时大模型是一个产业级别的机会，它对C端的终端用户产生的价值有两种：效率价值和情绪价值。效率价值更容易通过B端的角度来实现和落地。

李大海透露，面壁智能一定会做自己的toC产品，而在toB领域，当前会比较注重端侧。

“我们要服务终端用户其实有两种途径，第一种就是我们自己去创造一个新场景直接服务这些用户，这就是直接toC。还有另外一种就是我们在已有场景里面跟合作场景的owner，类似于叫供应链链组一样，去服务这些链组来服务好他们的用户。”

他提到，面壁智能会跟智能汽车厂商合作，把自家模型放到智能座舱里面去服务好智能座舱的用户。另外还有与手机、PC的合作，今年底有望上线。

端侧模型更易落地

但难度不仅是“小型化”

作为头部大模型厂商中稍显独特的一家，面壁智能特别强调“高效”大模型，尤其是端侧大模型。今年2月，面壁智能开始推出面壁小钢炮MiniCPM系列端侧模型，并于2月1日发了第一版，4月发了第二版，5月发了2.5版本。在2.5版本上，以1%的参数规模，形成了可以跟去年GPT-4V和GeminiPro的多模态能力对标的一个模型，模型参数只有8B大小。

在李大海看来，端侧模型是一个非常广阔的市场，有更早更快落地的可能性。“端侧模型有独特的生态位，它离用户更近、更能匹配个体和企业单位数据隐私的需求，是大模型走进千家万户、千行百业的关键。”

李大海形容端侧模型更像一块极其重要的“拼图”，它的出现会让大模型的延伸更完整。

“之前大家没有关注端侧，或者说还没有高质量的端侧模型出来的时候，我们只能靠云端的模型来做事情。当云端模型不够用的时候，就只能去做很多微调。端侧模型有很多特别重要的好处，第一个是隐私安全，它可以更封闭、更有安全边界、同时更深度去应用用户的各种隐私数据。用了这些隐私数据以后，它在个性化等各方面可以做到更好，这是端侧模型最大的优势。”此外，他还提到端侧的另一个优势：未来会有很多场景对终端的推理可靠性有很高的要求。这也是端侧非常好的落地方向。

但他强调，端侧并不是“所有”，只是其中一块拼图，「端」和「云」协同在一起，才能够完整地把用户的所有需求满足好。他解释，两者其实是一个配合的关系。

“随着端侧模型能力的提升，用它的推理就不需要再去买专门的GPU显卡了，端侧上的GPU就可以跑，在这个层面上，端侧会有它的成本优势和隐私安全优势。但端侧也有它的能力范围，如果超出这个能力范围，还是需要更大的模型去做更复杂的工作。”

端侧模型虽小，但挑战更高。清华大学计算机系长聘副教授，面壁智能联合创始人、首席科学家刘知远提到，所有的端侧模型背后都有一个更具挑战的问题，即如何在端侧算力、能耗有限的情况下，把知识浓缩到更小的参数规模里面。

“要把一个端侧模型做好，难度是非常高的，它的难度不仅仅是把大模型做小型化，因为把一个巨大的“武器”小型化，首先得能会做这个“武器”，然后才能小型化，这本身就需要一个足够高水平的做基础大模型的团队，对团队要求非常高。”李大海说。

他解释，与云侧模型不同，做端侧模型的公司更关注以下几个指标。一是能耗——做一次推理需要花费多少，需要消耗多少能源，因为能耗会显著影响待机和续航；二是效果；三是内存——它需要的内存占用有多大。这几个指标都会影响到模型落地。

对于通用大模型，压缩参数可以在保持性能的同时大幅减少成本。端侧模型是否也可以通过这样的路径？但李大海表示，做云侧模型和做端测模型的优化目标不一样。

做云上的通用大模型的优化目标是最大化智能的总体水平，“国内厂商首先要做到的是超越GPT-4。在这个阶段成本不是最优先考虑的问题，最优先优化的目标是智能的总体水平，谁先能超越GPT-4，谁能比OpenAI提前做到GPT-5，那谁就是最厉害的。”

但在端侧模型，因为端侧芯片计算能力的限制，模型参数是相对固定的，优化目标则是要尽可能地提高知识压缩率，“现在最主要的一个重要的影响因素，还是端侧模型能不能把端侧芯片的算力应用好。”

红星新闻记者王田

编辑邓凌瑶

标签:专访面壁智能大模型仍处于技术发展期只做应用放弃模型迭代很危险

可以去百度分享获取分享代码输入这里。

声明

免责声明：本网站部分内容由用户上传，若侵犯您权益，请联系我们，谢谢！联系QQ：2760375052