在人工智能的专业领域,大模型并不是一项新鲜的技术——它背后的核心技术Transformer深度学习模型早在2017年就已诞生。
但直到2022年ChatGPT落地,人们才得以通过“和AI对话”的方式直观地了解到这一技术进化的质变效果。参数规模更大、训练数据更多的大模型开始在应用领域爆发出巨大的想象空间,对大模型人才的需求也迅速升温。
2023年,国内发生的大模型创业项目融资事件约为64起,其中超六成均为处于种子轮或天使轮的早期融资轮次。与此同时,大量人工智能科学家凭借着过往在模型训练与研发上的积累,迅速地投入到大模型创业的浪潮之中。
在技术高度密集的大模型领域,找到人才就找到了产业发展的关键所在。随着越来越多的科研人员深入技术转化下游的产业场景,以专利和论文为代表的科创产出成为了寻找大模型人才的一种切入方式。
在国家知识产权局和全球科学引文数据库中,新一酱以北京、上海、深圳、杭州这四座大模型落地项目与机构最集聚的城市为样本,搜集并清洗出了近三年来与大模型相关的3.68万篇高水准学术论文和3万余项专利成果。
以机构为单位,中国科学院、中国科学院大学和清华大学分别是大模型相关论文数量最多的三家机构。
“在大家公认拥有自研底座的企业里,超过一半都有清华系学者的背景。一方面是因为他们本身在技术路线上积累深厚,另一方面也是因为从学者、创业者到投资者,清华系相对抱团。”启迪国际技术转移有限公司副总经理卫冕说。
卫冕提到,新兴技术的创新研发一般存在TPF(Technology Product Fit)和PMF(Product Market Fit)两种路径。前者中文被翻译为“技术产品契合”,在创新产出上更侧重于发挥技术上的特色,而PMF的“产品市场契合”则主张以市场需求为研发的核心牵引。
大模型本身更倾向于TPF——在更加侧重基础研究和理论创新的论文领域,拥有充足研究资源的高校和科研院所占据绝对主导。
相比之下,企业的创新具备浓厚的PMF特质。在专利领域,百度以6000余项专利的绝对领先优势超越了所有高校与科研院所排在第一位;国家电网、中国平安等大型企业也凭借自身的行业地位积极布局创新业务。在企业看来,大模型技术赋能于商业场景,并通过市场评价直接体现创新投入的效益才是最重要的。
按应用型论文产出的分布来看,生物医药、工业制造、通信传媒、地理气象、交通与载具和预警应急六个领域目前集中了最多的学术成果和高产学者。
在这六个领域中,生物医药领域不仅大模型相关论文数量排名第一,高产作者数量也最多。如医学影像、精准治疗、AI制药等生物医药与人工智能学科的结合场景,整体起步较早,技术研发驱动特征显著。而在通信领域,大模型的研究主要集中在遥感大数据、智能通信等基石型数字技术研究上。
行业大模型供应商星环科技创始人、澳门新葡萄新京登录CEO孙元浩表示,大模型可以被认为是人工智能领域深度学习技术,叠加上文字、图像等不同模态大数据后的进化版本,其多元应用的展开离不开大量的基础学科研究打底。
因此,尽管行业应用遍地开花,大模型的基础研究以及聚焦视觉、语言和跨模态模型训练的成果模态研究等通用型技术框架研发,实际上仍是高层次大模型人才密度最高的科研产出领域。
大模型创业热潮的推动,出现了许多来自高校、科研院所背景的明星学者。比如深言科技、智谱华章、月之暗面、面壁智能等头部大模型创业项目的创始人,其从业经历都可以追溯到同一家研究机构——北京智源人工智能研究院。
从科学家到创业者,从同一研究机构走向不同的新兴企业,大模型人才之间多维度、紧密的联系网络,也能从不同机构之间的科研协作上体现出来。
例如生物医药领域的高产科学家之一,上海科技大学生物医学工程学院创始院长沈定刚同时也是联影智能的联席CEO。他的双重角色有效促进了校企间的深度合作。近年来,双方共建联合实验室,推进人才联合培养与科研项目协同,将大量前沿医疗和影像技术成果应用在高端医疗设备产业一线——这种合作几乎接近我们企盼多年的理想“产-学-研”协作模式。
大模型领域的研究从诞生起就自带协作基因。在我们用以分析的样本论文中,近八成的大模型成果是由多家单位合作完成的,其中由4家及以上单位参与完成的产出占比超过了四分之一。
一切的协作最终都指向一个目的:通过数据、算力、技术、知识、经验等多种资源的共享共建,完成大模型落地应用的降本增效。
星环科技的金融大模型“无涯”近期刚刚通过了国家网信办的第三批大模型备案。孙元浩说:“以金融大模型为例,我们既要建立以公开信息为基础的外部知识库,更需要创造能让企业自己上传私域数据的标准化工具。在降低企业使用大模型成本的同时,也能充分提高大模型输出的准确度。”
面向特定行业开创差异化应用,是大模型创业团队下一步发展的核心竞争力。因此对于企业来说,深度参与甚至主导跨类型机构的合作格外重要。
新一酱提取了所有企业参与协作的大模型论文,并将其中协作最频繁的主体连线后发现,除了腾讯、阿里、华为、百度等互联网企业,联影医疗、商汤科技等人工智能领域的头部企业都已经与各类高校建立了紧密的科研协作关系。
大模型研发本身具备极高的技术、资金和算力壁垒,目前有能力高频参与大模型创新协作的企业并不算多。对它们而言,与各类高校和科研院所的合作近似于基础建设,无论是对企业内部赋能,还是拓展更多落地场景,都能够在未来释放出乘数效应。
卫冕在对大模型领域创业者的观察中发现,部分企业近一个月对通用大模型接口的需求正在从OpenAI切换到Google。“大模型高度依赖数据,这一点搜索引擎出身的谷歌会更有优势。另外,考虑到大模型创业生态圈对底层模型的高度依赖,谷歌的开放式生态显然更具吸引力。”
同理,国内的大模型人才也正在通过跨学科、跨机构、跨地域的协作建立生态,以此来推动这一轮的产业创新。最理想的状态是——算力开放给研发者,通用模型开放给应用场景,垂直行业数据开放给技术服务供应商。
在高校、科研院所、企业三方共同协作完成的研究关键词中,深度学习依然是三方协同攻关频率最高的领域——在基础研究领域,科研人才仍在不断提出和验证新的算法设计;此外,在微观研究主题上,遥感、机器人、气象学、蛋白质等各个垂直领域的算法获得了更多的关注。
值得注意的是,出现三方协作的论文有88.05%都由不同城市的科研人才合作完成。考虑到城市之间创新资源的禀赋差异,跨城市协同也是大模型科研产出的典型特征。
2023年,京沪深杭四座城市的大模型相关论文与专利数量平均增速约为30%,各领域的人才数量也在不断增加。从产出成果的应用领域来看,京沪深杭目前集聚的大模型人才类型已表现出了各自的特色。
北京的创新网络中,高校以及中科院相关机构占据了主导地位,因此行业大模型人才也主要集中在地理气象、交通等基础学科领域。这使得北京平均每家高校发表大模型相关论文达到了51.82篇,产出强度在其他城市的两倍以上。
上海与深圳则更倾向于PMF模式——依托本地核心产业,围绕垂直领域需求布局大模型应用。例如上海在医疗大模型、深圳在通信大模型领域的人才储备突出。
杭州各维度的人才优势相对平均,但都展现出科研机构引领的特征。例如杭州的新型科研机构之江实验室,其下设了交叉创新研究院,目标是推动智能科学与生物学、脑科学、社会学、教育、艺术、医学等多个学科的纵深发展,为产业化应用打下基础。
对于城市来说,它们拥有的高校与科研资源禀赋往往是相对固定的,在大模型这样的新兴领域要吸引人才,充分的垂直领域市场应用前景可能才是真正的“杀手锏”。
在科技全球化的大背景下,随着科创型人才的全球流动,区域间的科研协作也值得关注。
京沪深杭这四座城市的论文跨国协作,目前已辐射到全球126个国家和地区,与美国、英国、澳大利亚和新加坡这四个国家的协作最为紧密。
新一线产业数据库包含了企业层、产业层、园区层、城市层等多层数据,覆盖上市企业、科技型认定、创新实力、人员规模、发展潜能、资金动态等各类型企业标签,从打造产业特色和区域竞争力出发,针对新一代信息技术、高端制造、生物医药、新能源等重点领域提供创新的产业链分析。同时在城市及园区的产业实力对标、区域竞合发展、产业链补链强链、精准招商等领域,拥有数据深度下钻与交叉分析的工具。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。