沙利文联合头豹研究院发布《2023年中国AI大模型行研能力评测报告_新闻中心

自2022年底ChatGPT向公众发布以来，AI从科技公司的闭门探索正式走向全人类的视界。经过一年的发展，基于GPT起源的大模型技术已成为国家技术和产业的关键战略要素，受到国际广泛高度重视。

大模型作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。大模型通过辅助内容创作、生成结构化内容、优化校对流程，并快速检索信息，加速了行业研究的发展。因此，深入探索中国大模型在行业研究中的应用和技术创新，对推动研究方法的革新至关重要。

基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院凭借百人分析师团队匿名投票机制，筛选了12个大型模型，进行了多维度的综合评估，旨在全方面了解并系统梳理中国大型模型参与者在行研领域的应用表现。

基于对2023年中国大模型的调研与分析，沙利文联合头豹研究院发布最新《2023年中国AI大模型行研能力评测市场研究报告》。

行业研究通过综合分析特定行业的发展形态趋势，产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和金融决策等产生显著影响。

行业研究是深入探讨分析特定行业的发展现状和市场动态的全面过程，包含行业定义、分类、竞争格局、市场容量等关键维度。分析师通过一系列分析，生成具有深度的洞察和价值观点，对企业战略规划、政策制定、金融投资决策和教育培训等多个领域产生重要影响。

在行业研究中，产业层、行业层和产品层各自代表宏观经济的不一样的层次：产业层包含具备相似特征的行业群体，行业层着重于特定行业的市场和企业情况，而产品层深入到具体产品或服务的设计、功能和市场定位。研究方法论依据这一些层级的宏观到微观差异而不一样，外部维度考虑政策、经济、环境等因素，而内部维度则包括发展历史、产业链分析等更细致的方面。

从基础数据收集到深度分析输出，传统行业研究的流程面临着工具创新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战。

传统行业研究的产出流程包括三个步骤：首先是基础调研，聚焦于一手和二手行业数据的收集；其次是数据加工，涉及整理逻辑、验证数据真实性，并对关键信息进行可视化处理；最后是产出结果，确保全文逻辑一致、可视化清晰并且观点合理。

在实际操作中，行业研究面临多个挑战：1）工具更新停滞，自互联网兴起以来，行研主要依赖网络检索和办公软件，近20年未见显著革新；2）团队知识难以复用，由于高人员流动性和新成员培养周期长，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压力下，信息源自和合规性难以全面保障；4）质量控制难度高，质控人员缺乏专业撰写技能，同时专业分析师缺乏时间进行广泛质控，导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新，阻碍行研进一步发展。

数字行研解决方案，结合标准化工具和先进的大模型技术，有效克服了传统行业研究的核心制约因素，明显提升研究的精度和效率。

数字化行研解决方案为行业研究带来范式革新。该系统通过引入一系列标准化工具，如精准的信息溯源系统和写作规范，极大降低了行业研究的门槛，提升了撰写效率，并简化了质量控制流程。此外，数字行研基于大模型的强大底层支持，为分析师提供AI辅助工具，包括专家访谈、智能检索、查重、校对和改写功能，有实际效果的减少信息检索的难度，提升文本的准确性和撰写效率，同时加速分析师的专业成长。

数字行研解决方案不仅解决了传统行业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后，还借助大模型技术推动行业研究质量和分析师成长速度，引领行业研究向更高效、精准的新范式转变。

大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势，了解大模型当前的能力边界，以推动行研领域的创新与变革。

作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。首先，大模型扮演第三方AI专家角色，协助分析师在研究初期进行框架搭建和内容创作，有效减轻案头工作负担。其次，通过与分析师的有效互动，大模型助力生成结构化内容和洞察，明显提高基础内容的产出效率。进一步，它通过减少文本错误和重复内容，优化校对流程，提升产出质量。最后，大模型能快速处理海量数据，提供实时信息检索，增强分析师在有限时间内获取全面信息的能力。

鉴于此，进一步探索中国大模型行业的发展形态趋势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价中国领先的大模型技术，深入分析其在行业研究领域的实际应用和优势，全面审视大模型对行业研究发展的影响，以促进数字行业研究的创新和变革。

基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院依托百人分析师团队对12个大模型进行行研辅助能力的综合评估。

基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全方面了解并系统梳理中国大模型参与者在行研领域的应用表现。

本次对大模型的行业研究能力进行评测的时间定于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中，GPT模型选用的公测版本为3.5版本，文心一言模型也采用其3.5公测版本进行评估。

本次语言大模型行研能力测试围绕三大核心板块展开评测：研究报告撰写能力、模型基础能力及行业综合理解能力。

本次大模型能力测试围绕三大核心板块展开评测：分别是研究报告撰写能力，模型基础能力及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中，报告撰写覆盖8篇不同主体报告撰写，涵盖128道问题，分析师长期跟踪报告问题累计超1,500道题；模型能力覆盖6大文本产出核心能力，涵盖54道问题；行业理解覆盖14大核心行业，每个行业涉及12个问题，总计1,168题。三大维度合计1,800道题目。分析师团队均由头豹研究院各团队资深分析师组成，且均具备超过8个月的大模型使用经历。

评测方法通过双盲机制最大限度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见。

沙利文及头豹行企研究的8-D方法论，是一种全面系统的研究方法，包含了八大关键模块，用于对行业进行深入分析。

沙利文联合头豹企业研究所采纳的8-D方法论包括八个核心模块，构成了一套全面而系统的研究方法，专用于行业的深入分析。结合详实的数据和精准的分析，此方法能够提炼出深刻的观点和结论，显著提升行业研究内容的清晰度以及数据的丰富性。在该方法论的指导下，百名分析师历经八个月的密集工作及多次优化，精制而成一套高效的8D模块化大模型提示问题法。这套精练的提问技巧已转化为评估工具，旨在通过对十二个主要模型的针对性提问，检验并评估模型报告撰写的效能。

从AI辅助行研方面出发，结合大模型基础核心能力，归总出对于行研报告撰写角度最重要的六大能力维度。

逻辑推理：逻辑推理是指从已知信息出发，通过推论规则得出结论的过程。在内容评判中，关注信息组织、连接和推导的方式，以及结论是不是合理、一致，且基于事实。

类比迁移：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。

文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性和语言的正确性和表达能力。

意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。

知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。

语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，还有是不是能有效地调整语气、风格和内容以满足多种场景下的写作需求。

汇集沙利文与头豹研究院百余名各资深行业分析师，结合自己领域认知，对模型在14大行业的理解和产出能力进行评估。

头豹研究院成立至今，平台共积累超15万+注册用户，6,000+行业及企业研究报告积累，覆盖14个大类行业，以及上千个细分小类行业。在本次大模型评测中，沙利文联合头豹上海、南京和深圳三大研究院，汇聚了跨越多个行业领域的百余名分析师，利用自身对竞争格局、发展的新趋势、制约因素以及行业壁垒等关键知识领域的深厚理解，并结合丰富的行业报告撰写经验，向模型提出了针对14个主要行业的细致问题，最终对12大模型在行业理解和内容产出方面做深度评估。

沙利文及头豹研究院资深分析师团队根据三大维度，总计1,800+道题目，对十二大市场主流大模型进行行研能力的综合评估。评测结果为，商汤商量、文心一言3.5、讯飞星火以及腾讯混元的行研能力位列第一梯队，总实力较为强劲。

商汤的“商量SenseChat”2023年4月正式推出，是国内最早发布的千亿参数大语言模型之一，此后不断迭代更新。目前，它在语言、知识、理解、推理和学科五大能力上均处于行业领先水平，能处理各类文本和信息，成为随身综合知识库、高效文本编辑器、数理计算器和简单易用的编程助手。

2023年3月，百度发布大模型产品“文心一言”。6月，百度文心大模型已经迭代到3.5版本，功能、性能全方面提升，实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等，模型效果提升50%，训练速度提升2倍，推理速度提升30倍。

2023年5月，科大讯飞推出的新一代认知智能大模型“讯飞星火”，讯飞星火拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解和执行任务，提供语言理解、知识问答、逻辑推理、数学题解答、代码理解与编写等多种能力。能够为各行各业提供强大的支持和提效。

2023年9月，腾讯正式面向产业发布“腾讯混元”大模型。腾讯混元具备强大的中文创作能力，复杂语境下的逻辑推理能力，以及可靠的任务执行能力。腾讯混元拥有超千亿参数规模，预训练语料超2万亿tokens，能应用于机器翻译、文本生成、语义分析等多个领域。腾讯混元支持多种功能和场景，如图片生成、文案创作、文字辨识等，并已经在腾讯云、腾讯广告、微信搜一搜等多个腾讯内部业务和产品经过测试。

所有转载不得对原文进行任何篡改、曲解、诠释和改编。沙利文保留对所有个人独创的文章的版权及解释权。如有违反，沙利文保留依照法律来追究相应法律责任的权利。

全球增长咨询公司，弗若斯特沙利文（Frost & Sullivan，简称“沙利文”）融合全球62年的咨询经验，25年来竭诚服务蒸蒸日上的中国市场，以全球化的视野，帮助超10,000家客户加速企业成长步伐，助力客户在行业内取得增长、科创、领先的标杆地位，实现融资及上市等资本运作目标。

沙利文深耕全球长期资金市场及企业咨询服务，通过首创的“全域投资管理 (Total Investment Management, TIM）”为公司可以提供全方位的投融资及其他各类专业咨询服务，包括投融资CDD、估值服务、技术顾问、财务顾问、ESG、募投可研、债券发行行业顾问、行业顾问、评估服务、奖项服务、行业白皮书、战略及管理咨询、规划咨询、技术洞察等。

沙利文大中华区的投融资业务实现了对中国国民经济的全行业覆盖，包括对新经济、新基建等所有经济热点的高度关注，涵盖生物医疗、消费零售、互联网及科技、娱乐传媒、金融服务及金融科技、双碳环保、机械制造、能源电力、地产物业、矿产资源、基础设施、汽车出行、物流运输、轨道交通、船舶航运、航空航天、农林牧渔、工业材料、建筑工程、教育培训等。

沙利文团队为企业领袖及其管理团队开展投融资顾问咨询服务以来，已帮助近千家公司成功在香港及境外上市，是国内投融资战略咨询领域的领军企业。近10年来，沙利文连年蝉联中国企业赴香港及境外上市专业行业顾问市场占有率第一名的领导地位；且近年来，沙利文报告也被广泛引用于业内领先的A股、科创板等上市公司的招股文件、一级和证券交易市场研究报告及其他长期资金市场公示文件中。

62年以来，沙利文通过其遍布全球的近50个办公室，利用强大的数据库和专家库、运用丰富的专业相关知识和咨询工具，帮助大量客户（包括全球1000强公司、国内外顶级金融机构以及其他各类领先企业等）完成了包括但不限于尽职调查、估值分析和第三方评估工作等工作，达成了战略目标；创立市场地位确认体系，首创“FSBV沙利文品牌价值模型”，已向超500家公司可以提供市场地位确认及品牌估值服务，持续助力大量中国品牌共赴增长未来。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

上海8年没扣分老司机，在这件事上栽了：扣3分罚200块！很多人还不知道！

刘俏：目前甚嚣尘上的推翻注册制、暂停IPO、取消做空机制等建议与A股市场估值的修复与提升之间并没有建立起令人信服的因果联系

亚洲一哥！英雄降临！孙兴慜封神后仰天跪地 “补时之王”命线塔吉克斯坦！首进亚洲杯4强，获100万奖金，傅明拒判2点球

弟弟哭闹不止，姐姐血脉压制瞬间就安静，尿都控制不住的年纪，生生控制住了情绪。

新闻中心

新闻中心

沙利文联合头豹研究院发布《2023年中国AI大模型行研能力评测报告

关于我们

产品中心

工程案例

售后服务

新闻中心

联系我们

网站地图