科大讯飞大模型撰写招股书工作流拆解
2024年8月5日,科大讯飞提交了大模型撰写招股书的专利,申请公布日为2024年12月13日,该专利名为《长文本生成方法、装置、设备、存储介质及程序产品》。
2024年6月,科大讯飞中标国元证券大模型基础设施及投行大模型研究课题,项目金额高达1800万 。从公开信息能看出,科大讯飞与国元证券合作探索大模型在证券领域的落地应用,本专利就是其在投行的落地尝试。
专利说明书文字描述晦涩,为帮助大家了解科大讯飞的研究思路,根据科大讯飞专利说明书,投行百宝箱系统拆解了其产品工作流,整体分为4个环节:
- 处理:将招股书拆为子文本,确定待更新参数;
- 获取 :获取待更新参数的更新数据;
- 替换 :替换数据,获得更新后子文本;
- 生成 :拼招股书。

1 处理
本环节的输入是样本招股书,输出是待更新参数。
1.1 基于内容主题,生成子文本
招股书框架具有通用性,不同行业发行人招股书存在一定差异。针对不同细分子行业,每子行业挑选3-5份典型招股书作为样本,着重考虑市场知名度、注册制后的案例。
根据内容主题,拆招股书,得到子文本。主题可以是章节名称、小标题名称、或部分文本的核心思想。如经营风险、技术风险、财务风险、行业基本情况、公司销售情况、公司采购情况、发行基本情况、募集资金用途、发行人股本情况等。
拆分的逻辑有两种:
关联词匹配
将同一个主题对应的各个关联词所在的段落划分至同一个子文本中。
大模型拆分
基于招股书,生成第三提示词(为了与其他提示词区分,进行的编号),提示大模型,生成子文本。
子文本具有 高内聚、低耦合 的特点,各个子文本之间相互独立、关联较少,子文本内部是同一主题高度关联。
1.2 确定样本子文本
人工核对子文本,核对无误后,存储以便后续使用,核对工作是一次性的,后续可重复使用。在后续的步骤中,将这些子文本作为处理的最小粒度。
入库子文本可分为3类:
固定语言
招股书都包含,表述方式相同且不包含具体数据,不需要进行任何处理;如验资复核机构声明、验资机构声明、资产评估机构声明、会计师事务所声明和发行人律师声明等。
固定模板加简单槽位
招股书都包含,表述方式相同,槽位需根据发行人信息填充数据;主要包括图、表、以及带有数据的固定语言表述内容,如本次发行的有关当事人、发行人基本情况、发行人股本情况等。
变动部分加槽位
写作风格不一致,表述方式上各不相同,但所需槽位一致,槽位需根据发行人信息填充数据,如财务风险、募集资金用途、发行人主营业务经营情况等。
上述3类中,后2种带槽位的需要更新,归类为 样本子文本 ,此外,也可自定义样本子文本。
1.3 确定待更新参数
待更新参数是指样本子文本中要更新的内容、数据,包括本次发行的有关当事人、发行人基本情况等。
确定参数有2种方式:
关键词匹配
检索关键词库,将检索到的关键词作为参数。
大模型确定
基于样本子文本,生成第二提示词,由大模型生成参数。
2 获取
本环节的输入是待更新参数,输出是参数的更新数据。
可以通过 API 获取更新数据,如企查查、天眼查的API获取企业主体基本数据,也可 人工 填写,最主要的还是自动从底稿中获取更新数据,分为3个环节:
2.1 确定相似底稿
逐个参数确定其相似底稿,有2种方式:
计算重合字数
计算各底稿和参数之间的重合字数量,大于设定阈值则认定为相似底稿。
检索模型
将参数、各底稿输入BERT模型,进行向量化,通过Elasticsearch、Faiss 或者Milvus工具计算二者向量相似度。
Elasticsearch是一个基于Lucene构建的分布式、RESTful风格的搜索与分析引擎,专注于全文检索和结构化数据查询。Faiss(Facebook AI Similarity Search)是由Meta AI团队开发的高性能库,专为高维向量的快速相似性搜索和聚类设计。Milvus是一个开源的特征向量相似度搜索引擎,专为处理非结构化数据(如图像、文本、音视频)的向量化检索设计。
将计算相似度结果从大到小排序,取前K项作为相似底稿。
2.2 确定目标底稿
将参数与各相似底稿分别拼接,获得拼接文本,输入至分类模型softmax层 ,进行向量化,计算拼接文本中参数和各相似底稿的相关概率。从大到小排序,取前N项作为目标底稿。
2.3 获取更新数据
可通过关键词搜索,或者大模型查询的方式,从目标底稿中查找参数对应的更新数据。
3 替换
本环节的输入是样本子文本、更新数据,输出是 更新后子文本 。2种方式:
3.1关键词搜索
可通过关键词搜索,将更新数据替换至对应位置。
3.2 大模型替换
基于样本子文本、更新数据,生成第一提示词,提示词可能存在两种情况:
固定模板加简单槽位
固定模板部分不变,槽位部分,大模型将样本子文本中的参数替换为更新数据。
变动部分加槽位
槽位不分,大模型将样本子文本中的待更新参数替换为更新数据;变动部分,大模型根据思维链,生成变动部分的语言表述内容。
4 生成
最后的环节,合并各更新后子文本,生成完整版招股书。