kaiyun·开云(中国)官方网站

金融金融投资大模型能让普通人成为“投资之王”吗?开云官方

作者:小编    发布时间:2023-06-14 18:15:47    浏览:

[返回]

  上月,一个名为 The GPT Portfolio 的账号在推特迅速走红。该账号此前宣布,将借助 ChatGPT 进行实盘投资。

  src=根据他们的研究,ChatGPT 不仅能够预测股市价格走势,还能产生超过 500% 的回报!

  而在 5 月 26 日,摩根大通也宣布正在研发名为 IndexGPT 的金融服务工具,利用云计算和人工智能进行证券的分析和选择,为客户提供智能化和个性化的投资建议。

  今天,让我们不妨先将目光聚焦回国内,分析度小满最近发布的金融大模型——轩辕,看看是否能在该大模型身上,找到这些问题的答案。

  上月月底,度小满正式发布基于 BLOOM-176B 研发的轩辕大模型,是一个通用 + 金融领域的千亿级参数大模型。其数据集不但包含了各种通用内容开云官方,还包含了诸如金融研报、股票、基金、银行、保险等方向的专业知识。

  在金融场景中的任务评测中,效果相较于通用大模型大幅提升,表现出金融领域的独特优势。

  在这里,我们就试着从金融数据、金融新闻理解、市场舆情分析这三个方面,对轩辕大模型在金融领域的表现,进行一番剖析。

  众所周知,对于垂直领域来说,大模型所具有的专业数据越多、质量越高,其模型表现就越好。

  一个不可否认的事实是:尽管百度这些年一直在尽力在金融领域布局,其麾下的度小满涵盖了消费金融、支付、互联网理财、互联网保险、互联网证券等多个板块,但从体量上来说,其掌握的金融数据,仍旧很难以与国内的一些庞大的金融集团,例如中投相比。

  中投在国内控参股 10 多家金融机构,掌控万亿资产,其投资和涉及的行业包括了信息科技、金融、弹性消费品、医疗健康等领域,其中信息科技占比最高,为 22.76%。此外,在工业、通讯服务、非弹性消费品、原材料等领域也有一定分布。

  既然没有数据方面的绝对优势,度小满又怎么有信心问鼎国内首个金融大模型呢?

  原因就在于,在垂直领域,专有数据的运用,其实远比追求 绝对数据 的优势要重要。

  ARK(方舟基金)创投联合负责人及分析师 Will Summerlin 在谈到这点时,曾说到: 对于想抓住这次 AI 革命的公司来说,运用好自身的专有数据集,能让他们快速针对自己的领域来训练或微调模型。

  在此前百度搭建的金融生态中,出现了面向大众的消费信贷服务品牌 --- 有钱花、理财平台 -- 度小满理财,以及支付平台——度小满钱包。

  这些 APP 中积累的信息,开云官方构成了百度用来训练或调整模型的大量数据,开云官方基于这些数据,百度可以形成一套自身专有的反馈循环系统,进而逐渐形成对产品的洞察力。从而使其能不断针对客户数据优化模型,让模型随着时间推移越来越好。

  更重要的是,除了拥有数据之外,将数据与 AI 相结合的能力,也是构建金融大模型不可或缺的一步。

  src=早在 2018 年,创立之初,度小满就看到了 NLP+ 金融 的潜力,开始进行相应的产业布局。

  而当时不仅全世界专注做 NLP 公司很少,成立专门的金融科技 NLP 团队的更是鲜见。

  经过数年的钻研,2021 年,在微软举办的 MS MARCO 比赛中的文档排序 Document Ranking(文档排序)任务中,度小满的 AI-NLP 团队排名第一并刷新纪录。

  2022 年,轩辕 ( XuanYuan ) 预训练模型,也在中文语言理解领域最具权威性的测评基准之一 CLUE 分类任务中排名第一。

  于是,放眼国内,在金融领域拥有庞大数据的,在 NLP 上却比不过度小满;而在 NPL 上有所建树的,却又很少能搭建出度小满那样专有的金融生态。

  除了金融数据外,轩辕大模型的另一个重要的能力,就是其对金融事件、新闻的解读能力。

  毕竟,索罗斯这样的金融大鳄,90 年代正是凭借对欧洲舆情、时局的准确判断,做出了做空英镑,做多马克的决定,并一举战胜了英格兰银行。

  src=而这种阅读并理解时事,乃至解读市场舆情的能力,则主要是由大模型的自然语言处理能力(NLP)决定的。因为时事解读,舆情分析的主要任务,是对大量的文本数据进行语义分析和情感分析。

  在 NPL 方面,轩辕大模型的一个最大特点,就是 化大为小 , 化通为专 。

  具体来说,轩辕通过将开放领域学到的知识迁移到下游任务,不仅改善了低资源任务数据相对不足的问题,也提高了自身的泛化能力和鲁棒性。从而更好地适应不同领域和场景的阅读和分析需求。

  然而,这种用大量通用数据预训练一个基础模型,再用特定任务数据微调一个下游模型的做法,开云官方以往存在两个缺点:

  一是预训练和微调的数据可能存在不一致或不匹配的问题,导致模型难以适应新任务;

  二是微调的数据可能存在不足或不平衡的问题,导致模型难以学习到有效的特征。

  对此,轩辕大模型在引入金融任务数据训练的同时,还融合了不同粒度不同层级的交互信息,从而改进了传统训练模式。

  src=具体来说,轩辕采用了多阶段的训练策略,先从通用大规模的数据逐渐迁移到小规模的特定业务以及特定任务,然后通过不同的阶段逐渐训练,直到满足目标任务。

  这样可以缓解预训练和微调之间的数据不一致或不匹配的问题,提高模型的迁移能力和泛化能力。

  同时,在预训练阶段,轩辕还使用了多种自监督学习任务,如掩码语言模型、语句顺序预测、语句内部结构预测,这样可以从不同角度和层次学习语言知识和语义信息,提高模型的表达能力和理解能力。

  基于这样的能力,我们也不难理解,为何轩辕大模型曾在 2022 年,在中文语言理解领域的 CLUE 分类任务中排名第一。并且距离人类 表现 仅差 3.38 分。

  实际上,金融行业因其与数据的高度相关性,成为了 NLP 最早赋能的行业之一。

  src=通过 NLP,人们可以在证券投资中为量化投资贡献因子,如热点挖掘开云官方、舆情分析、事件驱动分析,或是在大数据风控中,用 Tag 抽取技术为构建用户画像提供技术支持。

  例如事件驱动分析这一功能,在应用 NLP 技术前,很多金融从业人员真的是靠人盯新闻、公告金融投资,来获取相关信息,然而,从一篇长篇累牍的新闻或公告中,找出一些风险信号或营销机会真的是费时费力。

  那么,在具备了准确识别和分析金融事件、市场舆情的能力后,金融大模型是否真的能带众多投资者一飞冲天,成为 AI 加持下的新一批 索罗斯 呢?

  还记得开头提到的那个借助 ChatGPT 进行实盘投资,并声称收益率超过 500% 的例子吗?

  截至 5 月底,已有 2.5 万名投资者被吸引,总共约押注 1000 多万美元的资金在 ChatGPT 选出的投资组合上。

  然而,经过近两周的实践后,人们发现这个 AI 分析师 似乎并没有像传说中的那么 神 。

  人工智能选出的股票组合涨幅约为 2%,基本与大盘持平,且按百分比计算,该组合中后五名股票的下跌幅度超过了前五名的涨幅。

  src=针对这种情况,有文章分析称,这是因为 Autopilot 实验项目中的投资组合,是命令 ChatGPT 分析 1 万条以上的新闻,并得到得分最高的前 100 只股票,再结合公司财报数据得到综合打分,最终买入的前 20 只股票。

  在失去空头部分收益的情况下,实际的投资表现自然会与论文中的回测结果产生较大差异。

  等一下,不是说 AI 已经可以通过 NLP,准确地识别并分析金融事件、市场舆情了吗?那为什么在结合了 1 万条以上的新闻 + 公司财报的情况下,AI 分析师 的表现仍然不佳呢?

  在人类构筑的媒体世界里,虽然各类的网站、平台或社交媒体数不胜数,但在信息的传播过程中,大部分普通人,却往往会受到少数几家头部权威媒体的影响。

  于是在处理某些类型的金融产品或市场时,大模型的数据源,可能会更偏向某些特定的网站或平台,而忽略了其他来源的信息,进而产生了 数据偏见 。

  src=此外,在处理自然语言时,大模型可能会遇到一些语义歧义的情况,如果某些词汇有多种含义,AI 在处理时可能会选择错误的含义,导致信息的偏差和误导。

  不过,如果因为 AI 不能让人实现梦想中的 投资神话 ,就认为金融大模型的存在,是一种锦上添花的技术,也未免太浅薄了。

  因为在可预见的未来,传统风控模式面临效率低下、容易出错、难以面对大规模数据处理等挑战开云官方。

  类似度小满在内的企业,通过大模型技术探索,让企业可以自动化地处理大量数据,快速、精准、全面地分析和识别贷款潜在风险,进而优化风险模型,提高风险控制的准确性和效率。

  此外,轩辕大模型不仅能够解释授信额度、计算收益率、决策参考等金融专业问题,还能够结合资产状况、收益目标和风险偏好,以及外部的市场动态,给出更符合用户需求的答案和建议。

  由此可见,在抛下了 通过 AI 投资暴富 的狂想后,金融大模型仍旧可以在风险防范、金融知识普及方面,让更多群体受益。

搜索

网站地图