在深圳证券交易所指导下,由中南财经政法大学、东方财富、东财基金联合主办的“产学研用深度融合金融科技高质量发展”研讨会暨第二届全国ETF模拟投资菁英挑战赛启动仪式于8月11日在武汉举行。
(资料图)
Choice数据负责人浦杰进行了《Choice数据与金融科技》的主题演讲。浦杰表示,Choice数据是以大数据治理和数据算法为核心的一家科技公司,通过多款应用产品为用户提供解决方案,比如智能研报,智能搜索,Choice 金融终端,数据库等等。公司在数据和算力上有先天的优势,能够覆盖全资产,全周期和全生态,包括社区数据和公开市场的金融数据。
(图为Choice数据负责人浦杰)
以下为浦杰致辞速记:
浦杰:首先,我今天主要说大概三个点。
第一部分,Choice是什么?Choice是以大数据治理和数据算法为核心的一家科技公司,通过多款应用产品为用户提供解决方案,比如智能研报,智能搜索,Choice 金融终端,Choice数据库等等。公司在数据和算力上有先天的优势,能够覆盖全资产,全周期和全生态,包括社区数据和公开市场的金融数据。我们会敏锐挖掘市场需求和机会,提供更适合金融行业的解决方案。
接下来,第二部分,我们通过从供应商的角度来思考金融和AI之间的关系。金融行业和AI结合如何落地一些应用,最后怎么把应用服务到客户,它的场景是什么样子围绕这些方面做个探讨,把今天上下午各位专家老师的问题,我也一并思考解答一下。
现在显示的这张图华为朱总拿出来过,他说2025年有10倍的空间,我们说得粗暴一点也就是说我们这家公司有10倍的空间,当然这是个线性的外推假设。实际上我这边要讲这张图的原因是跟后面这张做印证,我们发现很奇妙的事情,金融和AI对于整个行业的影响,它是会有一些明显区别的,把区别结合来看可以比较出来。这张图是gartner在2022年第三季度、四季度的时候出的数据,这个曲线的顶峰表示已经比较成熟了,曲线往下走用户量各方面的发展往下走,往上走说明这个技术场景方兴未艾。
合成数据,复合人工智能,决策智能这三个场景是他们认为2023年有一定的机会,我们总结下,这里几个热门应用都是在快速上升期,同时它符合多种AI技术的复杂融合。比如第一种合成数据主要是解决应对数据的训练集比较少,如何解决训练集的问题,它是什么逻辑呢?当我发现企业的训练集数据比较少的时候我怎么解决这个场景?解决的方法有几种,比如说我要做一辆车的训练模型,最好的办法把中国的13亿人训练一遍,但是实际上是不可能的,合成数据的应用是把所有的颜色用户形态、体重、身高、座位舒适度进行模拟,最后把这个数据集进行模拟训练,来提高模型的容错率,大概是这样的意思。
下一张图是gartner2022年四季度发布的金融AI这个技术发展情况,和传统的金融技术区别在哪里。我们可以看到这个图最大的问题在哪,他们推荐了四种技术,但是有三个技术都在成长的顶峰,甚至是已经开始衰落了,为什么?他们都是监督模型,金融行业较多还是监督模型,而我们知道现在的大行其道的模型基本上是强化学习模型和半监督模型。为什么金融行业到现在的应用相对以稳健和保守的,这个原因是什么呢?这是我们作为厂商思考的问题,我们会有一些结论思考和应用。
比如说第一个问题是刚才说的训练集的问题,大家都知道我在一家金融机构里面管理拥护用户的信息是非常关键的,我举个例子比如我要智能化有个系统叫CRM系统,去管理我的机构客户,有可能这个系统一个月只有小几十个活跃数,这个系统创建它训练它呢?同时,数据必须离线,不能上云,必须在公司内部使用,这就是很大的问题。
其次,金融行业要关注专业性、准确性和合规性的问题,什么是专业性问题呢?我说出去的这句话到底怎么样让客户觉得更专业,如何用AI的技术,我们这边是还在思考的。准确性也是一个问题,怎么解决大模型所谓的胡编乱造的问题呢?大家也很担心这个问题。最后合规性的问题,我们可以让大模型说一段话,怎么让这个观点变得可以发布给客户。是不是每次模型生成的内容先让人过一遍,改完再发出来。
这里我们经过调研以后,我们跟客户一起去交流发现的在这几种使用场景上,其实上午下午的各位专家老师也是提过这个点了,我们把这几个点的应用列出来了,通过驾驶员的角度,AI号称副驾驶,我们经过应用产品的落地以后其实有一些是经过训练以后可以变成类似主驾驶的,当然有些甚至连副驾驶都不是,大部分还是作为提供一些重复劳动,基于对以上这些点的应用的思考,我们有了新的技术框架,我们基于基础供应商,比如说华为、阿里,他们提供云服务,我们在上面构建大模型,在上面还会用数据+综合服务+小的业务规则模型去做二次的加工和梳理,最后形成现在的应用和用户需求,我们是基于这样的模型设计我们的产品。
以上,是我们对AI和金融的想法和理解,我觉得金融行业模型产品比较特殊。接下来赋能金融科技我们做了什么东西,我们其实是通过数据和算力助力算法模型全面发力数字化和智能化,因为我们主要是以数据治理和数据算法为核心的一家科技公司,所以我们其实在数据和算力上面有比较先天的优势,包括海量数据库以及各种文本性质的数据解析都是能够支持的,数据的内容方面我们其实能覆盖全资产全周期和全生态的,包括左侧社区内容数据和右侧的公开市场的金融数据,包括全球指数,资金流向,财报行情都是基础数据的供应商。
其次是我们现在可以做到的是除了当中文本类有一部分需要人工加上机器辅助做双重的审核识别去做数据加工以外,其他的各种类型的数据接入几乎全都是通过智能化的手段接入数据的,我们可以在几分钟以内发布所有数据的指标和内容。这是我们发布的数据量,主要是提供一个指标,基于全自动的AI识别的发布体系,基本可以保证一到两分钟发布一个指标。这是算力的情况。
接下来我们说一下对于我们思考的这些问题我们怎么去做这些数字化和智能化的实践,我们其实主要应用方向是三个,文本识别、摘要生成和文本及图的搜索,但是我们要保证这个东西的合规性,所以我们多讲一下应用的东西。首先我们实现了智能化标签应用,我们怎么快速抽取用户的标签,比如说我们选择一个类型的上市公司的公告或者研究报告,我们会把一个类型的上市公司研究报告里面关于这家公司的生产线,关于这家公司的盈利状况,关于人事变动的信息做归集合并,最后形成一张表,甚至会告诉客户你想知道差异的点在哪里,他们之间相同的点在哪里,他会进一步告诉你什么样的东西是对的,什么样的东西是不一样的,有哪些人讲的东西一样,不同点在哪里,这都可以通过追问解答这个问题。这个产品的一期解决了相同点和不同点,二期计划三季度会上线会把追问的功能加上去,实现了在相同点的情况下追问过去一个月的情况怎么样,过去三个月的情况怎么样,甚至为什么他们这么说,这些问题都可以追问,我们三季度会落地这个产品。
我们几乎把所有的研究报告拆开了,比如说这个报告里面有一份图,我就会把图拆出来,如果有数据来源就把数据来源拆出来,甚至我们会拆作者观点,比如说里面会有一句话说我们认为这个东西是这样子的,我们认为这个东西不是这样子的,我会把这个数据抽出来总结出一份作者可能是自己认为的观点的报告写出来,去赋能到前面的产品问答里面去。
接下来是舆情产品,这是新闻资讯的聚拢产品,主要是提供全网舆情的搜索功能,你可以定制法人机构、金融机构甚至上市公司和非上市公司2.5亿家左右企业的信息。
这个产品是最近的产品。我们写论文写研究报告如何做智能质量检查?在组件里面生成了一个产品,这个产品是我们会智能化地搜索这个图表和底稿数据里面有没有映射关系,如果没有映射关系会变成黄色的感叹号,如果有映射关系就会变色绿色的勾。如果产量增加5%,营业收入增加5%,你发现营业收入在5%底稿里面任何逻辑支撑不了5%,要请你解释一下这5%,否则就会被打回。接下来我们希望将这个产品继续打磨推广为论文的撰写、框架撰写的产品,辅助各位老师一起帮助做论文质检。
接下来下一步,可能在明年年初会把垂类的质控模型引入到逻辑梳理里面去,这样的话包括写论文的逻辑可以通过大模型理出来,把这个内容做得更完善,把这个信息做得更透明,这是我们的科技能力,这是我们对监管科技的赋能。