丹渥智能CEO白雪受邀赴ITL做投研场景智能搜索报告
2021年04月11日
智能投研技术联盟定位于服务智能投研技术领域的跨行业、开放性、非营利性的交流平台,由72家从事智能投研技术应用、开发、研究、服务和支持的相关机构和组织共同发起设立。2021年4月10日,智能投研技术联盟(ITL)“自然语言处理”智能技术应用研讨会在上海举行,丹渥智能CEO白雪博士,受邀参与进行了投研场景中的智能搜索实践报告。
2021年4月10日(星期六)在上海北外滩来福士广场上海金融科技园,丹渥智能CEO白雪博士受邀参加了智能投研技术联盟(ITL)举办的智能技术应用研讨会,进行了智能投研场景中的实践技术分享,就投研场景中的智能搜索实践进行了报告。
而标签体系的建设,是一个基础性的、系统性的工程。文本类、时间序列类型数据,都可通过标签,与搜索相匹配。例如,行业指标数据,需要遵循一定的命名规范和体系化的属性维度标签化,才方便在细粒度的查询中更精准的进行匹配。丹渥与恒生研究院合作,共同从六个大的维度建设行业标签体系:从宏观、到行业,到微观标的股票、债券、基金、衍生品,力求为金融行业事件标签标准化建设,做出一些贡献。
同时我们与恒生研究院NLP团队研发上线NL2SQL数据库问答式搜索,用户输入自然语言,由系统基于NLP技术解析用户查询意图、建模数据特征,生成形式化查询语句,获取查询结果,在投研场景常见的表数据库查询中发挥着重要作用。
在数字丹渥系统中进行全站搜索的时候,我们单独做了个模块进行研报图表的抽取,可以更加高效快捷的定位研报里面的数、图、表,提效研报知识获取的这一动作,同时也支持图表内容OCR识别,方便对图表的内容进行二次提取和加工,进一步提高投研人员获取数据的能力。
如果用户在数字丹渥平台进行公司信息搜索时,首先系统会根据用户查询的语句进行判断,然后检索平台底层所有的功能模块和相关数据,通过匹配之后返回客户最想要的结果。
01 投研场景的搜索痛点
搜索技术应用在投研场景中,主要的难点有:开放意图识别;场景深度语义,可结合产业链图谱加持搜索;以及投研标签库的建设,包括领域词库、同义词库,细分行业库、品牌词库等各类标签库的建设与更新机制等等。
这些难点都是投研场景中进行搜索技术应用时不可避免的问题,而在解决这些难点以外,本身客户还有新的需求要满足,比如在期待搜到图片内的关键词,想提取图片内容再加工;期待有丰富的底层数据库,可以搜历史20+年的研报、新闻、edb数据等 ;期待搜索引擎能充分理解投研场景,根据需求返回各种数据类型 ;期待能识别新事件、投资热点、细分行业并对应到公司和属性等。都是要考虑进去进一步满足的用户需求。
02智能搜索的算法技术
搜索技术在各行各业领域都有应用,如何针对金融投研业务场景,有针对性的对技术进行改进,面对这样的诉求,我们给出体系化的解决方案,下图是搜索整体算法结构:query输入,首先是预处理,包括分词、实体识别等,接下来可进行搜索提示和拼写纠错,再是查询解析和拓展,通过ES全文检索、数据库表格检索、KG库检索等,最终排序输出结果。
其中,数据库知识数据的丰富程度,很大影响到查询效果。可以通过构建机构特色的投研中观库,将多个第三方供应商的数据接入、整合,为投研服务提供一个全面的底层知识数据库的支撑。通过产业链知识图谱、股权图谱、事件图谱,自动更新系统词库,包括公司、产品、概念、属性及其同义词、相关词等,进一步支持NLP分类引擎,为文档打上个股、行业、事件等标签,与搜索输入相匹配,基于场景提供更丰富的返回结果。
03搜索技术应用实例
同时搜索功能还会去匹配目前数字丹渥已有功能模块中的内容,比如说产业链和投研框架模块,会自动匹配用户搜索公司所在的产业链和投研框架,作为补充结果返回给用户。
除此之外,数据丹渥平台还内嵌了云盘、新闻资讯、数据、关系图谱等产品模块,作为搜索内容的补充,扩展用户的搜索边界,获得更多有用的知识数据,满足投研场景用户的需要。总而言之在投研场景中,从找数据,到做分析,到结果展示的全流程里,搜索是一个尤为重要的入口。搜索作为一个极为易用的国民级工具,既可在轻型化投研的移动版中,起到主入口和主连接的作用,同时可以关联打通产业链、投研逻辑、底层图谱,串联智能写作、投研底稿、持仓监控,从而赋能整个投研一体化平台。