专访飞笛科技创始人CTO姚坤:这是数据+实干的年代
原标题:专访飞笛科技创始人CTO姚坤:这是数据+实干的年代
经历过三次技术浪潮之后,AI正引发越来越多年轻人离开大厂选择创业。
2015年以前,姚坤还是腾讯某研发小组负责人,此后他辞去稳定的工作加入飞笛科技出任创始人CTO,联合两位资深财经媒体人,在距离腾讯大厦一楼之隔的松日鼎盛开启了一段未知的创业之旅。
这恰好与2016年AlphaGo所掀起的人工智能热潮同步。姚坤认为,事件,社交类信息的处理,加载金融场景,是一件很酷又充满想象力的事业。
他指出,正是由于当下AI前沿技术的免费共享,决定了小公司与大公司的技术差距实际上并不大,但对行业的理解力和方法论决定了事情的成败。目前财经数据领域的AI应用还处在初级阶段,其中挑战最大的就是飞笛所在的智能投研市场。
四年多的探索过程中,飞笛曾经“走一步就掉一个坑,爬起来后再掉到另一坑”,逐层叠加这些技术积累并进化后,接下来公司将推出基于全网社交大数据的上市公司情绪感知系统。
虽然还处在弱人工智能时代,但AI给财经数据的处理和应用已经带来改变。姚坤表示,在当下行业底层技术充分开放的阶段,AI创业要更注重下沉,并了解AI的能力边界,再找准突破点推进下去。
AI初阶创业的考验:数据积累与执行力
《21世纪》:作为一名扎根四年的AI创业者,你觉得当前AI创业的机会和挑战是什么?
姚坤:李开复在其《AI·未来》一书中总结过AI所处的阶段,已经从“发明的年代”过渡到“数据和实干的年代”。深度学习算法早在2006年就获得了突破。在2016年AlphaGo战胜李世石之后,深度学习在国内的热潮才被点燃。最近几年AI的发展,都不过是依赖深度学习这项大发展所做的渐进式改善和优化。在这个过程中,AI迅速蔓延到工业界。这一阶段的特点是技术门槛不断降低,对数据和执行落地的要求在提高。
那么创业者的机会有:第一,AI 前沿技术免费共享,新的理论可以被快速试验和应用,决定了小公司在技术上与大公司差距并不大。第二,传统行业效率提升和自动化带来新的商业机会。第三,海量数据价值尚有待充分发掘,比如沉淀已久的化石级数据(比如手写的文稿),由移动应用和传感器产生的新增数据(丰富了用户画像),独特的另类数据(比如啤酒和尿布销量的关联度)等。
挑战方面,首先,如果一个创业者想深入产业推动变革,那么他对行业的理解力和方法论决定了事情的成败,或者说他除了懂AI,还得懂行业。其次,数据价值凸显,应用效果的提升主要靠数据规模和质量驱动,因此数据的获取和处理能力是竞争壁垒的关键。
海量数据的特征是数据源分散,难收集,杂质多,难清洗,数据异构,难融合。难点相当多。
《21世纪》:飞笛的定位是“专注在财经数据智能分析的金融科技公司”,你觉得当前国内AI在财经数据应用领域,公子耳卿处在什么阶段?
姚坤:财经数据领域整体还属于人工智能渗透的初期,机会很多,也都不容易。比较成熟的有个人征信,量化交易,还在路上的有文档审核校对,撰写报告,智能客服,风控,理财,比较远的有智能投顾,智能投研等。
个人征信和量化交易需求明确得较早,是因为数据比较完善,结构化程度高,所以比较好介入。但是面临的问题也比较多,比如个人征信诞生了很多灰色的数据爬取和交易,量化交易方面,各家的“信息优势”差异很小,能否在市场胜出靠的是发现新的数据因子,除了大名鼎鼎的文艺复兴科技,大部分平淡无奇。
文档审核,报告撰写,以及基于财报数据的风控,主要基于金融行业一大类规范文档的识别,利用模板和预设逻辑可以较好的实现。参与这类业务的主要是有技术基因的AI公司。
挑战最大的是飞笛所处的智能投研领域。它的应用领域广,需求场景很多,包括信息和情报监测,风控,投资,投顾,机构数据中台,垂直搜索,App前端,展业获客等。智能投研对能力要求门槛高,因为涉及到NLP(自然语言处理)。另外,业务纵深也是一大挑战,进入具体场景就能发现业务逻辑很复杂,水很深。
财经数据处理的挑战:细化和叠加智能化技术
《21世纪》:飞笛在把AI技术应用到财经数据处理过程中,最大的难点是什么?
姚坤:我们目标比较明确,就是想做财经资讯的自动分类和标签,形成一个信息引擎。资讯的分类与打标签属于NLP这个方向,相比图像识别,技术成熟度比较低。
原因一方面是AI在语义理解上还差得很远,另一方面中文有自身的特点,比如表达简单但内涵丰富,需要依靠上下文和读音才能准确识别。所以我们尽量绕开语义理解,选择可行的方向。但中文是绕不开的,得额外照顾。
《21世纪》:有没有走过一些弯路,掉进过一些坑?
姚坤:感觉是走一步就掉一个坑,爬起来后再掉到另一坑。我们从数据抓取入库就遇到了很多问题,首先是数据源分散,每个信源的网站结构各不相同,需要多种数据解析方式,还需要攻克一些反爬措施。
其次是数据异构。比如有些网站的文章有摘要,有些没有,有些网站有作者字段,有些则没有,有些文章发表时间精确到分钟,有些则只有日期。这样融合在一起时,各种字段残缺。
进入到资讯分类打标签阶段,问题就更多。列几类我们在信息抽取时遇到的麻烦,这主要在于表达方式灵活多样。比如对日期时间的识别,会有很多表述:“2019年8月31日-9月24日”,“06∶35”,“9月举行”,“本月5日”,“10分钟前”,“2天后”,这些要预埋很多模板逻辑来提取。
还有歧义词的问题,这比较分散,比如有家上市公司叫“好想你”,为了识别这三个字在一篇文章中到底是不是上市公司,需要词法分析和句法分析辅助判断。
另外就是如何排除干扰项,例如,“国泰君安证券研究所所长黄燕铭对2019年余下的A股交易时间进行了预判”。这条按模式会匹配到“国泰君安”这家上市公司,但内容并不是这家公司的事情,需要补充规则或喂语料来识别。每一个坑就意味着一项工艺待突破。
《21世纪》:这些微小的,不断叠加的工艺突破对创业公司意味着什么?
姚坤:这是每一个AI创业公司都要经历的过程。大的方向和技术框架目前比较成熟,剩下的都是一个个小问题的解决和积累。比如针对分类或打标签任务,技术方向上,可以选择传统的模式匹配——人工预先设定好模板规则和目标关键词,由机器自动进行字符串正则匹配,也可以选择深度学习——基于DNN(深度神经网络)的NLP已经形成了一整套相关技术,包括词向量,句向量,编码器-解码器,注意力机制,transformer和各种预训练模型,而目前大热的预训练模型是以无监督的方式使用大规模文本语料库进行预训练,然后使用特定任务的小数据集进行微调。在实施过程中,每一种方法都可以尝试,综合使用,这考验的是团队执行力。
《21世纪》:机器学习依赖高质量的数据,财经信息的处理在这方面是否体现得更明显?
姚坤:前面我们提到技术的前沿在不断推进,但针对财经领域的信息处理,目前仍然是非常依赖数据。首先标注门槛高,需要有行业相关背景知识。其次,数据有隐含歧视的问题,通过数据分析,可能会得到歧视性的结果。另外数据有偏差,数据在标注的时候请人来做,人是会偷懒的,公子耳卿会想最简单的方法去标注,结果标注的数据千篇一律,基于这样的数据学的模型也只能达到标注范围内的好效果,到真实数据上一跑,就不好使了。此外还有数据隐私保?等问题。
实际落地中,上面提到的技术我们都会结合使用。效果跟人力投入正相关,训练机器是个长期磨合的事情。在这个过程中,我们创建了飞笛自有的非结构化数据的价值评估体系,生成了上市公司图谱以及上市公司事件库。
应用未来:搭建上市公司情绪感知系统
《21世纪》:听说飞笛即将推出基于全网社交大数据的上市公司情绪感知系统?
姚坤:飞笛从2015年成立,已经有超过4年的财经数据储备,数据包含雪球,微信等活跃社交媒体,传统媒体及门户,政府官网,垂直行业网站等,也包括结构化场内数据接入如万得等。今年开始得到股东新浪集团的支持,接入了微博全量财经社交大数据。
我们计划于10月推出微沸点情绪感知系统,它是针对上市公司,投资者和金融机构,提供的一款基于新闻媒体和社交大数据的实时风险预警,机会提示跟踪系统,同期还将在《21世纪经济报道》旗下21财经APP,微博推出上市公司情绪异动指数。我们认为,这是飞笛四年厚积薄发的第一款重量级产品。
《21世纪》:社交言论大数据的处理难度是不是更艰巨了?
姚坤:难度更高了。一方面相对于传统媒体生产的新闻资讯,微博这种匿名社交的内容更随意,暗语和表情更多。因此对信息做提纯,分类及标签化难度都变大了。另一方面是结合业务,有新的能力需要补。比如计算信息与它讲到的公司的关联度,计算情绪异动指数等。
在此过程中,我们创建了上市公司事件库,这是一个以公司为核心,多维标签化的资讯库,比如信息是正向还是负向,信息是描述公司产品,高管还是子公司。另外,我们还创建了资讯的价值评估方法,从时间,热度,价值和相关性几个维度对信息进行解读,比如信息的传播量,重要度等。我们之前积累的资讯标签化和知识图谱起到了重要的能力支撑。
《21世纪》:飞笛的起步恰好与AlphaGo战胜李世石引发的中国AI浪潮同步,能否畅想下接下来的AI时代是什么样?
姚坤:如果机器能自己利用先验知识,举一反三,主动学习新知,就完美了。也就是强人工智能,但目前来说还远远看不到。
大胆猜想一下,理想未来是结合常识图谱来给AI铺垫底层价值观,利用强化学习让AI沿着设定的价值观自己摸着石头过河。
但是眼前对于想参与AI的创业小公司,务实的方向还是下沉到传统行业,利用已经积累的数据,改善流程,提升效率。趁着目前AI前沿技术还能免费共享,与大公司技术差距还不大的好年代,撸起袖子加油干。飞笛与业内一些大公司也经常有交流,对财经资讯的结构化处理这个点,飞笛比这些大公司更有优势。最后,入坑之前,还是先了解下AI的能力边界,合理预期,找到需求场景和能力满足的结合点。