文 / 中国大地财产保险股份有限公司信息科技部副总经理 刘丙哲
首先,健康险产品数量多,条款设计复杂。据复旦大学保险科技实验室统计,重大疾病保险条款所保障的疾病数量从2009年平均保障21.6种疾病提升到2019年平均保障62.9种疾病,年均增长率达到11.3%。疾病及相关保障的专业性,极大的增加了产品设计开发和销售的难度。
其次,由于健康险行业发展迅猛,市场秩序混乱、信息不对称等问题凸显,投保人无法准确地判断各保障疾病与自身状况的匹配程度,而客服服务也常因相关专业知识的缺乏,不能进行有效支持;同时近年来重大疾病保险产品多采用轻症和中症保障作为产品的创新点,而各产品对同一疾病的描述也存在差异,往往出现赔付纠纷。
以上两点导致了健康险产品市场纷繁芜杂,大幅增加了健康险产品的设计、开发、销售、客服支持、理赔整个流程的难度,成本也因之大幅提升。
知识图谱的建设,依托于自然语言处理(Natural Language Processing,简称NLP),整合了分词、词性标注、实体抽取、文本分类、主题提取、光学识别(OCR)等多项技术。而其中最关键的是实体命名识别技术(Name Entity Recognition,下文简称NER),依托该技术,对非结构化的条款文本进行基于依存句法与语义角色的三元组识别,将非结构化的文本信息结构化,构成了知识图谱的基础,具体方法见图1。
首先,系统针对不同类型的来源,特别针对PDF、图片等形式输入的产品、条款用OCR技术进行了统一的格式化校准,以方便后续进行NLP模型处理。
其次,对含有表格的结构化、半结构化数据和文本类非结构化数据,采用了不同的处理流程。对表格数据采用了表格提取技术,直接将其保存至数据库。文本类非结构化数据所含信息相对丰富,经过分词之后,进一步分解为文本分析和文本分类模型两部分。通过中国大地保险自主研发的文本分析模型,提取重点词及词组(疾病名称、治疗手段等),以便后续与同、近义词进行关联检索,并对符合业务需求的重点内容进行摘要;通过文本分类及NER模型,对文本主题进行归纳,并抽取出建设健康险产品知识图谱所需要的实体及关系。最终,将上述两者结合,进入图数据库生成和丰富知识图谱。
为了使图谱更具实用价值,在使用图算法构建图关系的过程中进一步加入了国际疾病分类(ICD-11)及疾病同、近义词库,进一步加强针对疾病与条款、保障责任之间的标准化,加深知识融合。
最后,项目依托搜索引擎技术,对识别后的条款全文及关键实体内容进行索引,实现了对条款名称、保险公司、保险期限、投保年龄、等待期、保险金额、免赔额、免赔比例、保障责任、产品售价等多种关键信息的高速检索,通过将抽象出的实体、属性及关系三元组内容形成健康险产品关系网络,对实体和关系进行横向关联比较及纵深关键点挖掘,直观地进行实体关联分析及迭代优化。同时,系统用户也可以将一些业务知识直接导入知识图谱中,有效进行知识经验的积累和传承。
知识图谱最直接的应用是加快了短期健康险产品的开发速度。以往产品开发完全依赖产品开发人员的知识经验,通过人工收集、整理、摘录、对比产品和条款中的重点内容,进行产品开发,不利于产品快速开发及知识积累。而知识图谱通过NLP技术自动识别入库和高速检索,极大地解放了人工参与过程,开发人员只需检索关心的重点内容即可。
更进一步,通过图查询,在广度和深度上为相关人员提供知识参考。例如:以往通过人工手段很难达到某疾病多角度重点信息对比,也较难关联至相关疾病及其治疗手段的条款约定信息,通过图查询,既可以进行横向同类产品中相关信息的对比,也可以进行纵向深挖,对相关疾病、治疗手段的约定信息进行比较(见图2)。
以往每款产品平均开发周期长达40~50天,图谱应用上线之初就将产品开发周期缩短至35~40天左右,相信随着图谱知识的进一步扩充,提升将不止于此。
2.辅助保险产品设计。健康险产品图谱中拥有大量关于健康险产品的结构化和半结构化知识数据,产品设计者可以利用这些数据作为辅助,进行健康险产品设计。大量的结构化数据能够较为清晰地反映市场上健康险保险产品的关键信息,例如责任范围、赔付条件、续保条件等;对于非结构化的数据,如疾病标准名称、定义、描述、治疗手段描述等,其用语也具备一定的规范性和专业性。运用健康险产品知识图谱数据可以从多维度获取健康险产品的知识,并实现产品间多维比较。从而将健康险产品的功能定位清晰化,进一步细分和挖掘不同人群的健康保障需求,推动多元化的产品设计与服务。