科学技术_观点_转创国际教育

科学技术 当前您所在的位置：首页 > 观点 > 科学技术

专家观点

热点文章

刘丙哲：基于知识图谱的保险行业短期健康险产品图谱

日期：2022-03-15 阅读：532

文 / 中国大地财产保险股份有限公司信息科技部副总经理刘丙哲

中国大地财产保险股份有限公司信息科技部陈诚

我国健康险市场是高增长高潜力的巨大蓝海市场，其发展不仅是构建多层次医疗保障体系的重要组成部分，同时也是“健康中国2030”国家战略的重要内容。目前，健康险原保费收入高速增长，保费占比持续提升。2020年，中国全年健康险原保费收入达到8173亿元，同比增长15.67%。从健康险产品结构而言，疾病保险在健康险保费中占主体地位。

健康险产品的发展趋势与困境

健康险是保险业发挥风险保障和风险管理功能的重要体现，对于保险业参与改革民生和创新社会管理具有重要意义。然而，我国商业健康险的发展一直比较困难，主要体现如下。

首先，健康险产品数量多，条款设计复杂。据复旦大学保险科技实验室统计，重大疾病保险条款所保障的疾病数量从2009年平均保障21.6种疾病提升到2019年平均保障62.9种疾病，年均增长率达到11.3%。疾病及相关保障的专业性，极大的增加了产品设计开发和销售的难度。

其次，由于健康险行业发展迅猛，市场秩序混乱、信息不对称等问题凸显，投保人无法准确地判断各保障疾病与自身状况的匹配程度,而客服服务也常因相关专业知识的缺乏，不能进行有效支持；同时近年来重大疾病保险产品多采用轻症和中症保障作为产品的创新点，而各产品对同一疾病的描述也存在差异，往往出现赔付纠纷。

以上两点导致了健康险产品市场纷繁芜杂，大幅增加了健康险产品的设计、开发、销售、客服支持、理赔整个流程的难度，成本也因之大幅提升。

基于知识图谱的探索与应用

中国大地保险依托自身大数据平台的建设基础，根据公司发展，将市售行业健康险条款进行了收集、归纳和整理，尝试建设了一个覆盖大病、重疾、失能、护理四大类健康险及热门附加险等品种的健康险产品知识图谱（下简称“知识图谱”）。其不仅对行业研究起到了重要作用，也是公司在健康险产品设计及产品创新方面进行的积极探索和创新。

知识图谱的建设，依托于自然语言处理（Natural Language Processing，简称NLP），整合了分词、词性标注、实体抽取、文本分类、主题提取、光学识别（OCR）等多项技术。而其中最关键的是实体命名识别技术（Name Entity Recognition，下文简称NER），依托该技术，对非结构化的条款文本进行基于依存句法与语义角色的三元组识别，将非结构化的文本信息结构化，构成了知识图谱的基础，具体方法见图1。

图1 条款文件结构化过程

首先，系统针对不同类型的来源，特别针对PDF、图片等形式输入的产品、条款用OCR技术进行了统一的格式化校准，以方便后续进行NLP模型处理。

其次，对含有表格的结构化、半结构化数据和文本类非结构化数据，采用了不同的处理流程。对表格数据采用了表格提取技术，直接将其保存至数据库。文本类非结构化数据所含信息相对丰富，经过分词之后，进一步分解为文本分析和文本分类模型两部分。通过中国大地保险自主研发的文本分析模型，提取重点词及词组（疾病名称、治疗手段等），以便后续与同、近义词进行关联检索，并对符合业务需求的重点内容进行摘要；通过文本分类及NER模型，对文本主题进行归纳，并抽取出建设健康险产品知识图谱所需要的实体及关系。最终，将上述两者结合，进入图数据库生成和丰富知识图谱。

为了使图谱更具实用价值，在使用图算法构建图关系的过程中进一步加入了国际疾病分类（ICD-11）及疾病同、近义词库，进一步加强针对疾病与条款、保障责任之间的标准化，加深知识融合。

最后，项目依托搜索引擎技术，对识别后的条款全文及关键实体内容进行索引，实现了对条款名称、保险公司、保险期限、投保年龄、等待期、保险金额、免赔额、免赔比例、保障责任、产品售价等多种关键信息的高速检索，通过将抽象出的实体、属性及关系三元组内容形成健康险产品关系网络，对实体和关系进行横向关联比较及纵深关键点挖掘，直观地进行实体关联分析及迭代优化。同时，系统用户也可以将一些业务知识直接导入知识图谱中，有效进行知识经验的积累和传承。

知识图谱最直接的应用是加快了短期健康险产品的开发速度。以往产品开发完全依赖产品开发人员的知识经验，通过人工收集、整理、摘录、对比产品和条款中的重点内容，进行产品开发，不利于产品快速开发及知识积累。而知识图谱通过NLP技术自动识别入库和高速检索，极大地解放了人工参与过程，开发人员只需检索关心的重点内容即可。

更进一步，通过图查询，在广度和深度上为相关人员提供知识参考。例如：以往通过人工手段很难达到某疾病多角度重点信息对比，也较难关联至相关疾病及其治疗手段的条款约定信息，通过图查询，既可以进行横向同类产品中相关信息的对比，也可以进行纵向深挖，对相关疾病、治疗手段的约定信息进行比较（见图2）。

图2 实体关系图举例

以往每款产品平均开发周期长达40~50天，图谱应用上线之初就将产品开发周期缩短至35~40天左右，相信随着图谱知识的进一步扩充，提升将不止于此。

健康险产品知识图谱的作用

1.优化公司健康险知识库。保险条款本身具有相当的复杂性，这一点在条款内容描述中表现得尤为突出，其中出现的大量疾病、医学专业词汇，不仅增加了消费者对条款内容的理解难度，也一定程度妨碍了保险代理人对条款的理解，从而阻碍了健康险产品的销售。通过构建健康险产品图谱，从多维度提取保险条款中相关内容，有助于公司健康险销售知识库的建立与维护。

2.辅助保险产品设计。健康险产品图谱中拥有大量关于健康险产品的结构化和半结构化知识数据，产品设计者可以利用这些数据作为辅助，进行健康险产品设计。大量的结构化数据能够较为清晰地反映市场上健康险保险产品的关键信息，例如责任范围、赔付条件、续保条件等；对于非结构化的数据，如疾病标准名称、定义、描述、治疗手段描述等，其用语也具备一定的规范性和专业性。运用健康险产品知识图谱数据可以从多维度获取健康险产品的知识，并实现产品间多维比较。从而将健康险产品的功能定位清晰化，进一步细分和挖掘不同人群的健康保障需求，推动多元化的产品设计与服务。

健康险产品知识图谱应用展望

建立产品知识图谱，对健康险知识进行积累，不仅能够解决销售知识传承、产品开发等问题，随着近年来人工智能在保险业应用的进一步扩大，辅以语音语义检索、智能对话等新技术，能够使其被快速扩展为帮助代理人展业的智能销售助手、降低运营成本的客服助手机器人等。产品知识图谱开发和建立，也是公司在丰富原有营销手段、进一步加强客户服务体系、产品差异化开发等方面进行的一次大胆尝试。