医疗健康行业中个人信息去标识化的技术方案_北京软件和信息服务协会网络安全产业平台

医疗健康行业中个人信息去标识化的技术方案

发布日期：2023-03-22 作者：来源：分享：

医疗健康行业中个人信息去标识化的技术方案

编者按

在医疗健康行业，共享患者数据对改善和突破医疗技术至关重要，尤其是处在海量数据与人工智能技术的时代。但在利用和共享自然人的医疗健康数据同时，还应重点考量个人信息的安全风险。因此，如何在确保患者个人信息安全的同时实现数据共享和访问成为业界关注的焦点，医疗行业数据充分去识别化的技术方案因而进入了行业相关方的视野。

本文在HealthITAnalytics发布的Exploring Data De-Identification in Healthcare一文的基础上，阐释了医疗行业中数据去识别化技术及其与个人信息保护、人工智能和连接设备运用之间的关系，以探讨医疗健康行业中个人信息保护与数据共享的两全之策。01 采取避免患者信息的“二次识别”的控制措施

最基本的“去识别化”是指无法根据病历中的信息重新识别自然人，通常涉及删除、隐藏个人姓名、出生日期、性别、地址或其他信息。除了这种基本的去识别化外，医疗行业利益相关者还需要了解其他信息以及可识别的级别，以保护患者信息。

实际上，存在一种超出潜在可识别性的信息级别，比如患者的IP地址、与患者起搏器相关联的唯一设备ID、仅患者就诊组织内可见的病历编号等信息。从理论上讲，这些信息很容易重新识别到该患者。因此，人们需要采用额外的手段，对这类级别的信息去识别化，并且该操作应当持续到自然人个体不再容易被识别为止。换句话说，除了提取个人身份信息之外，还要有额外的信息保护和控制措施。

一个通过关联信息进行识别的例子：
一位亿万富翁在去年接受了针对特定类型癌症的特定治疗，通过与所选择的治疗方案、癌症类型和时间范围等信息的关联，以及在医疗环境之外（例如在社交媒体平台上）获得的健康信息，此患者信息变得可识别。

因此，可以从两个方面去考虑去识别化：一是提取特定信息，避免可以与特定个体相关联的信息，或者串联起来可以识别特定个体；二是如何使用一组数据集的因素组合来追踪特定个体。这不仅仅通过提取特定信息来实现，还通过限制数据集查询到特定个体的方式，防范追踪到特定个体。

02 通过隐私增强技术推进大规模医疗协作

在医疗行业，数据提取在个人信息保护合规方面发挥着重要作用，但不断发展的数据分析技术（如AI技术）为符合合规标准进行数据去识别化时，也带来了新的挑战和机遇。

AI技术有着更强大的信息识别功能，在AI面前，使用传统的去识别化合规定义，会遇到一些问题。例如，由于AI技术比传统分析框架更能够实现高水平的图像重建，AI可以将识别面部的患者头部CT扫描用来重建患者面部特征。因此，从理论上讲，AI技术能够在无需任何其他潜在的可识别信息的情况下，重新识别患者。

解决该问题的关键在于两个方面：第一，如何充分混淆核心数据，无论是通过数学转换、密码转换还是其他方式，从本质上有效地使其在单个数据点上实现数据用户的不可见，或者拦截试图访问该数据的其他人；第二，如何确保所进行的分析操作的核心目的不是识别人群？可在流程中，使用技术方法、合规标准方法，以及手工操作的方法。

人工智能在帮助研究人员深入了解疾病和改进治疗方面有巨大前景，但如果不能广泛访问人群的数据集，医疗协作和研究将受到严重限制，医学研究与治疗的进展可能会停滞。

仅使用传统“混淆或提取个体标识符”的去识别方法，将限制医疗行业的发展。因此，确保数据不被复制到多个数据组中，使个人无法拦截或恶意使用是至关重要的。这就是隐私增强技术（PET）发挥作用的地方，即在整个数据生命周期中，基于人工智能的技术可帮助用户和组织来保护个人信息。

根据OECD在2023年3月8日发布的《新兴增强隐私的技术（Emerging privacy-enhancing technologies）》，隐私增强技术（PET）是一种数字解决方案，即数字技术和方法的集合，PET允许收集、处理、分析和共享的信息，同时保护数据的机密性和隐私。

PETs可以分为四类：数据混淆、加密数据处理、联合和分布式分析以及数据问责工具。

数据混淆工具包括零知识证明（ZKP）、差分隐私、合成数据，以及匿名化、假名化工具。这些工具通过改变数据来增加隐私保护，增加 "噪音"或删除识别细节。混淆数据可以使保护隐私的机器学习，并允许信息验证（例如，年龄验证）。而不需要披露敏感数据。然而，如果不仔细执行，数据混淆工具可能会泄露信息。例如，在数据分析和补充数据集的帮助下，匿名的数据可以被重新识别出来。
加密的数据处理工具包括同态加密，多方计算包括私有集相交以及可信的执行环境。加密数据处理PET允许数据在使用中加密，从而避免了在处理之前需要对数据进行解密。例如，加密的数据处理工具被广泛部署在冠状病毒追踪应用中。然而，这些工具有局限性。举例来说，它们的计算成本往往很高。

‍联合和分布式分析允许在数据上执行分析任务，而数据对执行任务的人来说是不可见或不可访问的。例如，在联合学习中，一种技术越来越受到关注，数据在数据源处被预处理。在这种方式下，只有摘要统计结果被传递给执行任务的人。联合学习模型被大规模部署，例如，在移动操作系统上的预测性文本应用中，以避免将敏感的击键数据送回。‍

数据问责工具包括问责系统、阈值秘密共享和个人数据存储。这些工具的主要目的不是在技术层面上保护个人数据的机密性，因此通常不被视为技术层面的内容。因此，通常不能称为严格意义上的PET。然而，这些工具试图通过让数据主体控制自己的数据来加强隐私和数据保护。并制定和执行何时可以访问数据的规则。大多数工具都处于早期开发阶段，用例集较少且缺乏独立的应用。

PET不仅仅是特定数据标识符的提取，还能限制数据的移动，同时还允许对数据进行分析操作。这将有助于减少风险，在不会危及患者个人信息安全的前提下充分利用数据。当然，PET并不能完全消除风险。因此，还需要通过尽职调查的方式，了解数据运行的算法，并保持数据用户和数据所有者之间的密切沟通。以上技术和方法给数据提供者和患者创造了通过AI驱动的数据去识别化，实现数据访问与数据共享。

03 更新个人信息保护规则框架，满足复杂连接设备与技术的合规要求

从个人信息传输到医院的角度来考虑连接设备时，由于医院与患者之间存在“合同”，因此个人信息保护规则框架如何影响设备数据传输问题是相对简单的。然而，与去识别化一样，连接设备与个人信息保护规则框架合规问题却极为复杂。

在此类情况下，数据处理者可能是执行检查的卫生系统或第三方，这给个人信息保护规则框架合规制造出额外的考虑因素。当人们考虑到患者的数据不仅存储在医生办公室，而且广泛分布在只有某些人可以访问的云设备时，问题变得愈来愈复杂。

归根结底，所有问题都回到了协调旧的个人信息保护规则框架与更新技术的矛盾当中。

医疗行业必然是保守的，人们不希望医疗行业过于创新。尤其在涉及到人们的个人健康时，并不想产生风险。因此，无论是药物，还是医疗技术，人们都希望明确事物如何运作、为何如此运作，并拥有适当的框架来证明新事物的使用是合理的。此外，在讨论医疗行业中数据去识别化问题时，需要对临床医生、研究人员、监管机构、律师和个人信息保护合规专家、认证人员等不同群体进行培训。

同时，法律框架也需要演进，以适应医疗行业数据去识别化的需求。旧的法律框架没有考虑到现实中存在扩展保护级别需求的新技术。因此，仍需要在个人信息保护规则框架内，进一步细化对医疗健康行业数据去识别化的解释。

参考资料：

1.Health Insurance Portability and Accountability Act of 1996 (HIPAA)，https://www.cdc.gov/phlp/publications/topic/hipaa.html.

2.OECD:Emerging privacy-enhancing technologies,https://www.oecd.org/digital/emerging- privacy-enhancing-technologies-bf121be4-en.htm

医疗健康行业中个人信息去标识化的技术方案

医疗健康行业中个人信息去标识化的技术方案

你知道你的Internet Explorer是过时了吗?