Die hohe Schule der Algorithmen

Einen Einblick in das Herz des Master Patient Index gibt Software Architect Christian Ohr.

Die Kernaufgabe eines Master Patient Index ist die eindeutige system- und einrichtungsübergreifende Identifikation von Patienten. Durch die Verknüpfung der Patientendaten ist es möglich, die medizinischen Daten, die in unterschiedlichen Einrichtungen gespeichert sind, zu einer virtuellen elektronischen Patientenakte zusammenzuführen.

Trotz zahlreicher nationaler Personenkennzeichen, wie beispielsweise der Steuernummer, der Rentenversicherungsnummer oder der neuen zehnstelligen Krankenversichertennummer, existiert bislang kein lebenslang gültiger Identifikator, der datenschutzrechtlich für das Gesundheitswesen verwendbar ist und gleichzeitig eine eindeutige Identifikation eines Patienten ermöglicht. Dies macht es erforderlich, Patientendatensätze aufgrund der Ähnlichkeit ihrer demografischen Merkmale zu beurteilen. Wie ähnlich zwei Patientendatensätze sind, lässt sich über unterschiedliche Methoden errechnen. Das Modul Master Patient Index der ICW setzt auf das probabilistische Verfahren nach Fellegi und Sunter [1]. Dabei legt man für flexibel definierbare – und voneinander möglichst unabhängige – Eigenschaften zweier Datensätze vorab fest, wie wahrscheinlich es ist, dass deren jeweilige Werte übereinstimmen, wenn diese Datensätze zur gleichen Person (Wahrscheinlichkeit m) oder zu unterschiedlichen Personen (Wahrscheinlichkeit u) gehören. Im Endeffekt berücksichtigt

  • m Fehleingaben oder mögliche Änderungen (etwa durch Heirat oder Umzug),
  • u die Anzahl der unterschiedlichen Werte einer Eigenschaft (z.B. Geschlecht: 2–3, Nachname: ca. 50.000 in Deutschland, in China weit weniger) und deren relative Verteilung (etwa Wohnort: Großstadt vs. Dorf )

Mit Hilfe logarithmischer Funktionen lässt sich aus diesen Wahrscheinlichkeiten ein Wert ermitteln, der angibt, wie sehr eine solche Eigenschaft für die Ähnlichkeitsberechnung gewichtet wird. Stimmt eine Eigenschaft überein, ist das Gewicht proportional zu log(m/u); stimmt sie nicht überein, ist das Gewicht proportional zu log((1 – m)/(1 – u)).

Die Summe der tatsächlichen Gewichtswerte gibt, normiert auf den Zahlenbereich zwischen 0 und 1, die Wahrscheinlichkeit an, dass zwei Patientendatensätze ein und dieselbe Person referenzieren [2]. Offensichtlich sind einzelne Eigenschaften „gewichtiger“, wenn sie sich selten oder nie ändern, mittels Lesegerät von einer Versichertenkarte eingelesen, anstatt über die Tastatur eingegeben werden und viele unterschiedliche Werte annehmen können. Die neue lebenslange Krankenversichertennummer hat deshalb auch einen deutlich höheren Einfluss auf die Ähnlichkeit als etwa das Geschlecht.

Der Begriff „Übereinstimmung von Eigenschaften“ bedeutet nicht zwingend exakte Gleichheit, sondern kann dabei auch unscharf unter Zuhilfenahme phonetischer und String-Distance-Algorithmen definiert werden. Darüber hinaus ist festzulegen, in welchem Ausmaß fehlende Werte oder Pseudowerte, wie „unbekannt“ – wenn überhaupt – für die Berechnung der Ähnlichkeit eine Rolle spielen. Anhand einstellbarer Schwellenwerte bewertet der Master Patient Index nun, ob die errechnete Wahrscheinlichkeit ausreicht, um die Patientendatensätze automatisch zu verknüpfen oder ob in unklaren Fällen eine Zuordnungsaufgabe erzeugt wird, mit der dem Clearingpersonal, meist Mitarbeiter aus der Patientenadministration, die Entscheidung überlassen wird. Hierfür stellt der Master Patient Index eine intuitive und übersichtliche Benutzeroberfläche zur Verfügung.

Für die Aktualisierung von Daten bereits registrierter Patienten wird entsprechend verfahren, wobei auf Wunsch Verknüpfungen auch wieder getrennt und Patientendatensätze neu zugeordnet werden können. Ebenso kann das Clearing-Personal eine bestehende Verknüpfung jederzeit überprüfen lassen. Dieser probabilistische Ansatz ist anerkannt und wird weitverbreitet eingesetzt. Nun sind Kundenanforderungen an die Matching-Konfiguration aber oft deterministisch – also als „wenn-dann“-Regeln – formuliert. Typische
Beispiele dafür sind:

  • „wenn die Versichertennummer gleich ist, soll auf ,jeden Fall verknüpft werden, ansonsten vergleiche ,Vorname, Nachname, Geburtsdatum und Adresse“.
  • „wenn der Nachname „Notfall“ oder „Baby“ enthält, soll nie verknüpft werden“.
  • „wenn es sich bei zwei Patienten möglicherweise um Zwillinge handelt, soll eine manuelle Zuordnungsaufgabe angelegt werden“.

Diese Anforderungen sind im konkreten Fall meist sehr gut begründet. Oft sind aber Alternativen nicht definiert („wenn-nicht-dann“). Es ist auch oft nicht klar, was passieren soll, wenn mehrere solcher Regeln zutreffen, deren Folgen sich aber widersprechen. Es sind Fälle aufgetreten, bei denen etwa Krankenversichertennummern zwar gleich waren, alle anderen demografischen Daten sich jedoch unterschieden. Zudem erweist es sich als nicht zweckmäßig, deterministische Anforderungen mit einer rein probabilistischen Strategie umzusetzen und sich die dafür benötigten Wahrscheinlichkeiten m und u ungeachtet ihrer eigentlichen Bedeutung zu „erfinden“.

Die Gewichtsfunktion ergibt sich aus der Summe aller Wahrscheinlichkeitsverhältnisse

 

Was also tun? Der Master Patient Index der ICW arbeitet intern eine Reihe von Entscheidungsregeln ab, die für oder gegen eine automatische Verknüpfung und eine Zuordnungsaufgabe sprechen. Eine wesentliche Regel ist die Bewertung der probabilistisch berechneten Ähnlichkeit anhand der einstellbaren Schwellenwerte. Es gibt jedoch eine Vielzahl zusätzlicher Regeln, die sich aktivieren oder deaktivieren lassen. Diese Regeln decken dann zusätzlich die oben erwähnten „wenn-dann“-Anforderungen ab. Beispiele für diese Regeln und deren Entscheidungen sind:

  • Automatische Verknüpfung bei Übereinstimmung einer oder mehrerer Eigenschaften.
  • Keine Verknüpfung und Zuordnungsaufgabe bei Nicht-Übereinstimmung einer oder mehrerer Eigenschaften.
  • Keine Verknüpfung und Zuordnungsaufgabe bei potenziellem Zwilling.
  • Zuordnungsaufgabe bei zu vielen potenziellen Verknüpfungen mit vergleichbarer Ähnlichkeitsbewertung.

Bei sich widersprechenden Ergebnissen bevorzugt der Master Patient Index die Erstellung einer Zuordnungsaufgabe oder die Entscheidung für eine potenzielle Dublette, um falsche Verknüpfungen – und damit möglicherweise das Mischen klinischer Daten verschiedener Patienten in einer Akte – zu verhindern. Um eine möglichst hohe Zuordnungsqualität zu erreichen, bietet der Master Patient Index der ICW also eine Kombination der beiden Möglichkeiten. Die probabilistisch berechnete Ähnlichkeitsbewertung kommt vor allem dann zum Tragen, wenn keine deterministische Regel eine automatische Zuordnung verhindert oder erzwingt. Gleichzeitig wird aber auch eine deterministisch begründete Verknüpfung verhindert, wenn die berechnete Ähnlichkeit auf unterschiedliche Patientenidentitäten schließen lässt, etwa, wenn Krankenversichertennummern irrtümlich doppelt vergeben werden. Auf diese Weise können die oben beispielhaft erwähnten Kundenanforderungen umgesetzt werden, ohne dabei auf die Vorteile der wahrscheinlichkeitsbasierten Ähnlichkeitsberechnung zu verzichten.


[1]. I. Fellegi, A.Sunter, Alan: A Theory for Record Linkage (PDF). Journal of the American Statistical Association. 64 (328): pp. 1183–1210.
[2]. M. A. Jaro.Probab ilistic linkage of large public health data files. Statistics Med 1995;14:491- 498
[3]. D. E. Clark, D. R. Hahn. Comparison of probabilistic and deterministic recordlinkage in  the development of a statewide trauma registry. Proc Annu Symp Comput Appl Med Care. 1995 : 397–401.