Coronavirus: Medizinische Suchmaschine hilft Ärzten bei Covid-19-Diagnose
Das System basiert auf Public-Domain-Dokumenten und verwendet einen vektorbasierten Suchalgorithmus. Es kann bereits ausprobiert werden.
Wissenschaftler der Beuth Hochschule für Technik Berlin entwickeln eine Deep-Learning-Suche, die medizinische Berichte, Dokumente und Datenbanken nach Krankheiten durchsuchen kann. Die Contextualized Discourse Vectors (CDV) sollen so etwa Ärzten helfen, Symptome, Ursachen und Krankheitsbilder von Covid-19-Patienten besser nachvollziehen zu können. Das Modell kann aber auch auf andere Krankheiten angewendet werden. "Das hier vorgestellte Modell kennt über 27.000 Krankheiten und 14.000 klinische Aspekte wie z. B. Symptome, Diagnostik, Ursachen, Therapie, Prävalenz etc.", sagt Forscher Sebastian Arnold Golem.de.
Anwender nutzen für die englischsprachige Suche zwei verschiedene Eingabefelder. Dort werden die jeweilige Krankheit - etwa "Covid-19" und ein spezieller Suchbegriff, etwa "Diagnostic approach", "Symptoms", oder "Vaccines" - eingegeben. Anschließend werden Ergebnisse als Textausschnitte in einer Liste präsentiert. "Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent direkt mit einem passenden Abschnitt beantworten (Recall@1) und zu 98 Prozent auf der Top-10-Ergebnisseite (Recall@10)", sagt Arnold. Konkurrenzlösungen wie das BM25-Modell seien in diesen Tests weniger genau gewesen, heißt es.
"Wir stellen die Paragrafen, die eine mögliche Antwort mit hoher Relevanz enthalten, in blauer Farbe dar. Manchmal ist sich das Modell sogar so sicher, dass ein Satz besonders relevant ist und dann hebt die Software diesen Satz in fetter Schrift besonders hervor", beschreibt Professor Alexander Löser die Suche. Die Datengrundlage stellen diverse Quellen, die laut den Entwicklern in den Jahren 2019 und 2020 aktualisiert wurden, darunter sind Public-Domain-Ressourcen wie Wikipedia, Cord-19, Pubmed und die Datenbank PMC Open Access, die unter der CC-BY-NC-SA-Lizenz steht. Das Modell selbst nutzt etwa das Open-Source-Sprachmodell für Biomedizin Biobert, das bereits vortrainiert ist und medizinische Zusammenhänge in Text erkennt. Aber auch andere Lösungen sind in der Suche implementiert.
Sechs Stunden Training
Es scheint, als sei das Training eines CDV-Modells dabei nicht unbedingt ressourcenaufwendig. Laut Arnold dauert das Berechnen auf zwei Nvidia-Tesla-P100-GPUs etwa sechs Stunden. Das System kann also relativ schnell auf einem aktuellen Stand gehalten werden. Einzelne Embeddings basieren dabei nicht auf festen Suchbegriffen oder zusammenhängenden Zeichenketten, sondern abstrahiert diese in Vektoren. Die Grundlage ist das Open-Source-Modell Fasttext, dessen Ansatz Arnold in einem Satz erklärt: "Die Bedeutung eines Worts lässt sich durch seinen Kontext beschreiben". Dem Zielwort zugeordnete Begriffe sind dabei in Vektoren repräsentiert, die in eine ähnliche Richtung zeigen. Daran erkennt das Modell, dass diese Begriffe zu einem sinnvollen Ergebnis führen.
Im Fall von Covid-19 haben die Entwickler allerdings einen entsprechenden Vektor manuell hinterlegt, da sich bis vor wenigen Monaten dazu noch keine Informationen finden ließen. Anschließend wird dies in der Suche mitberücksichtigt. Das komplette Modell muss laut Arnold nur dann neu trainiert werden, wenn sich die grundsätzliche Sprachform der Quelldaten ändert. Das ist etwa bei Publikationen in anderen Sprachen außerhalb von Englisch der Fall.
Spezialisiert ist besser
Auf die Frage hin, was den CDV-Ansatz von etablierten Alternativen wie Google Scholar oder Pubmedcentral unterscheidet, hat das Forscherteam direkt eine Antwort parat. Diese basieren auf Stichwortsuchen, die in beliebiger Kombination als Suchbegriffe gelten können. Dadurch seien die Ergebnisse oft sehr allgemein gehalten und weniger gefiltert. Da sie nach Relevanz sortiert werden, zeigen sie zudem wohl sehr alte Artikel prominent an. Für aktuelle und bisher weniger erforschte Krankheiten wie Covid-19 sind solche Ergebnisse sicherlich kaum hilfreich.
Im Vergleich zu Konkurrenzprodukten wie dem Deep Structured Semantic Model von Microsoft oder Hierarchical Attention Retrieval sei die verktorbasierte Ähnlichkeitssuche zudem performanter, da die Alternativen rechenaufwendige Methoden wie Inferencing verwenden. Durch die zusätzliche Ausrichtung auf medizinische Dokumente und die Implementierung von Biobert ist die Anfrage mit dem CDV-System der Beuth-Hochschule wohl um einiges schneller.
Dass CDV trotzdem recht viele weniger relevante Ergebnisse liefert, liegt wohl am in der Medizin oft sehr langwierigen Review-Prozess. Per Peer-Review werden Forschungsberichte von Spezialisten bewertet. "In einem zeitlich beschleunigten Szenario wie der Covid-19-Pandemie ist der Review-Prozess oft noch nicht durchlaufen und es gibt deshalb keinerlei Einschätzung zur Qualität der Publikationen", sagt Arnold.
Deshalb ist CDV, das auch auf Preprint-Server mit bisher nicht validierten Arbeiten zugreift, kein Ersatz für den Review-Prozess. Es soll lediglich eine bessere Übersicht über bereits getätigte Untersuchungen zum Thema Coronavirus geben. Das ist bereits eine kostenlose Hilfe für Fachleute, die sich damit täglich auseinandersetzen.
"Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent...