Coronavirus: Medizinische Suchmaschine hilft Ärzten bei Covid-19-Diagnose

Das System basiert auf Public-Domain-Dokumenten und verwendet einen vektorbasierten Suchalgorithmus. Es kann bereits ausprobiert werden.

Artikel veröffentlicht am ,
Covid-19 ist aktuell ein häufig gesuchter Begriff.
Covid-19 ist aktuell ein häufig gesuchter Begriff. (Bild: Pixabay.com)

Wissenschaftler der Beuth Hochschule für Technik Berlin entwickeln eine Deep-Learning-Suche, die medizinische Berichte, Dokumente und Datenbanken nach Krankheiten durchsuchen kann. Die Contextualized Discourse Vectors (CDV) sollen so etwa Ärzten helfen, Symptome, Ursachen und Krankheitsbilder von Covid-19-Patienten besser nachvollziehen zu können. Das Modell kann aber auch auf andere Krankheiten angewendet werden. "Das hier vorgestellte Modell kennt über 27.000 Krankheiten und 14.000 klinische Aspekte wie z. B. Symptome, Diagnostik, Ursachen, Therapie, Prävalenz etc.", sagt Forscher Sebastian Arnold Golem.de.

Anwender nutzen für die englischsprachige Suche zwei verschiedene Eingabefelder. Dort werden die jeweilige Krankheit - etwa "Covid-19" und ein spezieller Suchbegriff, etwa "Diagnostic approach", "Symptoms", oder "Vaccines" - eingegeben. Anschließend werden Ergebnisse als Textausschnitte in einer Liste präsentiert. "Im Test konnte unser Modell 4.178 medizinische Fragen über Wikipedia zu 65 Prozent direkt mit einem passenden Abschnitt beantworten (Recall@1) und zu 98 Prozent auf der Top-10-Ergebnisseite (Recall@10)", sagt Arnold. Konkurrenzlösungen wie das BM25-Modell seien in diesen Tests weniger genau gewesen, heißt es.

"Wir stellen die Paragrafen, die eine mögliche Antwort mit hoher Relevanz enthalten, in blauer Farbe dar. Manchmal ist sich das Modell sogar so sicher, dass ein Satz besonders relevant ist und dann hebt die Software diesen Satz in fetter Schrift besonders hervor", beschreibt Professor Alexander Löser die Suche. Die Datengrundlage stellen diverse Quellen, die laut den Entwicklern in den Jahren 2019 und 2020 aktualisiert wurden, darunter sind Public-Domain-Ressourcen wie Wikipedia, Cord-19, Pubmed und die Datenbank PMC Open Access, die unter der CC-BY-NC-SA-Lizenz steht. Das Modell selbst nutzt etwa das Open-Source-Sprachmodell für Biomedizin Biobert, das bereits vortrainiert ist und medizinische Zusammenhänge in Text erkennt. Aber auch andere Lösungen sind in der Suche implementiert.

Sechs Stunden Training

Es scheint, als sei das Training eines CDV-Modells dabei nicht unbedingt ressourcenaufwendig. Laut Arnold dauert das Berechnen auf zwei Nvidia-Tesla-P100-GPUs etwa sechs Stunden. Das System kann also relativ schnell auf einem aktuellen Stand gehalten werden. Einzelne Embeddings basieren dabei nicht auf festen Suchbegriffen oder zusammenhängenden Zeichenketten, sondern abstrahiert diese in Vektoren. Die Grundlage ist das Open-Source-Modell Fasttext, dessen Ansatz Arnold in einem Satz erklärt: "Die Bedeutung eines Worts lässt sich durch seinen Kontext beschreiben". Dem Zielwort zugeordnete Begriffe sind dabei in Vektoren repräsentiert, die in eine ähnliche Richtung zeigen. Daran erkennt das Modell, dass diese Begriffe zu einem sinnvollen Ergebnis führen.

Im Fall von Covid-19 haben die Entwickler allerdings einen entsprechenden Vektor manuell hinterlegt, da sich bis vor wenigen Monaten dazu noch keine Informationen finden ließen. Anschließend wird dies in der Suche mitberücksichtigt. Das komplette Modell muss laut Arnold nur dann neu trainiert werden, wenn sich die grundsätzliche Sprachform der Quelldaten ändert. Das ist etwa bei Publikationen in anderen Sprachen außerhalb von Englisch der Fall.

Spezialisiert ist besser

Auf die Frage hin, was den CDV-Ansatz von etablierten Alternativen wie Google Scholar oder Pubmedcentral unterscheidet, hat das Forscherteam direkt eine Antwort parat. Diese basieren auf Stichwortsuchen, die in beliebiger Kombination als Suchbegriffe gelten können. Dadurch seien die Ergebnisse oft sehr allgemein gehalten und weniger gefiltert. Da sie nach Relevanz sortiert werden, zeigen sie zudem wohl sehr alte Artikel prominent an. Für aktuelle und bisher weniger erforschte Krankheiten wie Covid-19 sind solche Ergebnisse sicherlich kaum hilfreich.

Im Vergleich zu Konkurrenzprodukten wie dem Deep Structured Semantic Model von Microsoft oder Hierarchical Attention Retrieval sei die verktorbasierte Ähnlichkeitssuche zudem performanter, da die Alternativen rechenaufwendige Methoden wie Inferencing verwenden. Durch die zusätzliche Ausrichtung auf medizinische Dokumente und die Implementierung von Biobert ist die Anfrage mit dem CDV-System der Beuth-Hochschule wohl um einiges schneller.

Dass CDV trotzdem recht viele weniger relevante Ergebnisse liefert, liegt wohl am in der Medizin oft sehr langwierigen Review-Prozess. Per Peer-Review werden Forschungsberichte von Spezialisten bewertet. "In einem zeitlich beschleunigten Szenario wie der Covid-19-Pandemie ist der Review-Prozess oft noch nicht durchlaufen und es gibt deshalb keinerlei Einschätzung zur Qualität der Publikationen", sagt Arnold.

Deshalb ist CDV, das auch auf Preprint-Server mit bisher nicht validierten Arbeiten zugreift, kein Ersatz für den Review-Prozess. Es soll lediglich eine bessere Übersicht über bereits getätigte Untersuchungen zum Thema Coronavirus geben. Das ist bereits eine kostenlose Hilfe für Fachleute, die sich damit täglich auseinandersetzen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Nach Cyberangriff
Südwestfalen IT bittet Kommunen um Geld

Viele deutsche Kommunen leiden noch immer unter den Folgen des Cyberangriffs auf die Südwestfalen IT. Nun will der Dienstleister auch noch Geld sehen.

Nach Cyberangriff: Südwestfalen IT bittet Kommunen um Geld
Artikel
  1. US-Airforce: KI-Dogfights gegen menschliche Piloten getestet
    US-Airforce
    KI-Dogfights gegen menschliche Piloten getestet

    Die US-Luftwaffe har erfolgreich einen Nahkampf zwischen dem X-62A-Testflugzeug mit KI-Steuerung und einem bemannten F-16-Kampfflugzeug durchgeführt.

  2. Cities Skylines 2: Entwickler entschuldigen sich für Strand-Erweiterung
    Cities Skylines 2
    Entwickler entschuldigen sich für Strand-Erweiterung

    Nach negativen Bewertungen für ein Add-on reagieren die Entwickler von Cities Skylines 2. Der Ärger hat Auswirkungen auf die Konsolenversion.

  3. Projekt Dauerpower: Forscher entwickeln Wechselrichter mit 720 kW Dauerleistung
    Projekt Dauerpower
    Forscher entwickeln Wechselrichter mit 720 kW Dauerleistung

    Elektroautos können ihre hohe Motorleistung oft nur kurzfristig abrufen. Das soll sich durch neue Verfahren bei der Halbleiterproduktion ändern.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Spring Sale bei Gamesplanet • Neuer MediaMarkt-Flyer • MindStar: AMD Ryzen 7 7800X3D 339€ • Bose Soundbar günstig wie nie • Samsung Galaxy S23 -37% • MSI OLED Curved 34" UWQHD 175Hz -500€ • Alternate: Deep Cool CH560 Digital Tower-Gehäuse 99,90€ • PS5-Spiele -75% [Werbung]
    •  /