innovation

Dokumentenrecherche mit Künstlicher Intelligenz

Wieder und wieder ruft die KI-Software bekannte Muster ab und wendet sie auf neue Entscheidungsfälle an. So lernt sie – und wird immer besser.

Autor: Thorsten Rienth | 4 Min. Lesezeit veröffentlicht am: 08.06.2021

AEROREPORT-Serie Auf digitaler Mission

Angenommen, jemand aus der Entwicklungsabteilung benötigt dringend eine gewisse Information zu einem klar umrissenen Kontext, etwa: Zu einem bestimmten Material einer bestimmten Turbinenschaufel eines bestimmten Triebwerksprogramms. „Dann würde er sich die technischen Mitteilungen zu Material, Bauteil und Triebwerksprogramm aus den vergangenen Jahren besorgen und danach dutzende Dokumente von 20 bis 30 Seiten querlesen“, erzählt Thomas Piprek, Spezialist für PLM-Datenaustausch (Product-Lifecycle-Management) bei der MTU Aero Engines. Am Ende des Tages blickte der Entwickler womöglich in einen Ordner voller PDF-Dokumente mit Farbmarkierungen oder kurzen Notizen am Rand. Oder er säße vor einem leeren Ordner. Schlicht, weil sich zu der Fragestellung nichts Brauchbares in den technischen Mitteilungen befunden hatte.

AEROREPORT-Serie: Auf digitaler Mission

Mit der Digitalisierung hebt die Luftfahrt ab
Hochleistungsspeicher fürs Triebwerksbusiness
Schnell und präzise: Angebotskalkulation mit Big Data
Dokumentenrecherche mit Künstlicher Intelligenz
Neues Datenmanagement für Triebwerkstestdaten
Mastermind für die MTU-Produktion

Dokumente vorsortieren, klassifizieren und zuordnen

„Der Fundus an Informationen, die in den technischen Mitteilungen des Product-Lifecycle-Managements stecken, ist enorm“, sagt Piprek. Die schiere Masse der Mitteilungen aber auch, leider. „Je konkreter Fragestellungen werden, desto aufwändiger wird die Suche nach den Antworten.“ Was, wenn die Dokumente bereits vorsortiert auf den Schreibtisch des Entwicklers kämen? Wenn Relevantes von Irrelevantem getrennt wäre? Wenn wahrscheinlich Zielführendes separiert wäre von wahrscheinlich nicht Zielführendem?

Stunden, wenn nicht gar Tage Arbeit, hätte sich der Entwickler womöglich gespart. „Im besten Fall hätte ihm der Computer innerhalb von Sekunden eine Auswahl jener technischen Mitteilungen bereitgestellt, die ihn bei seiner Fragestellung mit großer Wahrscheinlichkeit weiterbringen.“ Piprek ist angetreten, ein genau solches Programm zu entwickeln. Eines, das mithilfe von Künstlicher Intelligenz – kurz: KI – Dokumente vorsortiert, klassifiziert und zuordnet.

„Künstliche Intelligenz fasziniert mich, seit ich das erste Mal von ihr gehört habe. Aber sie ist kein Selbstzweck. Die Herausforderung für uns KI-Entwickler:innen besteht darin, sie auf konkrete Anwendungsfälle hin maßzuschneidern und
ein benutzerfreundliches ‚Front-End‘ zur Verfügung zu stellen. Nur so können wir die Kolleg:innen, die später mit der Software arbeiten, auch ganz direkt unterstützen.“

Thomas Piprek

MTU-Spezialist für PLM-Datenaustausch bei der MTU Aero Engines

Training-on-the-Job für das KI-Softwaremodell

Ausgangspunkt der Entwicklung ist eine klassische KI-Kaufsoftware. Mit einigen Adaptionen passten sie Piprek und sein Team an die Gegebenheiten der technischen Mitteilungen an. „Das Paket lässt sich gut mit dem Gehirn eines Kleinkinds vergleichen: Das Potenzial ist riesig. Aber das Niveau noch niedrig.“

Um es zu heben werden Kinder in der Schule gefördert. KI-Software dagegen will trainiert werden. Im Falle von Pipreks Projekt: Mit Deep-Learning-Verfahren und gefüttert mit unzähligen Texten aus dem MTU-PLM-System. Aus Software-Perspektive ist es eine Art Training-on-the-Job. „Wir wissen sehr genau, welches Wissen im PLM-System vorhanden und wie es strukturiert ist. Dadurch können wir die KI sehr gut trainieren und evaluieren.“ Hintergrund ist, dass die KI zum Durchspielen der Entscheidungsfälle auf verifizierte Trainingsdaten angewiesen ist.

„Vereinfacht gesagt baut sich das KI-Modul zuerst ein statistisches Modell auf“, erklärt Piprek. „Im nächsten Schritt geben wir ihm Regeln für die zielgerichtete Auswertung der Inhalte vor.“ Mit der Kombination aus Statistik und Regeln tastet sich die Software an die Erschließung der Dokumente heran. Wieder und wieder ruft sie bekannte Muster ab und wendet sie auf neue Entscheidungsfälle an. Durch den Abgleich des berechneten Ergebnisses mit dem gewünschten Zielergebnis lernt das KI-Modell. Mit jedem Trainingsdurchlauf wird die Software ein bisschen schlauer, schneller, präziser. Je mehr Daten vorliegen und je höher ihre Qualität ist, desto besser das Training. Es entsteht, so lautet der Fachbegriff, ein neuronales Netzwerk.

Darin soll die Software nach Begriffen suchen, die sie aus ähnlichem Zusammenhang kennt oder die sie als Synonym identifiziert. Irgendwann wird sie selbst wenig strukturierte Dokumente inhaltlich erschließen können – und sich auch von schlecht lesbaren Buchstaben eines Scans aus vergilbtem Papier nicht mehr irritieren lassen.

Präziser Blick: Mehr als 15.000 Dokumente lies Thomas Piprek seine KI-Software bereits scannen. Durch dieses Training soll sich die Software ihr neuronales Netz-werk aufbauen und stetig dazu lernen.

Überall, wo viele Dokumente anfallen, würde das Modell viel Zeit sparen

Für die Probe aufs Exempel machte Piprek sich an ein großangelegtes Proof of Concept. Über etwa 15.000 Dokumente ließ er die Software laufen. Ihre Heuristiken und Algorithmen sollten Begriffe und Daten zusammensuchen, die erst einmal nicht als offensichtlich erscheinen und sich auch nicht auf den ersten Blick logisch zuordnen ließen. „Abhängig von der konkreten Fragestellung kam die Software auf eine Trefferquote von 90 bis 95 Prozent“, sagt der MTUler. „Das sind schon ziemlich gute Werte.“

Piprek will sie natürlich möglichst nahe an die 100 Prozent bringen. Und die Anwendung für andere Projekte zugänglich machen. „Einmal für unsere Zwecke trainiert, könnten wir das KI-Modell auch auf andere wenig oder semistrukturierte Datenquellen außerhalb des PLM-Systems loslassen. Das Projektlaufwerk einer neuen Turbinenschaufelentwicklung zum Beispiel.“ Überall, wo viele Dokumente anfallen, würde das Modell viel Zeit sparen – und das ganz unabhängig davon, ob es sich bei den Eingangsformate um Scans, PDFs oder E-Mails handelt.