Die Literaturrecherche ist ein zentrales Instrument, das von Forschenden genutzt wird, um einen Überblick zu einem Themengebiet zu erhalten und potenzielle Forschungslücken zu identifizieren. Dieser oft manuell durchgeführte Prozess wird durch die exponentiell steigende Anzahl an Publikationen zu einem immer zeitaufwändigeren Prozess. Mithilfe von Large Language Models (LLMs) besteht das Potenzial, diesen Prozess zu automatisieren. Im Rahmen dieser Bachelorarbeit wurde eine automatisierte Pipeline entwickelt, die es ermöglicht, anhand von LLMs Forschungsstände basierend auf relevanter Literatur zu generieren.
Ziel der Computational and Data Science Bachelorarbeit
Zentral wurde folgende Hauptforschungsfrage untersucht: Wie können Large Language Models genutzt werden, um den Forschungsstand basierend auf einer Literaturrecherche zu generieren und welche Handlungsempfehlungen lassen sich daraus ableiten? Weitere Unterfragen fokussierten sich auf die Auswahl geeigneter Modelle und Prompts, sowie auf die Evaluation des Systems. Zusätzlich wurde untersucht, wie sich die Ergebnisse verändern, wenn für die Generierung des Forschungsstands nicht nur Abstracts, sondern Volltexte inklusive Abbildungen und Tabellen von den LLMs als Kontext genutzt werden.
Methodik
Um die Fragestellungen beantworten zu können, wurden in der Arbeit fünf Phasen durchlaufen. Zu Beginn wurde eine umfassende Recherche zu bestehenden Methoden und Technologien im Bereich der LLM-basierten automatisierten Literaturrecherche durchgeführt. Anhand der gesammelten Informationen wurde das System konzipiert, indem ein erster Entwurf der Architektur erarbeitet wurde. Dieses Konzept diente als Leitfaden für die Implementation des Prototyps, der Pipeline für die Automatisierung von Literaturrecherchen. Anhand eines vordefinierten Datensatzes wurde das umgesetzte System evaluiert. Die Ergebnisse konnten dadurch schlussendlich für die Ausarbeitung von Handlungsempfehlungen und Beantwortung der Forschungsfragen genutzt werden.
Umgesetzte Systemarchitektur
Ein strukturierter Datensatz dient als Input für das LLM und gleichzeitig als Goldstandard, womit anschliessend die generierten Texte verglichen werden können. Im Datensatz befinden sich verschiedene wissenschaftliche Publikationen, die einen Abschnitt zum Forschungsstand enthalten. Somit ist bereits vorgegeben, welche Referenzen für die Generierung des Forschungsstands relevant sind. Die Abstracts und Volltexte (ohne Abbildungen und Tabellen) dieser Referenzen sind ebenfalls im Datensatz enthalten. Zusätzlich wurde in der Arbeit ein PDF-Parser entwickelt, der PDFs der wissenschaftlichen Publikationen ins Markdown-Format umwandeln kann. Markdown ist eine leichtgewichtige Auszeichnungssprache mit einer einfachen Textformatierungssyntax. Zusätzlich zu den textuellen Inhalten der PDFs werden anhand eines multimodalen LLMs Tabellen ins Markdown-Format übersetzt und Bildbeschreibungen zu Abbildungen generiert. Ein multimodales LLM ist ein Modell, das zusätzlich Bilddaten verarbeiten und verstehen kann. In der Arbeit wurden die verschiedenen Datenformate genutzt, um zu untersuchen, wie sich die LLMs verhalten, wenn mehr Kontext in Form von Volltexten zur Verfügung gestellt wird.
Anhand von Titel, Abstract, Referenzen und einigen Rahmenbedingungen des Input-Papers wurde ein detaillierter Prompt für das LLM vorbereitet. Ein Prompt beinhaltet alle nötigen Anweisungen, damit das LLM anschliessend den Forschungsstand generieren kann. Insbesondere die Referenzen sind im Prompt mit einer zugehörigen Identifikationsnummer versehen, damit das LLM beim Erstellen des Forschungsstands jeweils Fakten zu entsprechenden Quellen zuordnen kann. Der Output vom LLM wird zum Schluss so formatiert, dass dieser ausgewertet werden kann. Für die Auswertung des generierten Textes werden gängige Metriken aus dem Natural Language Processing (NLP) eingesetzt. Anhand der Metriken kann die Textähnlichkeit zum originalen Text aus dem Datensatz bestimmt werden. Somit kann man verschiedene LLMs vergleichen und anhand der Ergebnisse ein optimales Modell finden. In der Arbeit wurden verschiedene Open-Source LLMs mit 8 bis 32 Milliarden Parameter sowie Closed-Source LLMs von Google und OpenAI verglichen.
Integration des Systems in eine Benutzeroberfläche
Damit die umgesetzte Pipeline ebenfalls interaktiv verwendet werden kann, wurde zusätzlich eine webbasierte Benutzeroberfläche umgesetzt. Diese ermöglicht anhand derselben Input-Informationen, wie in der automatisierten Pipeline, den Forschungsstand zu einem Thema zu generieren. Relevante Publikationen können dabei über eine Schnittstelle in einer wissenschaftlichen Datenbank gesucht und hinzugefügt werden. Anhand aller Inputs kann mit einem gewünschten LLM der Forschungsstand generiert werden.
Der generierte Output wird ebenfalls direkt in der Oberfläche angezeigt und Quellen sind direkt im Text verlinkt, wodurch sie einfach überprüft werden können. In folgender Abbildung ist ein Forschungsstand dargestellt, der beispielhaft am Thema dieser Bachelorarbeit anhand der Benutzeroberfläche erstellt wurde. Der Forschungsstand wurde mit dem LLM Mistral Small 3.1 24B Instruct basierend auf den Abstracts der Referenzen generiert.
Fazit
Die Umsetzung hat gezeigt, dass LLMs ein wertvolles Werkzeug sein können, um die Erstellung des Forschungsstands zu automatisieren. Einige der getesteten LLMs konnten vor allem in Bezug auf die Zitationsmetrik einen F1-Score von bis zu 0,99 erreichen. Dies bedeutet, dass die Modelle die verwendeten Quellen zuverlässig zitieren können.
Eine zentrale und überraschende Erkenntnis der durchgeführten Evaluation war jedoch, dass mehr Kontext nicht zwangsläufig zu besseren Ergebnissen führte. Wurden den LLMs anstelle der Abstracts die kompletten Volltexte der Referenzen, sogar mit zusätzlichen Informationen zu Tabellen und Abbildungen, zur Verfügung gestellt, verbesserte sich die Qualität des generierten Forschungsstands nicht. Dieses Resultat zeigt, dass die Extraktion von relevanten Informationen aus sehr langen Kontexten in diesem Fall, eine grosse Herausforderung für die LLMs darstellt.
Daraus leitet sich die klare Handlungsempfehlung ab, für die automatisierte Erstellung des Forschungsstands vorerst nur die Abstracts der Referenzen zu nutzen. Dieser Ansatz ist nicht nur ressourcenschonender, sondern lieferte nachweislich auch die besseren Ergebnisse. Die Arbeit zeigt das grosse Potenzial von LLMs für die Forschung, deckt aber auch deren aktuelle Grenzen auf. Zukünftige Forschung könnte daran anknüpfen, wie LLMs darin verbessert werden können, die relevanten Informationen auch aus langen Texten effektiver zu nutzen. Ein vielversprechender Ansatz stellt die Untersuchung von zusätzlichen Zusammenfassungs-Verfahren dar, die Volltexte zuerst gezielt verdichten, bevor sie für die Generierung des Forschungsstands verwendet werden.
Unbegrenzte Karrieremöglichkeiten in Informatik, Data Science und Computersimulation?
Jetzt zum Studium Computational and Data Science anmelden!
Dieser Blogbeitrag wurde von Leandro Gregorini, Absolvent der Klasse CDS21TZ über seine Bachelorthesis verfasst.