Volltext-Downloads (blau) und Frontdoor-Views (grau)

Retrieval-Augmented Generation mit LLMs in finanzbezogenen Frage-Antwort-Systemen

Retrieval-Augmented Generation with LLMs in Finance-Related QA-Systems

  • Die natürliche Sprachverarbeitung hat durch Fortschritte im maschinellen Lernen, insbesondere durch den Einsatz neuronaler Netze, einen Wandel von klassischen statistischen Methoden hin zu leistungsfähigen Large Language Models wie GPT, LLaMA oder Mistral erfahren. Diese Modelle demonstrieren eindrucksvolle Fähigkeiten in der Textgenerierung und der Bearbeitung komplexer sprachlicher Aufgaben. Mit Zunahme ihrer Integration in unternehmerische Prozesse und Einsatzmöglichkeit im Finanzsektor, rückt jedoch auch ihre Anfälligkeit für Fehler in den Fokus. Ein zentrales Problem stellt die sogenannte Halluzination dar, bei der plausibel klingende, jedoch faktisch unzutreffende Inhalte generiert werden. In regulierten Domänen, wie etwa dem Finanzwesen, können derartige Fehler zu signifikanten Risiken führen. Ein vielversprechender Ansatz zur Reduktion dieser Problematik ist die Retrieval-Augmented Generation, bei der externe Wissensquellen zur Kontexterweiterung zur Inferenzzeit der Modelle herangezogen werden. Die vorliegende Arbeit hat die Intention, den Einsatz von Retrieval-Augmented Generation in domänenspezifischen Frage-Antwort-Systemen im Finanzbereich zu untersuchen. Zu diesem Zweck wurde ein prototypisches System bestehend aus Retrieval- und Generierungskomponente entwickelt, das Finanzberichte börsennotierter Unternehmen als Wissensquelle nutzt. Die Architektur integriert ein Embedding-Modell, eine Vektordatenbank sowie das Modell Mistral-7B. Die Evaluation erfolgt anhand eines Referenzdatensatzes, der Frage-Antwort-Paare und zugehörige Kontexte umfasst. Zur Bewertung werden sowohl klassische Retrieval- und Generierungsmetriken als auch eine sprachmodellgestützte Bewertung mithilfe von GPT-3.5 eingesetzt. Die Ergebnisse zeigen, dass Retrieval-Augmented Generation im Vergleich zum rein generativen Ansatz zu konsistenten Verbesserungen in Bezug auf Antwortqualität, Kontextbezug und Reduktion von Halluzination führt. Gleichzeitig identifiziert die Analyse Schwächen bei der Verarbeitung quantitativer Angaben und künftige Potenziale zur Optimierungen durch Reranking oder Fine-Tuning auf Finanzdaten. Der entwickelte Prototyp ist unter https://github.com/0xBuro/FinLLM-RAG-Eval verfügbar.
  • Natural Language Processing has undergone a significant transformation through advances in machine learning, particularly with the adoption of neural networks, shifting from classical statistical methods to powerful Large Language Models such as GPT, LLaMA, and Mistral. These models demonstrate impressive capabilities in text generation and handling complex linguistic tasks. However, with their increasing integration into business processes and applications in the financial sector, their susceptibility to errors has also become a critical concern. A central challenge is the phenomenon of hallucination, where models generate plausible-sounding but factually incorrect content. In regulated domains, such as finance, such errors can lead to significant risks. A promising approach to mitigate this issue is Retrieval-Augmented Generation (RAG), which leverages external knowledge sources to extend context at inference time. This thesis investigates the use of Retrieval-Augmented Generation in domain-specific question-answering systems within the financial sector. For this purpose, a prototype system combining retrieval and generation components was developed, utilizing financial reports of publicly traded companies as its knowledge base. The architecture integrates an embedding model, a vector database, and the Mistral-7B model. Evaluation is conducted using a reference dataset comprising question-answer pairs and their corresponding contexts. Both classical retrieval and generation metrics, as well as model-based evaluation using GPT-3.5, are employed. The results indicate that Retrieval-Augmented Generation leads to consistent improvements over a purely generative approach in terms of answer quality, contextual relevance, and reduction of hallucinations. At the same time, the analysis identifies weaknesses in processing quantitative information and highlights future optimization potentials through reranking or fine-tuning on financial data. The developed prototype is publicly available at https://github.com/0xBuro/FinLLM-RAG-Eval.

Download full text files

Export metadata

Statistics

frontdoor_oas
Metadaten
Author:Oğuzhan-Burak BozkurtORCiD
URN:urn:nbn:de:bsz:960-opus4-37670
DOI:https://doi.org/10.25968/opus-3767
Advisor:Christian WartenaORCiDGND, Peter WübbeltGND
Document Type:Bachelor Thesis
Language:German
Year of Completion:2025
Publishing Institution:Hochschule Hannover
Granting Institution:Hochschule Hannover, Fakultät III - Medien, Information und Design
Date of final exam:2025/09/22
Release Date:2025/11/11
Tag:Embeddings; Large Language Models; Mistral; Model Evaluation; Retrieval-Augmented Generation
GND Keyword:Großes SprachmodellGND; SprachverarbeitungGND; Frage-Antwort-SystemGND
Page Number:69
Link to catalogue:1944076646
Institutes:Fakultät III - Medien, Information und Design
DDC classes:004 Informatik
Licence (German):License LogoCreative Commons - CC BY-NC-SA - Namensnennung - Nicht kommerziell - Weitergabe unter gleichen Bedingungen 4.0 International