Zum Inhalt springen Zur Suche springen

KI-gestützte Recherche

Entdecken. Verstehen. Testen.

Künstliche Intelligenz wird bei diversen Tätigkeiten des wissenschaftlichen Arbeitens genutzt und führt zu Veränderungen in Arbeitsorganisation und -ergebnissen der Wissenschaft.

Diese Entwicklung betrifft auch die Recherche nach Literatur, Informationen und Daten. Die Zahl KI-basierter Rechercheanwendungen wächst, sowohl die kostenfrei im Internet verfügbarer Anwendungen als auch die kostenpflichtiger Produkte wie z.B. der KI-gestützte Research Assistant der Datenbank Web of Science. 

Aber nicht nur die Technik verändert sich, sondern auch unser Rechercheverhalten: Versiertes Prompting ebenso wie natürlichsprachige Fragen an ein Recherche-Tool etablieren sich aktuell als Vorgehensweisen bei der Recherche.

Generative künstliche Intelligenz in Form von sogenannten großen Sprachmodellen generiert auf Basis eines Inputs ("Prompt") eine statistisch wahrscheinlich aufeinander folgende Reihe an Wörtern ("Output"). Der große Unterschied zu klassischen Suchmaschinen besteht darin, dass Suchanfragen natürlichsprachig formuliert werden können. 

Aus der Funktionsweise dieser Sprachmodelle ergeben sich aber auch erhebliche Probleme für das Recherchieren nach wissenschaftlichen Informationen:

  1. Das Trainingsdatenset der Modelle besteht aus einer sehr großen Menge an Daten, auch solchen, die üblicherweise nicht für die Suche nach wissenschaftlichen Informationen herangezogen würden. Dabei sind der genaue Umfang und Inhalt des Trainingsdatenset oft unbekannt.
     
  2. Das Trainingsdatenset ist begrenzt, d.h. gewisse Zeiträume oder Themen, z. B. Nischenthemen, werden zwangsläufig nicht oder nur unvollständig abgedeckt.
     
  3. Das Trainingsdatenset besteht aus Daten, die systematisch verzerrt (‚biased‘) sein können, z. B. in sprachlicher oder kultureller Hinsicht. Die Antworten des Chatbots können daher Ansichten reproduzieren, die diskriminierend oder anderweitig verzerrt sind.
     
  4. KI-Sprachmodelle sind in ihrer Funktionsweise grundsätzlich nicht darauf ausgelegt eine Treffermenge relevanter Dokumente auszugeben, wie es z. B. Suchmaschinen oder Fachdatenbanken tun. Auf Nachfrage generieren sie zwar glaubwürdig aussehende Zitationen, diese können jedoch inhaltliche Fehler enthalten oder gänzlich erfunden sein.

Mit einem recht neuen Ansatz werden aktuell jedoch KI-Anwendungen entwickelt, die versuchen diese Nachteile bei der Suche nach Informationen auszugleichen. Dies wird auch Retrieval-Augmented Generation (RAG) genannt.

Für diese Anwendungen entsteht momentan ein großer Markt, insbesondere auch für den Wissenschaftsbetrieb.

Retrieval-Augmented Generation bezeichnet eine Art von Technologie die es ermöglicht Probleme bei der Suche nach Informationen mit KI-Modellen auszugleichen. Dieser Ansatz wird mittlerweile in fast allen verfügbaren KI-Suchwerkzeugen umgesetzt. Die Anwendungen funktionieren vereinfacht ausgedrückt so:

Das KI-Sprachmodell wird mit einer separaten Datenbasis verbunden. Diese Datenbasis kann unabhängig von den Trainingsdaten des Modells erweitert werden, z.B. um neueste Entwicklungen oder Veröffentlichungen abzudecken.

Es kann sich dabei um Webseiten aus dem Internet, wissenschaftliche Publikationen in einer Fachdatenbank, Dokumente aus einem Unternehmen oder andere Sammlungen von Dokumenten handeln.

Stellt man nun eine natürlichsprachige Frage an das Tool wird diese in eine Suchanfrage übersetzt. Dann wählt das System mit Hilfe eines Suchalgorithmus relevante Dokumente aus der Datenbasis aus. Diese Dokumente (oder Ausschnitte davon) werden an das Modell übergeben.

Das Tool generiert eine Antwort auf die gestellte Frage und bezieht sich dabei auf die relevanten Dokumente. Es kann Verweise, üblicherweise in Form von Links, auf die für die Antwort genutzten Dokumente angeben. So lassen sich die generierten Antworten überprüfen. Wird die Datenbasis erweitert können diese neuen Informationen berücksichtigt werden.

Diese Suchwerkzeuge automatisieren einen Prozess, den Menschen bei der Recherche üblicherweise selbst durchführen: Sie versuchen die gefundenen Informationen zu synthetisieren.

Folgende Fragen können dabei helfen einzuschätzen, ob die Benutzung eines KI-Assistenten für die eigene Recherche sinnvoll ist.

  1. Wieviel Vorwissen habe ich? Kann ich die generierten Informationen ausreichend inhaltlich bewerten?
     
  2. Welche Datenbasis wird verwendet? Ist das die für mein Fach / Thema passende Datenbasis? Gibt es weitere Tools mit einer für mein Fach / Thema relevanten Datenbasis, die ich berücksichtigen sollte?
     
  3. Ist nachvollziehbar, wie die Ergebnisse ausgesucht werden?
     
  4. Kann ich meine Informationssuche für andere nachvollziehbar machen?
     
  5. Werden meine Suchanfragen gespeichert und zum weiteren Training des Systems verwendet? 

Viele aktuell verfügbare KI-Assistenten geben auf ihren Webseiten Hinweise zum besseren Prompting, also der bestmöglichen Formulierung der Suchanfragen.

Darüber hinaus lassen sich aber auch einige allgemeingültige Regeln für das Prompting beschreiben. Ein besonders empfehlenswertes Framework (CLEAR) wurde 2023 von einem Bibliothekar aus den USA beschrieben. Das CLEAR-Framework besteht aus: 

Concise: Kurze und unmissverständliche Prompts formulieren

Logical: Prompts strukturieren und logisch aufeinander aufbauen

Explicit: Explizit formulieren wie der Output aufgebaut sein soll

Adaptive: Prompts flexibel anpassen und verschiedene Ansätze ausprobieren

Reflective: Prompts und Output regelmäßig evaluieren


In der dazugehörigen Publikation finden sich ausführliche Prompting-Beispiele.