Retrieval Augmented Generation (RAG)

Samuel Kressner · zuletzt aktualisiert am 

Retrieval Augmented Generation (RAG) ist ein technisches Framework, das die Sprachfähigkeiten großer Sprachmodelle (LLMs) mit dem gezielten Abruf externer, aktueller Datenquellen kombiniert. Statt nur auf Trainingsdaten zurückzugreifen, sucht ein RAG-System bei jeder Anfrage aktiv nach passenden Fakten in Datenbanken, Dokumenten oder dem Web und reichert damit die Antwort an.

Für Online-Marketing und Suchmaschinenoptimierung (SEO) ist das besonders relevant, weil es die technische Grundlage von Google AI Overviews, Perplexity, ChatGPT mit Websuche und ähnlichen Systemen bildet. Wer versteht, wie RAG funktioniert, versteht, warum klassisches SEO für Sichtbarkeit in KI-Antworten nicht mehr ausreicht.

Warum RAG nötig ist

Klassische LLMs haben zwei strukturelle Schwächen:

  • Veraltetes Wissen: Training endet zu einem fixen Zeitpunkt. Ein Modell, dessen Training 2023 endete, kann ohne externe Quellen nichts Korrektes über 2024 sagen.
  • Halluzinationen: Fehlen Fakten, generieren LLMs plausibel klingende, aber falsche Informationen. RAG reduziert das, indem Antworten direkt aus bereitgestellten Dokumenten abgeleitet werden.

Wie RAG technisch funktioniert

Bei der Retrieval Augmented Generation unterscheidet man vier Schritte, die nahtlos ineinandergreifen:

  1. Retrieval: Das System durchsucht eine Vektordatenbank nach Textabschnitten, die semantisch zur Anfrage passen. Moderne Systeme nutzen hybride Suchen: Vektorsuche für Bedeutungszusammenhänge plus klassische Keyword-Suche für exakte Begriffe wie Produktnummern.
  2. Augmentation: Die gefundenen Abschnitte werden mit der ursprünglichen Anfrage kombiniert. Die KI bekommt also nicht nur die Frage, sondern auch den relevanten Faktenhintergrund.
  3. Generation: Das Sprachmodell übersetzt die Kombination aus Frage und Kontext in eine natürliche Antwort. Es fungiert hier primär als Formulierungsschicht über dem abgerufenen Inhalt.
  4. Output: Die fertige Antwort wird ausgegeben, idealerweise mit direkten Quellenangaben für die Verifizierung.

Woher holen sich die KI-Systeme ihre Quellen?

Hier unterscheiden sich die Systeme stark. Nur 11 % der Domains werden sowohl von ChatGPT als auch von Perplexity zitiert (Quellen: ahrefs, The Digital Bloom).

ChatGPT (OpenAI)

Wikipedia dominiert mit 47,9 % aller Zitationen. Das System arbeitet mit einer klaren Quellenhierarchie:

  • Tier 1: Wikipedia und lizenzierte Medienpartner (Vox Media, Condé Nast)
  • Tier 2: Reddit-Inhalte mit mindestens 3 Upvotes
  • Tier 3: YouTube-Transkripte und Podcasts

Bei aktiver Websuche stimmen 87 % der Zitationen mit den Top-10-Ergebnissen von Bing überein.

Perplexity AI

Reddit ist die dominante Quelle mit 46,7 % der Zitationen in den Top-10-Ergebnissen. YouTube folgt mit 13,9 %, Gartner mit 7,0 %. Perplexity indiziert über 200 Milliarden URLs in Echtzeit.

Google AI Overviews (Gemini)

93,67 % der Antworten zitieren mindestens ein Top-10-Ergebnis der organischen Suche, wobei nur 4,5 % der URLs direkt von Position #1 stammen. Häufig zitierte Domains: Reddit (21 %), YouTube, Wikipedia und Quora.

Claude (Anthropic)

Claude nutzt für die Websuche das Backend von Brave Search. Das Constitutional-AI-Framework bevorzugt Inhalte, die als besonders hilfreich, harmlos und ehrlich eingestuft werden.

Microsoft Copilot

Bing-basiert, Wikipedia macht etwa 35 % der Zitationen aus.

Wichtige Sichtbarkeitssignale (2025)

Die aktuellen Daten zeigen eine klare Verschiebung weg von klassischen SEO-Faktoren (ahrefs, The Digital Bloom):

  • Brand Search Volume ist der stärkste einzelne Prädiktor für KI-Sichtbarkeit, Korrelationswert 0,334. Backlinks haben dagegen nur eine schwache bis neutrale Korrelation.
  • Dominanz der Top-Domains: Die Top-50-Domains vereinen 28,9 % aller Zitationen in Google AI Overviews. Wikipedia allein macht ca. 22 % der LLM-Trainingsdaten aus.
  • Strukturierte Daten: Schema.org-Markups (Organization, Person, FAQ) entscheiden oft über die Indexierung. Vergleichstabellen mit korrektem HTML-Markup erhöhen die Zitationsrate um 47 %.
  • Aktualität: 65 % der Zitationen beziehen sich auf Content aus dem letzten Jahr. Nur 6 % der zitierten Inhalte sind älter als sechs Jahre.

RAG und GEO: Was das für deine Content-Strategie bedeutet

RAG verschiebt die Logik von Sichtbarkeit grundlegend. Es geht nicht mehr darum, auf Platz 1 der Ergebnisliste zu stehen, sondern darum, als vertrauenswürdige Quelle in KI-Antworten eingebaut zu werden. Dieses Feld nennt sich Generative Engine Optimization (GEO).

Eine Studie von Aggarwal et al. (2024) zeigt, dass gezielte Optimierungsstrategien die Sichtbarkeit in generativen Antworten um bis zu 40 % steigern können (Quelle).

Die Fraggle-Strategie

RAG-Systeme extrahieren selten komplette Seiten, sondern spezifische Fragmente, sogenannte Fraggles. Konkret: Inhalte sollten in sich geschlossene Abschnitte von 50 bis 150 Wörtern enthalten, die eine spezifische Frage direkt beantworten. Modulare Struktur erleichtert dem Retrieval-Algorithmus die Arbeit.

Effektive GEO-Hebel

Basierend auf aktueller Studien und Forschung (The Digital Bloom, Aggarwal et al. 2024):

  • Expertenzitate einbauen: +37 % Sichtbarkeit
  • Statistiken und Daten integrieren: +22 % Sichtbarkeit
  • Lesbarkeit und Sprachfluss verbessern: +15-30 % Sichtbarkeit. Gut lesbare Texte werden von Generative Engines stärker bevorzugt als viele annehmen. Stiloptimierungen wirken also nicht nur für menschliche Leser.
  • Auf externe Quellen verweisen: Das Zitieren hochwertiger externer Quellen steigert die eigene Zitationswahrscheinlichkeit.
  • Technische Fachsprache nutzen: Präzise Begriffe helfen der KI beim semantischen Einordnen des Themas.
  • Schema.org-Markups implementieren: Funktionieren als Wegweiser für den Retrieval-Prozess und helfen der KI, Entitäten und Zusammenhänge sofort zu verstehen. (Für mehr Infos empfehlen wir unseren Artikel zum Thema Entity-SEO)

Content-Typen mit hoher KI-Sichtbarkeit

Nicht jeder Content-Typ performt gleich gut in KI-Antworten. Basierend auf einer Analyse von ahrefs (Makosiewicz, 2025):

Allgemeine Trends nach Seitentyp:

  • "Best"-Content: 7,06 % des KI-Traffics
  • "Contact"-Seiten: 6,80 %
  • How-to-Guides: 6,35 %
  • Produktseiten: 6,43 %
  • "Top"-Listen: 5,50 %
  • Vergleichsartikel ("vs"): 4,88 %
  • "Services"-Seiten: 4,53 %

Ahrefs-eigene Daten:

Content-TypAufrufeEngagementStrategische Bedeutung
How-to Guides7.315184 Sek. VerweildauerStarke Traffic-Treiber, von KI-Systemen stärker bevorzugt, je praktischer und hands-on der Guide ist.
Datenstudien6.134207 Sek. VerweildauerHohes Engagement.
Homepage2.8750,53 Bounce Rate (niedrig)Gute für navigationale Anfragen.
Definitionen747173 Sek. VerweildauerWerden von AI-Tools für ihre Antworten genutzt.
Listicles5850,79 Bounce Rate (hoch)Nützliches Discovery Tool für KI-Systeme, aber menschliche Nutzer engagen hier kaum.
Produktseiten5300,24 Bounce Rate (niedrig)Niedrige Bounce-Rate. Nutzer, die hier landen sind meistens schon hoch vorqualifziert. Hohe Conversion-Wahrscheinlichkeit.
Meinungsbeiträge / Thought Leadership282214 Sek. VerweildauerNischen-Content, kein großer Traffic-Magnet, ABER sehr wertvoll für Brand Authority (Stichwort EEAT)

How-to-Guides und Datenstudien dominieren sowohl bei Aufrufen als auch bei Verweildauer. Definitionen und Produktseiten haben die niedrigste Bounce Rate, was auf qualifizierten Traffic hindeutet. Das Fazit daraus: Ein Content-Mix, der verschiedene Nutzerintentionen abdeckt, erhöht die Wahrscheinlichkeit, über mehrere Zitierkonstellationen sichtbar zu sein.

Messbarkeit in der KI-Suche

Klassische Metriken wie die durchschnittliche Position verlieren an Aussagekraft, weil KI-Antworten oft mehrere Quellen gleichzeitig nutzen. Relevantere Kennzahlen:

  • Share of Voice: Wie häufig wird deine Marke in KI-Antworten zu relevanten Themen genannt?
  • Citation Gap: Welche Wettbewerber werden zitiert, du aber nicht?

Tools für das Monitoring: Ahrefs Brand Radar, KI-Traffic-Analyse in der Google Search Console.

Quellen und weiterführende Dokumentation

Autor

Senior Online Marketing Manager Samuel Kressner ist seit mehreren Jahren im Online Marketing tätig. Mit einer Vorliebe für aktuelle Themen, sowie Daten und Zahlen hat er sich auf die Bereiche Webentwicklung, Tracking und Social Media Marketing spezialisiert. In diesen Themengebieten hat er Konzerne und Mittelständler verschiedener Branchen beraten und betreut. Sein Wissen teilt er zudem in aktuellen Studien, Fachartikeln und als IHK Ausbilder.

Samuel Kressner auf

Bleib auf dem Laufenden!

Melde dich für unseren Newsletter an und erhalte regelmäßig Updates zu den neuesten Inhalten, Tipps und Best Practices aus der Online Marketing Welt.

Kein Spam Jederzeit abbestellbar Datenschutzgarantie