Notepad checklist

▸ Wissen ▸ Magazin ▸ SEO-Optimierung für PDF-Dateien

SEO-Optimierung für PDF-Dateien

Samuel Kressner
zuletzt aktualisiert am 
Viele Unternehmen haben ihre wichtigsten Inhalte nur im PDF-Format vorliegen. Wie geht man als SEO damit um? Alles zu aktuellen SEO-Best Practices rund um das PDF-Format findet ihr hier.

Wie Google PDF-Dateien behandelt

Indexierung von PDF-Dateien

Bereits seit 2001 indexiert Google nicht nur HTML- sondern bereits PDF-Dateien. Das gab Gary Illyes, Webmaster Trends Analyst von Google im September 2011 bekannt. Voraussetzung für eine Indexierung ist, dass die PDF-Datei nicht passwortgeschützt oder verschlüsselt sein darf.

Bei der Indexierung wandelt Google dabei die PDF-Datei (vorausgesetzt ihre Dateigröße ist nicht zu hoch) zunächst in HTML um und verfährt dann mit der Datei wie mit einem gewöhnlichen HTML-Dokument. Ist der Inhalt der PDF-Datei als echter Text gespeichert, hat Google es hier relativ einfach und kann den Text einfach auslesen. Ist der Text hingegen als Bild eingebettet, müssen zunächst OCR-Algorithmen angewendet werden, bevor Google an den Textinhalt herankommt. Da dies ein weiterer Zwischenschritt, oftmals auch mit unsicherem Ergebnis ist, sollte für die SEO-Optimierung von PDF-Dateien entsprechend darauf geachtet werden, dass textbasierte PDF-Dateien verwendet werden. Das ist einfach zu prüfen: lässt sich der Text per Copy & Paste extrahieren, dann haben wir es mit einer textbasierten PDF-Datei zu tun, die Google einfach indexieren kann.

Wie verfährt Google mit den Bildern in PDF-Dateien? Lassen sich diese etwa über die Google-Bildersuche auffinden? Derzeit nicht. Stand 2011 gab Google bekannt, dass Bilder innerhalb von PDF-Dateien nicht indexiert werden.

Darstellung von PDF-Dateien in den SERPs

Landet eine PDF in den Google SERPs, so wird mit einem kleinen Tag gekennzeichnet, dass es sich bei dem Suchergebnis um eine PDF-Datei handelt. Der angezeigte Titel der Datei in den SERPs wird nach Aussage Googles hierbei vor allem durch zwei Elemente bestimmt: Zum einen durch den Titel der Datei, der in den Metadaten hinterlegt ist. Wir können also das Titelfeld in unserem PDF-Editor als Meta-Title-Tag verstehen. Zum anderen durch den Ankertext der Links, die auf die PDF-Datei verlinken.

Neben den normalen Suchergebnissen können PDFs und ihre Inhalte darüber hinaus inzwischen auch in den Featured Snippets erscheinen.

Kann durch PDF-Dateien Duplicate Content entstehen?

Nicht selten kommt es vor, dass PDF-Dateien Inhalte wiedergeben, die sich bereits in irgendeiner Form auf der Website befinden. Besteht hier die Gefahr auf Duplicate Content? In den Google Search SEO Office Hours vom 18. Februar 2022 gibt John Müller Entwarnung: Google wertet solche Inhalte nicht als Duplicate Content, sondern versteht PDF- und HTML-Dateien als unterschiedliche Inhalte.

Dennoch könnten unter Umständen HTML- und PDF-Versionen desselben Inhalt in den SERPs mit einander konkurrieren, wie Müller bemerkt. In der Regel sind die PDF-Dateien dabei zwar weniger sichtbar, da sie meist deutlich schwächer verlinkt sind und damit auch weniger gewichtet werden. Die Möglichkeit einer Konkurrenz (d.h. einer Keyword-Kannibalisierung) kann hier prinzipiell aber doch bestehen.

Möchte man dies vermeiden, empfiehlt Müller in solchen Fällen die PDF-Datei entweder auf noindex zu setzen (dazu später mehr) oder aber im HTTP-Header der PDF-Datei einen Canonical Link auf die HTML-Datei zu setzen.

Wie wirken sich PDF-Dateien auf die Bewertung der Website aus?

In der Regel sind PDF-Dateien deutlich größer als HTML-Dateien. Und natürlich sind ihre Inhalte - anders als etwa Inhalte in HTML-Dateien - nicht responsiv, d.h. sie passen sich nicht an die Bildschirmgröße des Endgeräts, auf dem sie angezeigt werden, an. Wirken sich PDF-Dateien also negativ auf die Ladezeit und Mobilfreundlichkeit einer Website, und damit auf Googles Core Web Vitals aus?

Auch hier gibt John Müller Entwarnung: PDF-Dateien fließen nicht in die Google Bewertungen von Core Web Vitals und Mobilfreundlichkeit ein und haben in dieser Hinsicht keinen negativen Einfluß auf die SEO-Performance der Website.

Vorteile von PDF Dateien

Es gibt einiges, was für PDF-Dateien spricht. PDF ist ein Dateiformat welches die Formatierung des Originaldokuments beibehält, egal auf welchem Gerät oder mit welcher Anwendung man das Dokument öffnet. Damit ist sichergestellt, dass das Dokument stets so aussieht, wie es die Autorin beabsichtigt hat. Damit einher geht auch eine Plattformunabhängigkeit - auf so gut wie jedem Gerät lassen sich PDF-Dateien öffnen, ohne dass es dazu eine spezielle Software benötigt.

Nachteile von PDF Dateien

Obwohl PDF-Dateien von Suchmaschinen wie Google indexiert werden können, bringen sie einige Nachteile mit sich.

(1) PDF-Dateien bieten eine schlechtere Nutzerexperience

Zunächst ist die Benutzererfahrung bei PDF-Dateien oft schlechter als bei HTML-Seiten. Das gilt besonders auf mobilen Geräten. PDFs sind meist nur sehr eingeschränkt mobile-freundlich und meist auch größer als gewöhnliche HTML-Dateien. Anders als bei HTML-Dateien passt sich der Textfluß und Schriftgröße von PDF-Dateien auch nicht an die Bildschirmgröße an, womit PDF-Dateien auf kleinen Bildschirmen schwerer zu lesen sind.

Ein weiterer Nachteil ist auch die Navigation. Während man sich in HTML-Dateien bequem mittels Links von Inhalt zu Inhalt hangeln kann, sind PDF-Dateien meist weniger hypertextuell aufgebaut.

(2) PDF-Dateien sind schwieriger SEO-optimierbar

PDF-Dateien lassen sich im Vergleich zu HTML-Seiten weniger effektiv für SEO optimieren. Obwohl Metadaten angepasst werden können, bietet HTML mehr Spielraum für SEO-Optimierungen. Zudem werden PDFs aufgrund seltenerer Aktualisierungen weniger häufig von Suchmaschinen gecrawlt, was ihre Auffindbarkeit im Web verringern kann.

Wann lohnt sich SEO-Optimierung für PDF-Dateien?

Die SEO-Optimierung von PDF-Dateien empfiehlt sich vor allem dann, wenn die Suchanfragen gezielt auf PDF-Dokumente ausgerichtet sind. Diesen Fall haben wir bei Inhalten wie Bedienungsanleitungen, Datenblättern, wissenschaftlichen Dokumente und Whitepapern.

Bei allen anderen Inhalten, besonders solchen die häufiger aktualisiert werden müssen, oder in irgendeiner Form interaktiv sind, ist klassisches HTML deutlich besser geeignet und auch aus SEO-Perspektive sinnvoller.

Tipps & Best-Practices zur SEO-Optimierung von PDF-Dateien

Soweit die graue Theorie. Wie gehen wir nun praktisch mit der SEO-Optimierung von PDF-Dateien um? Hier haben wir einmal die wichtigsten Best Practices und Tipps zusammengetragen.

(1) Schafft nützliche Inhalte

Der wichtigste SEO-Tipp gilt natürlich auch für PDF-Dateien: SEO-Optimierung ist nur dann möglich, wenn man Inhalte hat, welche unsere Zielgruppe auch wirklich sucht. Wenn niemand nach etwas sucht, dann bringt es uns schließlich recht wenig, die Suche danach zu vereinfachen. Mit anderen Worten: erstellt wertvolle und nützliche Inhalte.

(2) Verwendet textbasierte PDFs

Stellt sicher, dass eure PDF-Dateien textbasiert sind. Dies hilft nicht nur Google bei der Indexierung und erspart den Einsatz fehleranfälliger OCR-Verfahren, sondern Erhöht auch die Nützlichkeit der PDF für eure Leser: sie können beispielsweise interessante Textpassagen einfach kopieren oder auch Inhalte innerhalb der PDF-Datei mittels der Volltextsuche einfacher finden.

(3) Optimiert PDF-Dateien mit Hinblick auf Mobile Nutzer

Mehr als die Hälfte des Webtraffics kommt heutzutage via mobiler Geräte zustande - meist durch Smartphones, deutlich seltener durch Tablets. PDFs sind zwar per se nicht mobilefreundlich, lassen sich aber dennoch für die Anzeige auf kleinen Bildschirmen optimieren:

  • Vermeidet das Querformat und setzt auf das Hochformat. So müssen Nutzer beim Lesen der PDf möglichst wenig horizontal scrollen.
  • Setzt aussagekräftige Zwischenüberschriften für Texte ein, damit sich das Dokument leichter überfliegen lässt und Leser schneller die für sie relevanten Inhalte finden können.
  • Haltet Abschnitte kurz, damit der Text leichter lesbar ist. Drei bis vier Sätze pro Absatz sind eine gute Faustregel.
  • Verwendet Aufzählungspunkte, wenn sich damit Inhalte einfach wiedergeben lassen.
  • Verwendet nicht zu viele Bilder. Mit jedem Bild wächst die Dateigröße und auch die Ladezeit der PDF-Datei. Zudem werden Bilder in PDF-Dateien auch durch Google nicht indexiert. Konzentriert euch also nur auf die Bilder, die absolut notwendig sind.
  • Passt mit Sprungmarken und Links auf. Es lassen sich zwar innerhalb von PDF-Dateien auch (interne) Links setzen, etwa bei einem Inhaltsverzeichnis, hierbei sollte man aber auch bedenken, dass die Dateien oft auf sehr kleinen Bildschirmen angezeigt werden. Wenn unterschiedliche Links hier sehr nah beieinander liegen, wird es für Nutzer schwieriger den richtigen Link zu klicken.

(4) Verwendet Links

Links innerhalb von PDF-Dateien werden von Google behandelt wie ganz normale HTML-Links, d.h. sie können auch Linkjuice weitergeben. Entsprechend ist es sinnvoll innerhalb von PDF-Dateien auch auf wichtige HTML-Seiten zu verlinken und damit die interne Verlinkung zu stärken.

Wie es von Seiten Googles heißt:

In der Regel werden Links in PDF-Dateien ähnlich wie Links in HTML behandelt. Die Links können PageRank und andere Indexierungssignale weitergeben und wir folgen ihnen möglicherweise, nachdem die PDF-Datei gecrawlt wurde. (Quelle)

Tracking-Tipp: verwendet ihr Links mit UTM-Parametern, dann könnt ihr später genau nachvollziehen, welcher Websitetraffic von einer eurer PDF-Dateien gekommen ist.

(5) Optimiert die Dateigröße eurer PDF-Dateien für das Web

PDF-Dateien sollten auch hinsichtlich ihrer Dateigröße für das Web optimiert werden. Niemand möchte gerne 2 Minuten warten, bis die PDF-Datei mit den gewünschten Informationen fertig heruntergeladen ist. Haltet die Größe eurer PDF-Datei also so gering wie möglich und komprimiert sie sauber. Nutzt wenn möglich einfache PDF-unterstütze Schriftarten wie Times New Roman, Helvetica und Co.. Es ist zwar möglich besondere Schriftarten (wie etwa die jeweilige Brandschriftart) in der PDF-Datei einzubetten, dies kann aber die Größe der PDF-Datei drastisch erhöhen.

(6) Optimiert die Dateinamen

Wir können den Dateiname unserer PDF wie eine URL betrachten. Und entsprechend macht es Sinn, diesen ebenfalls SEO-freundlich zu gestalten. Konkret bedeutet dies:

  • den Dateinamen möglichst kurz halten
  • möglichst nur Kleinbuchstaben verwenden
  • Bindestriche und Unterstriche statt Leerzeichen zwischen den Wörtern zu verwenden, um etwaige Probleme mit Serven zu vermeiden
  • keine Umlaute oder Sonderzeichen im Dateinamen verwenden
  • relevante Keywords im Dateinamen aufgreifen

(7) Optimiert die Meta-Daten der PDF

PDF-Dateien haben ihre eigenen Meta-Daten, wie etwa das Titel- und das Beschreibungsfeld. Wie wir von Aussagen Googles wissen, orientiert sich die Darstellung von PDFs in den SERPs unter anderem an ihrem Titel. Wir können also das Titelfeld als unseren Meta-Title-Tag betrachten und das Beschreibungsfeld als Meta-Description-Tag.

Hier gelten dann alle Grundsätze, die auch für gewöhnliche Meta-Title und und Meta-Descriptions gelten. Sie sollten deskriptiv und eindeutig sein, sowie relevante Keywords verwenden. Darüber hinaus sollte bei Title- und Description darauf geachtet werden, dass diese nicht zu lang sind, damit sie in den SERPs nicht abgeschnitten werden.

(8) Benennt die Links auf eure PDF-Dateien sinnvoll

Neben dem Titel der PDF sind auch die Ankerlinks, welche auf die PDF-Datei verweisen, für die Darstellung der PDF-Datei in den SERPs relevant. Hier empfiehlt es sich also darauf zu achten, dass diese Links sinnvoll ausgezeichnet werden. Ein generischer Ankertext wie "Download" oder "PDF", der wenig Auskunft darüber gibt, was sich konkret hinter dem Link verbirgt, ist hier nicht zu empfehlen.

(9) Bietet eine HTML-Version eurer PDF-Dateien an

Es ist in vielen Fällen sinnvoll, die Inhalte der PDF ebenfalls in einer HTML-Version zur Verfügung zu stellen, vielleicht auch in Kombination mit einem optionalen PDF-Download. Stellt man Inhalte in sowohl HTML- als auch PDF-Format zur Verfügung muss man sich auch keinerlei Sorge um Duplicate Content machen, wie John Müller bestätigt. Google behandelt beide Inhalte als unterschiedliche Inhaltstypen.

Um etwaige Keyword-Kannibalisierung zu vermeiden, ist es hier aber dennoch sinnvoll mit Canonical Tags zu arbeiten. Anders als bei HTML-Dateien müssen Canonical Tags bei PDF-Dateien mittels X-Robots-Tags im HTTP-Header umgesetzt werden.

SEO-Experte Sander Tamaëla erwähnt auf Twitter einen Fall, worin diese Vorgehensweise nicht nur eine enorme Steigerung des organischen Traffics, sondern auch der Conversions bewirkt hatte.


(10) Steuert die Indexierung eurer PDF-Dateien

Ein wichtiges Element der SEO-Optimierung besteht darin, die Kontrolle darüber zu erlangen, was indexiert wird und was nicht. Das gilt auch für PDF-Dateien.

Ob und welche PDF-Dateien Google bereits indexiert hat, lässt sich mit einer einfachen Suchabfrage identifizieren:

site: www.deine-website.de 
filetype: PDF


Möchte man die Indexierung von PDF-Dateien verbieten, gibt es sowohl globale (d.h. Seitenweite), als auch spezifische Lösungen.

Die erste Option ist es, die Indexierung von PDF-Dateien auf der gesamten Website mittels der robots.txt auszuschließen. Hierzu ergänzt man die folgende Zeile:

Disallow: *pdf

Um einzelne PDF-Dateien von der Indexierung auszuschließen, können wir X-Robots-Tags verwenden. Hier wird die "noindex"-Anweisung, die man sonst aus den Meta-Robots kennt, via dem HTTP-Header kommuniziert. Diese X-Robots-Variante lässt sich auch für andere Dateitypen nutzen.

Wurde eine PDF-Datei bereits indexiert, die man lieber nicht offen in der Googlesuche auffindbar wissen möchte, kann man das von der Google Search Console bereitgestellte Tool zum Entfernen von URLs verwenden.

Weitere Quellen und Infos



Autor

Senior Online Marketing Manager Samuel Kressner ist seit mehreren Jahren im Online Marketing tätig. Mit einer Vorliebe für aktuelle Themen, sowie Daten und Zahlen hat er sich auf die Bereiche Webentwicklung, Tracking und Social Media Marketing spezialisiert. In diesen Themengebieten hat er Konzerne und Mittelständler verschiedener Branchen beraten und betreut. Sein Wissen teilt er zudem in aktuellen Studien, Fachartikeln und als IHK Ausbilder.

SEO Content Marketing