Freitag, 11. April 2014

Tag 5: Die drei Musketiere

Die 3 serverseitig wichtigsten SEO-relevanten Dateien
... die auf dem Server im Stammverzeichnis (root) vorhanden sein müssen, damit der Webcrawler sauber durch die Seite gehen kann:
  • robots.txt --> Türsteher mit Gästeliste: Wer darf wo rein?
  • sitemap.xml --> Speisekarte: Was gibt's denn hier?
  • .htaccess --> fängt Fehlercodes vom Server ab
Alle drei Dateien müssen im Stammverzeichnis auf dem Server liegen.
.htaccess
  • = Hypertext Access
  • kann mit Fehler-, Server-, Response-Codes arbeiten
  • hier die serverspezifischen Eigenschaften anlegen
  • Fehlerseiten und Weiterleitungen werden dort festgelegt (Benutzerfreundlichen Fehlerseiten sind SEO-technisch wichtig!) 
  • www-Klärung: Es gibt Domains mit und ohne www. Ich muss mich entscheiden, ob mit oder ohne! In .htaccess definiere ich die entsprechende Weiterleitung. Ansonsten interpretiert der Crawler dies als duplizierte Inhalte und zieht mir Punkte ab. --> 301-Weiterleitung vermeidet Duplicate Content
  • 301-Weiterleitung ("Moved Permanently") bei Umzug gehört hier hinein 
robots.txt
  • Robot = Crawler = User-Agent
  • Kommt ein Crawler auf die Site, liest er zuerst die Datei robots.txt aus. Dort kann ich festlegen, ob und wie die Website von einem Crawler ausgelsen werden darf (Verzeichnisse oder Unterseiten)
  • Türsteher: sagt dem Crawler, was er (nicht) darf -
    z. B. welche Bereiche/Dateien der Website nicht durchsucht/indexiert werden solle (private Bilder o. ä.)
  • Wird als erste Datei vom Crawler ausgelesen und legt fest, wie und ob die Website vom Crawler besucht werden darf.
  • Man sollte immer eine robots.txt haben, auch wenn sie leer ist. 
  • Um zu prüfen, welche Seiten indexiert sind: Google-Suche "site:http://etc." 
  • Wenn Seiten ungewünscht auftauchen: in robots.txt ausschließen 
  • (Alternativ) bei Neuentwicklung der Seite: direkt im CMS für Suchmaschinen sperren
  • Alternativ können Crawler auch durch Meta-Elemente im HTML-Quelltext einer einzelnen Website am Indexieren gehindert werden:
  • Meta-Elemente
    • revisit-after: sagt Crawler, wann er wiederkommen soll. Aber: Wenn's dann nichts Neues gibt, ist das doof. Grundsätzlich entwickelt Crawler seinen eigenen Algorithmus, wann er vorbeischaut (je nachdem, wie oft man veröffentlicht)
sitemap.xml
  • Sitemaps-Protokoll ist nur für den Crawler zu sehen, nicht für den menschlichen Besucher -  ≠ HTML-Sitemap, die dem User angezeigt wird! 
  • Speisekarte - sagt Google, was es hier Feines gibt
    (zeigt dem Crawler die Seiten meiner Website, die er auslesen soll) 
  • Sollte nur die 
  • CMS bieten Plug-ins für die Sitemap, ansonsten gibt es Sitemap-Generatoren.
    Nur erstere uptaden die Sitemap, wenn neue Inhalte eingestellt werden.
  • Frequency: nicht ändern
  • Priority: Die Links in der Seite können gewichtet werden (nur in ganz speziellen Fällen, z. B. die jünsten Meldungen bei News-Agenturen)
  • Fehlt die Sitemap, gibt's SEO-technisch Punktabzug! (Darüber hinaus hat es bei kleinen Seiten keine großen Auswirkungen, wenn die Sitemap fehlt. Wenn Seite aber wächst, hat der Crawler evtl. nicht die Zeit, sich bis ganz zum Ende, wo die neuen Beiträge liegen, durchzucrawlen. Dann dauert es sehr lange, bis die neuen Beiträge indiziert werden.
  • Reihenfolge beachten: Wenn man zuerst die Sitemap erstellt, der Crawler diese schon ausgelesen hat, und ich dann Bereiche in der robots.txt ausschließe, ist der Crawler verwirrt und es kommt zu Fehlern!
Klausur: "Was sind die drei wichtigsten Dateien serverseitig?"
  •  Wikipedia-Einträge zu den 3 Dateien lesen 
  • Frage z. B.: Was macht SEO-technisch Sinn? (Eine falsche Antwort wäre: "In robots.txt soll 'disallow' angeben werden")

Keine Kommentare:

Kommentar veröffentlichen