Luxus Problem mit Google?

edvschrat

Aktives Mitglied
Hallo,

auch wenn die Überschrift nicht passt, hier mein Problem und die Fragen.

Ich werde in 2011 mein erstes Webportal im eigenen Cluster betreiben.
Bei der Recherche wie man einen hochskalierbaren HA-Webservercluster mit den verschiedenen technischen Möglichkeiten aufsetzt, bin ich auf folgendes Problem in einem Video von einer Entwicklerkonferenz gestoßen. Leider ist man in dem Vortrag hierauf nicht näher eingegangen, sondern hat nur am Rande vermerkt, dass dies ein Problem darstellt.

Ich habe im Schnitt 400.000 bis 600.000 Artikel. Durch die saisonalen Schwankungen liegt der Bereich bei etwa 250.000 in schlechten Zeiten bis 2.500.000 Artikel in der Hauptsaison. Der Veröffentlichungszeitraum beträgt 1 Tag bis 15 Monate je nach Artikel.
Das Problem liegt im Ressourcenverbrauch für die Suchmaschinenbots. Mein Cluster soll die normalen Besucher bedienen und nicht die Ressourcen für die Suchmaschinenbots verschwenden.

Was bietet sich an um den Ressourcenhunger der Suchmaschinen zu begrenzen?
Welche Reglementierungen der Bandbreite wirken sich am wenigsten schädlich für das Ranking der Seite aus?

edvschrat
 
Um den Traffic zu minimieren lohnt es sich zunächst die Webseite nach den Google PageSpeed-Hinweisen aufzubauen. Dadurch erzeugst Du sehr kleine Dateien die gezippt übertragen werden, wodurch sich der verbrauchte Traffic minimiert. Weitere Einschränkungen für den GoogleBot würde ich nicht vornehmen, da jede Einschränkung auch einen Minuspunkt bedeutet sobald Google merkt, dass Du dem GoogleBot anderes anbietest als den menschlichen Besuchern.
 
Du kannst bei einigen Suchmaschinen auch die Crawl-Geschwindigkeit herunter drosseln und somit die Zugriffe auf deine Seite(n) verringern.
 
Zurück
Oben