WordPress URLs / Zeichen

chris80

Angesehenes Mitglied
hallo ayomler,

eine vertsändnis frage zu wordpress: woher bzw. warum/wie werden urls generiert die mit /?cid=3994 enden?

ich habe gerade im wmt account gesehen das mir tante g als html vorschlag unterbreitet dopplete title tags, descriptions etc. zu entfernen.

macht ja sinn. aber woher kommen diese vielen urls die z.b. auch nicht in der sitemap auftauchen?

ich schreibe einen beitrag der dann z.b. wie folgt aussieht:

domain.de/das-ist-ein-beitrag

im wmt (webmasters tools)account taucht dann aber auch z.b.

domain.de/das-ist-ein-beitrag?cid=3555
domain.de/das-ist-ein-beitrag?cid=4556
domain.de/das-ist-ein-beitrag?cid=6789

auf. Das heißt ich habe jeden beitrag mehrmals mit gleichem title tag/meta angaben und unter allen url varaianten ist immer genau der gleich beitrag zu finden.


ich weiß hier gerade nicht weiter.....

Kann mir jemand helfen......?!?!?
 
sind evtl die zwischenspeicherungen eines beitrages, wenn du auf vorschau klickst?!

oder einfach nur die url der vorschau.
 
Hi Alex,

ich spreche jetzt aber nicht vom WordPress Backend/Admin Account wo ich die URLs sehe.

Ich meine in Webmasters Tools wird mir unter HTML Vorschläge gezeigt das diese URLs vorliegen.

Frage ist jetzt wie ich diese wieder aus dem Index bekomme, vor allem aber wie diese generiert werden....
 
ja, das habe ich auch schon gedacht, aber ich habe das auch genauso bei beiträgen ohne kommentare....


hier mal ein beispiel:
j a m i o o . com/staffelende-greys-anatomy
j a m i o o . com/staffelende-greys-anatomy/?cid=3776
j a m i o o . com/staffelende-greys-anatomy/?cid=3770


Warum ist das so?... ich bin verwirrt... :)
 
Die Frage ist eher, warum zeigt Google die Seiten mit ?cid bei Dir in den WMT an? Das genau kann ich Dir auch nicht sagen, hab selber WP Blogs laufen und bei mir ist das nicht der Fall. Ich könnte mir vorstellen, das es an einem bestimmten Plugin liegt.

Aber schau mal: unter http://blog.wordpress-deutschland.org/?cid=3776 kannst Du auch die Seite aufrufen, die cid kannst Du beliebig ändern - die Seite wird immer angezeigt. Scheint also generell bei WP aufzutreten.

Um zu verhindern, das der Spider die Seite crawlt, sollte es eigentlich genügen wenn mal die robots.txt ergänzt:

User-agent: *
Disallow: /?cid
 
Hey, danke für den Tipp.

Ja, ich steh voll im Dunkeln. Habe auch andere Blogs auf WP laufen und nirgends dieses "Problem".


gruß
 
Ein kurzer Blick in den Quelltext hätte gereicht, um den Fehler zu finden:

Unter unter "Leave a reply" steht folgendes:
CODE
<div class="cancel-comment-reply">
<small><a rel="nofollow" id="cancel-comment-reply-link" href="/staffelende-greys-anatomy/?cid=3776#respond" style="display:none;">Hier klicken, um die Antwort abzubrechen.</a></small>
</div>


Da das ohnehin auf "display:none" steht und vollkommen nutzlos ist, lösch das im Template einfach komplett raus.
Die CID ist, wenn du URL-Rewriting nutzt, nicht notwendig.
 
Bitte, bitte...
Das verhindert jetzt natürlich nur, das ZUKÜNFTIG keine URLs mehr mit "cid=1234" indexiert werden.
Um die alten, falschen Links raus zu bekommen, könntest du in der .htaccess mit modrewrite alle URLs in denen "cid=" vorkommt per 301 auf die gleiche URL OHNE cid weiterleiten.
Ist aber eigentlich nicht notwendig, da du im HEAD ja auch ohnehin das Canonical-Tag benutzt und Google somit eh genau weiß, welche Seite die richtige Seite ist
 
Die CID läßt sich aber beliebig bei allen möglichen Blogs anhängen, ohne das im Theme was davon drinsteht...? Bug?
 
Vorsichtsmaßnahme bedeutet z.B.:

Sofern eine URL nicht mit Parameter aufgerufen werden soll oder darf, kann man entweder ein Canonical Tag einsetzen (laut Thread bei Dir, ajse80, der Fall) oder mit einer Rewrite Regel alle angehängten Parameter abfangen und killen.

Was kann passieren:

Irgendwelche Seppen linken auf Unterseiten von Dir und verlinken dabei Parameter mit, die Du nicht willst. Ist z.B. häufiger passiert, wo Seiten ThickBox eingesetzt haben und extern verlinkte Seiten immer einen keepThis=blablabla Parameter angehängt bekommen haben.

http://www.google.de/#hl=de&source=hp&q=in...c63b660f2abd649

Viele von denen wollten so bestimmt nie in den Serps auftauchen. Schlimmstenfalls entscheidet sich Google dann für die falsche interne URL und schwächt damit Deine Seite... internen DC sollte man, auch wenn er wesentlich unproblematisches ist als externer DC, vermeiden, wo es geht. Ein Inhalt = eine URL.
 
So, nach ein paar Tagen sind nun viele der Domains mit der Zeichenkette cid=3741 verschwunden und auch nicht mehr in WebmasterTools als HTML Verbesserungsvorschalg zu sehen.

Aber halt nicht alle. Ich habe nun die verbliebenen aus WMT heraus in eine Excel Datei exportiert. Wie kriege ich die nun alle am einfachsten gelöscht?

Über htaccess wüßte ich jetzt nicht genau wie und

Über die robots.txt einfach so?

Disallow
http://domain.com/beitra=?cid
http://domain.com/beitra=?cid6767
http://domain.com/beitra=?cid445
http://domain.com/beitra=?cid5858

 
So nach nun einem gewissen Zeitraum hat sich leider nicht viel getan.

Irgendwie scheint meine WordPress Installation oder ein PlugIn or whatever immer noch diese CID Urls zu produzieren.

Ich habe das spidern der Urls die CID enthalten per robots.txt untersagt was mir auch son in Webmasters Tools angezeigt wird. Es ging zwischenzeitlich unter dem Punkt HTML Vorschläge auch auf nur 300 Fehler runter, mittlerwiele bin ich wieder bei über 2.500.

Schaue ich nun unter der Site Abfrage:

site:http://jamioo.com cid

sieht man das 4.450 Seiten indiziert sind die diesen Parameter enthalten. Warum auch immer.

Kann ich nicht irgendwie alle Urls die z. B. ?cid= enthalten auf die index Seite per htaccess umleiten?

Auf jeder Seite ist zwar ein Canionical Tag, aber scheinbar stört sich Tante G ja trotzdem dran?!?
 
Zurück
Oben