krasser Fehler in robots.txt?

Begonnen von startforum, 10 Februar 2007, 20:14:49

⏪ vorheriges - nächstes ⏩

0 Mitglieder und 2 Gäste betrachten dieses Thema.

startforum

Hallo,
habe festgestellt, dass viele der Seiten meines Pragmmx nicht von Google indiziert werden, ein Blick in Google Sitemaps verriet mir, ALLE Urls mit modules.php=... sind durch die Robots.txt eingeschränkt und wurden nicht indiziert.
Das ist ein krasser Fehler!
In der robots.txt sind alle eingeschränkten Verzeichnisse mit
/Verzeichnis
angegeben.
Ich habe das bei mir mal geändert zu
/Verzeichnis/
und hoffe, dass es etwas hilft.
Hat jemand konkrete Infos dazu (ist bisher eher eine Vermutung das es daran liegt)?

----
Ich hatte schonmal einen Account hier, habe mir ein neues Passwort zusenden lassen, konnte mich aber damit nicht einloggen ("dieser Account existiert nicht") ?


Viele liebe Grüße

Marodeur

Jepp,

hab's vergessen zu melden. Ist mir schon vor reichlich Zeit aufgefallen.

Aussehen muss die robots.txt so:

User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow


erst dann legen msnsearch, yahoo und google so richtig los.

Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.  :mad2:
cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)

startforum

Ok, Danke!
...modules.php=... sind doch recht viele Seiten, fast alle.
Ich hoffe mal das die Änderung nun funktioniert und der Googlebot schnell kommt  ;)

Danke auch für Pragmamx, gutes CMS  :)

Viele liebe Grüße


Andi

Moin :)

leider muss/kann ich den Fehler bestätigen.
Ich dachte, diese uralte robots.txt wäre schon lange ersetzt, aber sie ist immer wieder in die Downloadpakete eingeflossen...  :mad2:
Ich denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben. Dafür wäre das ok, weil dann keine URL's mit 'modules' beginnen. Bzw. wegen DC sogar erwünscht...

Anbei die aktuelle robots.txt, so wie sie sich im CVS befindet.

Zitat von: Marodeur am 10 Februar 2007, 20:49:00
Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.
Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx ;)

[gelöscht durch Administrator]
schön´s Grüssle, Andi

Marodeur

Zitat von: Andi am 10 Februar 2007, 22:11:36
Zitat von: Marodeur am 10 Februar 2007, 20:49:00
Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.
Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx ;)

Ich hatte die robots.txt in der 1.8er bereits korrigiert, das war vor fast einem Jahr :-)
cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)

EgalUndSo

Bei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow    =   Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)

startforum

ZitatIch denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben.
Eh,...  das ist ein Märchen  ;)

Pragmamx rules, wenn Fehler (die können immer mal pasieren) gefixt werden  :thumbup:

ZitatBei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow    =   Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)
Das muß irgenwas anderes sein, bei meinem Problem kam zwar der Googlebot, hat aber die Seiten aufgrund der fehlerhaften robots.tx nicht indiziert.
Wenn er die Syntax nicht versteht, liegt möglichereise ein anderes Problem vor.

Poste dazu dochmal Deine Robots.txt

mfg

EgalUndSo

User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

(Wenn ich: 'index, follow' weg mach, werden keine Fehler angezeigt)
Aber ich weiß nicht wozu das gut ist, und ob das weg darf. :gruebel:

startforum

Mh  :gruebel:
Ich jedenfalls sehe keinen Fehler auf schnell... ?
index, follow kann weg, muß aber nicht.
Heutzutage wird das für jede Seite (im SMF beispielsweise) individuell festgelegt, um bspw. doppelten Content zu vermeiden. Index - weist den Roboter an die Seite zu indexieren (in Suchergebnissen aufzunehmen), follow - weist ihn an Links auf Deiner Seite zu folgen.
Die Äquievalante sind noindex / nofollow, sinnvoll, wenn sicher ist, dass der Content schon per anderer URL erreichbar ist (im SMF bereits berücksichtigt, im Pragmamx k.A., bestimmt später  ;) ).

Also, ich zumindest sehe auf schnell keinen Fehler, versuche mal die Datei im ACII-Format hochzuladen, oft entstehen Fehler, wenn man Dateien im Binär-Format uploadet

mfg

Marodeur

so, ich hab mal ein wenig rumgelesen.

index, follow oder die varianten noindex und nofollow gibt es nicht in der robots.txt. Die Zeile gehört da überhaupt nicht rein. Irgendwer hat damit mal angefangen und alle haben den Fehler nachgemacht :-)
(www.robotstxt.org)

index und follow -Angaben gehören in die Meta-Zeilen der HTML-Seite.

z.B. <META NAME="ROBOTS" CONTENT="INDEX">

cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)

EgalUndSo

Alles klar, dann mach ich das wieder raus.
Danke für die Hilfe... :thumbup:

Breaker

Ich war gerade bei Google (Webmaster-Tools), dort wurde mir "gesagt", das dieses "index, follow" in der Robots.txt eine "Unbekannte Syntax" wäre, ein "ALLOW FROM ALL" schafft da abhilfe..., ich bekam diesen Key :-)


Ist da was dran, oder war das ein weiterer Fehler in der Robots.txt ?
Linux ist wie guter Sex, man kann es beschreiben oder drüber reden,
man weiß erst was es bedeutet, wenn man es erlebt hat.

Andi

@ all

habt ihr meinen post nicht gelesen?
Dort ist eine korrigierte, syntax-korrekte und an 0.1.9 angepasste, robots.txt angehängt....
schön´s Grüssle, Andi

Marodeur

Zitat von: Andi am 12 Februar 2007, 17:30:38
@ all

habt ihr meinen post nicht gelesen?

Wir lesen doch keine korrekte Hilfe eines Pragma-Programmierers  :BD: :BD:

*scnr*
cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)

Manuel

#14
Hab das bei mir jetzt auch mal ein paar Tage beobachtet, weil ich mich schon gewundert hatte warum meine Artikel nicht im Google Index drin sind.

Hab dann mal die neue robots.txt hochgeladen und das selbe Problem wie vorher.

Die Tage war der Spider wieder auf meiner Seite und hat auch paar neue Seiten aufgenommen,
nur nicht meine Artikel, was mir aber am wichtigsten wäre!

Mit Google Webmaster Tools hab ich dann das hier gefunden:
http://www.berufswahl-online.de/stuff/screen.jpg

Demnach scheint das mit der robots.txt ja auch nicht hinzuhauen und die Spider können nicht auf meine Artikel zugreifen.

Deshalb werd ich dort jetzt nicht mehr das Verzeichnis /modules/ sperren, sondern alle Unterverzeichnisse manuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen  :gruebel:
Mein pragmaMx -> Berufswahl-Online.de

Andi

Moin :)

ich weiss ja nicht, wie google die letzte "leere" Zeile deiner robots.txt interpretiert; aber evtl. hängt es auch nur da dran....

User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow:
schön´s Grüssle, Andi

jubilee

Zitatmanuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen
Die Wette wirst Du wohl verlieren.
Der Spider holt sich die Artikel NICHT aus dem Unterverzeichnis modules/Stories_Archive/ wie Du vermutest.
Ausschlaggebend ist hier nur der Aufruf. Der geschieht über das Portalroot über die Datei modules.php.
Ein Direktaufruf der modules/Stories_archive/index.php ist zudem sowoeso nicht möglich.
Die Dateien die in dem Unterverzeichnis /modules/Stories_Archive/ brauchen nicht indiziert werden. Wen interessiert es schon, das Du in dem vVerzeichnis eine index.php liegen hast ...



Manuel

Hmm dann lassen wir das erstmal mit der Wette  ;)

Aber testen werd ich das trotzdem nochmal.

Ich kann ja auch mal die letzte Zeile aus der robots rausnehmen, vllt liegts ja wirklich daran.

Irgendwann werd ich die Artikel schon in den Index bekommen :)

Mein pragmaMx -> Berufswahl-Online.de

maverik

moin moin

@DonManu

ZitatIrgendwann werd ich die Artikel schon in den Index bekommen

das zauberwort heißt hier gedult und nicht oder nicht nur robots.txt.

du hast deine domain am 06.11.2006 gereggt. am 12.02.2007 hast du sie bei ranking-hits angemeldet und derzeit sind so um die 20-30 user täglich auf deiner seite, laut statistik ranking hits.

so schnell ist mutter google da nicht unterwegs. :cool:

optimiere deine meta keywords und schaue das du gute backlinks bekommst.
maybe suchst du dir einen guten rss feed der zu deinem thema passt und pflanzt ihn auf die startseite, man glaubt es kaum wieviel spass google an dem feed von unserer tageszeitung bei mir auf der startseite hat.
dann melde deine seite per hand bei den wichtigen guten suchmaschinen an und hol dir eine tasse kaffee oder zwei und lehne dich entspannt zurück.

den rest bringt die zeit....


so long maverik

Manuel

Ich hab meine Wette wohl doch verloren...aber ich bin ein guter Verlierer  :BD:

Ihr habt recht gehabt, also mit der robots.txt werden die Artikel doch in den Index mit aufgenommen,
hat wohl doch einfach nur nen bisschen länger gedauert als ich vermutet habe.

Hab nämlich grad die Artikel im Index bei Google gefunden.

Also danke nochmal  :thumbup:

Gruß, Manu
Mein pragmaMx -> Berufswahl-Online.de

blockbuster

Hallo zusammen,

bin gerade auch auf diesen Artikel gestossen und fand ihn sehr interessant. Habe gleich mal die oben angehängte Datei bei mir ins Root kopiert.

Eine Sache ist mir noch aufgefallen die in der robtos.txt fehlt - folgendes nämlich:

Disallow: /DB_backup/

Denn mal im Ernst: was hat der Bot in diesem Verzeichnis verloren wenn er denn kommen sollte (und bei mir ist er oft zu Gast).

Was meint Ihr? Passt dies, oder sollte ich es lieber wieder entfernen?

MfG

Manuel

Ich hatte es bei mir auch reingetan.

Aber ich weiß nicht ob der Spider so ein Archiv überhaupt interessant findet.
Mein pragmaMx -> Berufswahl-Online.de

startforum

Solch ein Verzeichnis sollte man lieber per .htaccess schützen:
<Files *>
   Order Deny,Allow
   Deny from all
   Allow from localhost
</Files>

Eine robots.txt verhindert nicht das niemand darein schnuppert, eher würden kriminelle Elemente "geil" gemacht  :gruebel:

mfg

JoergK

Zitat von: startforum am 22 April 2007, 22:05:16
Eine robots.txt verhindert nicht das niemand darein schnuppert, eher würden kriminelle Elemente "geil" gemacht 

Stimmt zwar, jedoch was nützen Dir DB-Backups auf dem Server / Webspace, wenn der Server nen Plattencrash hat?  :puzzled:

Das Verzeichnis dient einzig als Ziel für die Adminfunktion DB Backup. Anschliessend sollte man sich umgehend die dort gespeicherte Datei herunter laden und danach auffem Server / Webspace löschen.  ;)
Gruß,
Jörg


Nobody is perfect ... so don't call me Nobody