krasser Fehler in robots.txt?

startforum · 10 Februar 2007, 20:14:49

Hallo,
habe festgestellt, dass viele der Seiten meines Pragmmx nicht von Google indiziert werden, ein Blick in Google Sitemaps verriet mir, ALLE Urls mit modules.php=... sind durch die Robots.txt eingeschränkt und wurden nicht indiziert.
Das ist ein krasser Fehler!
In der robots.txt sind alle eingeschränkten Verzeichnisse mit
/Verzeichnis
angegeben.
Ich habe das bei mir mal geändert zu
/Verzeichnis/
und hoffe, dass es etwas hilft.
Hat jemand konkrete Infos dazu (ist bisher eher eine Vermutung das es daran liegt)?

----
Ich hatte schonmal einen Account hier, habe mir ein neues Passwort zusenden lassen, konnte mich aber damit nicht einloggen ("dieser Account existiert nicht") ?

Viele liebe Grüße

Marodeur · 10 Februar 2007, 20:49:00

Jepp,

hab's vergessen zu melden. Ist mir schon vor reichlich Zeit aufgefallen.

Aussehen muss die robots.txt so:

Code Auswählen

User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

erst dann legen msnsearch, yahoo und google so richtig los.

Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.

startforum · 10 Februar 2007, 20:57:25

Ok, Danke!
...modules.php=... sind doch recht viele Seiten, fast alle.
Ich hoffe mal das die Änderung nun funktioniert und der Googlebot schnell kommt

Danke auch für Pragmamx, gutes CMS

Viele liebe Grüße

Andi · 10 Februar 2007, 22:11:36

Moin

leider muss/kann ich den Fehler bestätigen.
Ich dachte, diese uralte robots.txt wäre schon lange ersetzt, aber sie ist immer wieder in die Downloadpakete eingeflossen...

Ich denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben. Dafür wäre das ok, weil dann keine URL's mit 'modules' beginnen. Bzw. wegen DC sogar erwünscht...

Anbei die aktuelle robots.txt, so wie sie sich im CVS befindet.

Zitat von: Marodeur in 10 Februar 2007, 20:49:00
Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.

Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx

[gelöscht durch Administrator]

Marodeur · 10 Februar 2007, 22:16:12

Zitat von: Andi in 10 Februar 2007, 22:11:36
Zitat von: Marodeur in 10 Februar 2007, 20:49:00
Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.
Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx

Ich hatte die robots.txt in der 1.8er bereits korrigiert, das war vor fast einem Jahr :-)

EgalUndSo · 11 Februar 2007, 00:08:29

Bei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow = Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)

startforum · 11 Februar 2007, 01:03:15

ZitatIch denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben.

Eh,... das ist ein Märchen

Pragmamx rules, wenn Fehler (die können immer mal pasieren) gefixt werden

ZitatBei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow = Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)

Das muß irgenwas anderes sein, bei meinem Problem kam zwar der Googlebot, hat aber die Seiten aufgrund der fehlerhaften robots.tx nicht indiziert.
Wenn er die Syntax nicht versteht, liegt möglichereise ein anderes Problem vor.

Poste dazu dochmal Deine Robots.txt

mfg

EgalUndSo · 11 Februar 2007, 01:17:45

User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

(Wenn ich: 'index, follow' weg mach, werden keine Fehler angezeigt)
Aber ich weiß nicht wozu das gut ist, und ob das weg darf.

startforum · 11 Februar 2007, 01:41:11

Mh

Ich jedenfalls sehe keinen Fehler auf schnell... ?
index, follow kann weg, muß aber nicht.
Heutzutage wird das für jede Seite (im SMF beispielsweise) individuell festgelegt, um bspw. doppelten Content zu vermeiden. Index - weist den Roboter an die Seite zu indexieren (in Suchergebnissen aufzunehmen), follow - weist ihn an Links auf Deiner Seite zu folgen.
Die Äquievalante sind noindex / nofollow, sinnvoll, wenn sicher ist, dass der Content schon per anderer URL erreichbar ist (im SMF bereits berücksichtigt, im Pragmamx k.A., bestimmt später

).

Also, ich zumindest sehe auf schnell keinen Fehler, versuche mal die Datei im ACII-Format hochzuladen, oft entstehen Fehler, wenn man Dateien im Binär-Format uploadet

mfg

Marodeur · 11 Februar 2007, 12:39:41

so, ich hab mal ein wenig rumgelesen.

index, follow oder die varianten noindex und nofollow gibt es nicht in der robots.txt. Die Zeile gehört da überhaupt nicht rein. Irgendwer hat damit mal angefangen und alle haben den Fehler nachgemacht :-)
(www.robotstxt.org)

index und follow -Angaben gehören in die Meta-Zeilen der HTML-Seite.

z.B. <META NAME="ROBOTS" CONTENT="INDEX">

EgalUndSo · 11 Februar 2007, 14:10:16

Alles klar, dann mach ich das wieder raus.
Danke für die Hilfe...

Breaker · 12 Februar 2007, 17:10:07

Ich war gerade bei Google (Webmaster-Tools), dort wurde mir "gesagt", das dieses "index, follow" in der Robots.txt eine "Unbekannte Syntax" wäre, ein "ALLOW FROM ALL" schafft da abhilfe..., ich bekam diesen Key :-)

Ist da was dran, oder war das ein weiterer Fehler in der Robots.txt ?

Andi · 12 Februar 2007, 17:30:38

@ all

habt ihr meinen post nicht gelesen?
Dort ist eine korrigierte, syntax-korrekte und an 0.1.9 angepasste, robots.txt angehängt....

Marodeur · 12 Februar 2007, 18:26:36

Zitat von: Andi in 12 Februar 2007, 17:30:38
@ all

habt ihr meinen post nicht gelesen?

Wir lesen doch keine korrekte Hilfe eines Pragma-Programmierers

*scnr*

Manuel · 19 Februar 2007, 17:36:35

Hab das bei mir jetzt auch mal ein paar Tage beobachtet, weil ich mich schon gewundert hatte warum meine Artikel nicht im Google Index drin sind.

Hab dann mal die neue robots.txt hochgeladen und das selbe Problem wie vorher.

Die Tage war der Spider wieder auf meiner Seite und hat auch paar neue Seiten aufgenommen,
nur nicht meine Artikel, was mir aber am wichtigsten wäre!

Mit Google Webmaster Tools hab ich dann das hier gefunden:
http://www.berufswahl-online.de/stuff/screen.jpg

Demnach scheint das mit der robots.txt ja auch nicht hinzuhauen und die Spider können nicht auf meine Artikel zugreifen.

Deshalb werd ich dort jetzt nicht mehr das Verzeichnis /modules/ sperren, sondern alle Unterverzeichnisse manuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen

Andi · 19 Februar 2007, 18:32:15

Moin

ich weiss ja nicht, wie google die letzte "leere" Zeile deiner robots.txt interpretiert; aber evtl. hängt es auch nur da dran....

Code Auswählen

User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow:

jubilee · 19 Februar 2007, 19:44:50

Zitatmanuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen

Die Wette wirst Du wohl verlieren.
Der Spider holt sich die Artikel NICHT aus dem Unterverzeichnis modules/Stories_Archive/ wie Du vermutest.
Ausschlaggebend ist hier nur der Aufruf. Der geschieht über das Portalroot über die Datei modules.php.
Ein Direktaufruf der modules/Stories_archive/index.php ist zudem sowoeso nicht möglich.
Die Dateien die in dem Unterverzeichnis /modules/Stories_Archive/ brauchen nicht indiziert werden. Wen interessiert es schon, das Du in dem vVerzeichnis eine index.php liegen hast ...

Manuel · 19 Februar 2007, 20:14:39

Hmm dann lassen wir das erstmal mit der Wette

Aber testen werd ich das trotzdem nochmal.

Ich kann ja auch mal die letzte Zeile aus der robots rausnehmen, vllt liegts ja wirklich daran.

Irgendwann werd ich die Artikel schon in den Index bekommen

maverik · 19 Februar 2007, 23:21:44

moin moin

@DonManu

ZitatIrgendwann werd ich die Artikel schon in den Index bekommen

das zauberwort heißt hier gedult und nicht oder nicht nur robots.txt.

du hast deine domain am 06.11.2006 gereggt. am 12.02.2007 hast du sie bei ranking-hits angemeldet und derzeit sind so um die 20-30 user täglich auf deiner seite, laut statistik ranking hits.

so schnell ist mutter google da nicht unterwegs.

optimiere deine meta keywords und schaue das du gute backlinks bekommst.
maybe suchst du dir einen guten rss feed der zu deinem thema passt und pflanzt ihn auf die startseite, man glaubt es kaum wieviel spass google an dem feed von unserer tageszeitung bei mir auf der startseite hat.
dann melde deine seite per hand bei den wichtigen guten suchmaschinen an und hol dir eine tasse kaffee oder zwei und lehne dich entspannt zurück.

den rest bringt die zeit....

so long maverik

Manuel · 26 Februar 2007, 02:26:48

Ich hab meine Wette wohl doch verloren...aber ich bin ein guter Verlierer

Ihr habt recht gehabt, also mit der robots.txt werden die Artikel doch in den Index mit aufgenommen,
hat wohl doch einfach nur nen bisschen länger gedauert als ich vermutet habe.

Hab nämlich grad die Artikel im Index bei Google gefunden.

Also danke nochmal

Gruß, Manu

blockbuster · 22 April 2007, 06:56:03

Hallo zusammen,

bin gerade auch auf diesen Artikel gestossen und fand ihn sehr interessant. Habe gleich mal die oben angehängte Datei bei mir ins Root kopiert.

Eine Sache ist mir noch aufgefallen die in der robtos.txt fehlt - folgendes nämlich:

Disallow: /DB_backup/

Denn mal im Ernst: was hat der Bot in diesem Verzeichnis verloren wenn er denn kommen sollte (und bei mir ist er oft zu Gast).

Was meint Ihr? Passt dies, oder sollte ich es lieber wieder entfernen?

MfG

Manuel · 22 April 2007, 10:12:37

Ich hatte es bei mir auch reingetan.

Aber ich weiß nicht ob der Spider so ein Archiv überhaupt interessant findet.

startforum · 22 April 2007, 22:05:16

Solch ein Verzeichnis sollte man lieber per .htaccess schützen:
<Files *>
   Order Deny,Allow
   Deny from all
   Allow from localhost
</Files>

Eine robots.txt verhindert nicht das niemand darein schnuppert, eher würden kriminelle Elemente "geil" gemacht

mfg

JoergK · 23 April 2007, 00:18:58

Zitat von: startforum in 22 April 2007, 22:05:16
Eine robots.txt verhindert nicht das niemand darein schnuppert, eher würden kriminelle Elemente "geil" gemacht

Stimmt zwar, jedoch was nützen Dir DB-Backups auf dem Server / Webspace, wenn der Server nen Plattencrash hat?

Das Verzeichnis dient einzig als Ziel für die Adminfunktion DB Backup. Anschliessend sollte man sich umgehend die dort gespeicherte Datei herunter laden und danach auffem Server / Webspace löschen.

krasser Fehler in robots.txt?

startforum

startforum

EgalUndSo

startforum

EgalUndSo

startforum

EgalUndSo

jubilee

maverik

startforum