google und robots.txt

Begonnen von cscarn, 05 November 2007, 17:34:02

⏪ vorheriges - nächstes ⏩

0 Mitglieder und 1 Gast betrachten dieses Thema.

cscarn

 :quest

Allo Community,

ich bin auf der Suche nach einer korrekten Robots.txt, damit Google auch meine Inhalte aus News und den Content inkl. der eigenen Module erkennt. Ich habe einen Thread darüber gefunden, aber bin einfach nicht daraus schlau geworden. Eventuell kann mir hier nochmal jemand einen TIP geben!?

DANKE schonmal.

Rainer
www.PC-spezialisten.de
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

lemming

greetz,
Jörg

------------------------
Mitgliedersuche v.0.3 *new*

cscarn

Hallo Lemming,

danke für Deine Hilfe. Aber genau diesen thread hatte ich gemeint. Er umfasst 26 Nachrichten, in der meiner Meinung anch zu keinem eindeutigen Ergebnis gekommen wird. Außerdem würde mich interessieren, wie man den Inhalt von eigenen Modulen (z.B. ein iFrame mit Inhalten) mit durchsuchen lasen kann.

Diese Varianten werden in diesem Thread angeboten für die Robots.txt:
Variante1:
User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow:

Variante2:
User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow: /DB_backup/
Disallow:

Variante3:
User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

Variante4:
User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow: /themecache/

Alle sind sehr ähnlich, aber welche ist nun definitiv richtig?

M.f.G. Rainer
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

xmjay

Huhu !

Korrekt, ähnlich aber nicht gleich. Jede Variante hat ein anderes Verzeichnis im Root.Eins hat z.B. den Ordener "DB-backup", eins den Ordner "upgrade", eins "install" und noch eins hat noch "themecache".
Diese Struktur ist Deinem Verzeichnis, so wie das per FTP zu sehen ist, anzupassen.
index, follow <-- Ist meines Wissens nach, ob Suchdienste die Seite indexieren sollen, "follow", ob die Links auf der Seite verfolgt werden sollen (in diesem Fall ja)
CMS-Version: pragmaMx 1.12.3 | PHP-Version: 5.2.12 | MySQL-Version: 5.1.66

xmjay

Nachtrag...

@ Rainer

Unter http://de.selfhtml.org/diverses/robots.htm steht noch wissenswertes zur robots.txt.
CMS-Version: pragmaMx 1.12.3 | PHP-Version: 5.2.12 | MySQL-Version: 5.1.66

cscarn

Da ich viele Teile meiner Webseite mit Hilfe eines Modulse erzeugt habe, das die Inhalte in iFrames darstellt, habe ich nun disallow /modules aus der robots.txt entfernt. Ich hege die Hoffnung, das darin enthaltene Inhalte nun von google indexiert werden und auch endlich gefunden werden. Wenn ich im Moment eindeutige Inhalte meiner Wbseite bei google suche, finde ich nix  :'(
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

xmjay

Okay, aber da würd ich mir nich so Sorgen drum machen, sofern Du nach Dateien gesucht hast, die zuvor in der robots.txt bearbeitet wurden.
Die Spider der Suchdienste müssen die Daten erstmal erfassen und dann kann es bis zu 3 Monate dauern.Also kannste eventuell nächstes Jahr noch mal schauen.
CMS-Version: pragmaMx 1.12.3 | PHP-Version: 5.2.12 | MySQL-Version: 5.1.66

breakdancer

#7
Hi,

was treibt ihr denn eigentlich hier ??    :BD: 

Da gibt es ein Missverständnis seitens cscarn. Ihr könnt die Vorgehensweise bei einem PHP-basierten Grundsystem nicht mit einer Webseite vergleichen, die auf HTML-Struktur angelegt ist und die Inhalte innerhalb der HTML-Dateien speichert.

Vergesst doch bitte mal die robots.txt, die hat mit dem Erfassen der Inhalte in diesem Fall überhaupt nichts zu tun. In der robots.txt geht es doch nur darum, Spidern den Zugriff auf die Inhalte der Ordner zu verwehren und das sind in diesem Fall z. B. die PHP-Dateien und Quellcode-Dateien, auf die sie ja auch nicht zugreifen sollen. Wichtig wird dies dann, wenn ihr Inhalte z. B. im HTML-Format in Ordnern hinterlegt und den Suchmaschinen damit sagen möchtet, welche Ordner davon sie aufnehmen sollen und welche nicht.

Beim Abspidern eines CMS wie Pragma MX, wo die eigentlichen Inhalte datenbankdynamisch erstellt und abgerufen werden, hilft diese Vorgehensweise nicht weiter. Deine Texte und damit Deine im Text vorhanden Schlüsselwörter u. a. sind ja oft nicht in den Dateien im Ordner "modules" hinterlegt... Und selbst wenn Teile in HTML-Dateien hinterlegt sind...

Wichtig zum Erfassen durch Google & Co. ist, dass Du die Module, in denen die zu erfassenden Inhalte stehen über das Admin-Menü für alle Besucher - also auch für Gäste - freigibst und ordentlich intern verlinkst.

Dann tauchen Deine Seiten auch kurzfristig in den Suchmaschinenergebnissen auf.

Liebe Grüße und guten Erfolg !

Markus


xmjay

Danke breakdancer !

Da lernt man immer wieder dazu...
CMS-Version: pragmaMx 1.12.3 | PHP-Version: 5.2.12 | MySQL-Version: 5.1.66

breakdancer

#9
No problem...

Den Denkfehler habe ich am Anfang auch gemacht. Inzwischen ist meine robots.txt angepasst, wie sie seinerzeit von Andi hier überarbeitet eingestellt wurde und auch die Seiten mit teilweisem HTML-Inhalt werden gelesen, weil Google brav den internen Links auf der Seite folgt.

Beispiel: http://www.google.de/search?hl=de&q=Kirmesmobil&meta=

HTML-Text innerhalb eines selbsterstellten Moduls (liegt natürlich im Module-Ordner) und wurde über das im Downloadbereich verfügbare PHP / HTML-Modul eingebunden. Funktioniert wunderbar, obwohl der /modules/ - Ordner in der robots.txt ausgeschlossen ist...

Ich empfehle natürlich auch mod_rewrite, das die Lesbarkeit der URL´s seitens Suchmaschinen nochmal deutlich verbessert.

LG

Markus


EDIT: Es ist schon ein bissl seltsam, die Module sind ja für den öffentlichen Lesezugriff freigegeben... Trotzdem werden zwar die Module, jedoch keine oder kaum Inhalte erfasst... http://www.google.de/search?q=site:www.pc-spezialisten.de&hl=de&filter=0

EDIT2:

Wo kommt denn das im Quelltext Deiner Startseite her ???

    <td colspan="2" height="60" style="border-top: 1px solid #cccccc;">
      <table width="100%" border="0">
        <tr>
<!--
/**********************************************************
DO NOT REMOVE THE COPYRIGHTS OR YOUR Pxxx WILL SHRINK!!!
**********************************************************/
-->
          <td class="footmsg"><div align="center"><span class="footmsg">


Sehr kreativ...  ;)

cscarn

Zitat von: breakdancer am 06 November 2007, 13:04:45
Wichtig zum Erfassen durch Google & Co. ist, dass Du die Module, in denen die zu erfassenden Inhalte stehen über das Admin-Menü für alle Besucher - also auch für Gäste - freigibst und ordentlich intern verlinkst.

Hallo breakdancer,

danke für die Infos. Die Module sind freigegeben, sonst würde Sie kein Besucher der Webseite sehen. "Intern verlinken" verstehe ich nicht, was meinst Du damit? Mein Content wird nicht gefunden, obwohl google meine Seite besucht. Keywords sind da, aber kein Content...

Was Googlebot sieht [?]
www.pc-spezialisten.de
Keywords:
1. dsl
2. computer
3. csc
4. fibu
5. netzwerk
6. webshop
7. Übersicht
8. 1und1
9. anfahrt
10. arnstadt
11. avm
12. base
13. benutzer
14. benutzeraccount
15. besitzer
16. blank
17. datenbank
18. design
19. dienste
20. eigentum
21. erp
22. faxserver
23. fernwartung
24. firewall
25. firmenkunde
26. gif
27. gästebuch
28. haftungsausschluss
29. handy
30. hardware
31. helpdesk
32. hostig
33. hosting
34. icon_home
35. internet
36. interoute
37. lan
38. lizenzhalter
39. logos
40. mail
41. mailserver
42. menü
43. nick
44. pass
45. pinwand
46. privatkunde
47. produktfinder
48. proxyfirewall
49. präsentation
50. qualifikationen

Content: (leer)
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

breakdancer

Yepp, habs auch gesehen, die Module sind freigegeben...

Irgendwo hakt es gewaltig und irgendetwas stimmt da nicht... Wie gesagt, die Module werden erkannt, der Content aber nicht so ausgelesen, wie man es erwartet...

Frag mich was Leichteres... Lass mich mal grübeln...

Den Content hast Du ja ganz normal mit dem Editor erstellt, oder ?

Das mit dem "intern verlinken" vergiss bitte, das habe ich fahrlässigerweise geschrieben, bevor ich Deine Site besucht habe. Hast schon alles richtig gemacht...  ;)

Liebe Grüße

Markus

cscarn

Zitat von: breakdancer am 06 November 2007, 13:29:02
/**********************************************************
DO NOT REMOVE THE COPYRIGHTS OR YOUR Pxxx WILL SHRINK!!!
**********************************************************/
-->

Ui ist das übel. Ich habe da nur Module verwendet, die auf der pragmaMX Seite zum Download angeboten werden. Das muss ein Spaßvogel in einer der offiziellen Themes plaziert haben...

PS: Für alle die PXXX nicht direkt in meinem Quelltext (ganz unten) gesehen haben, hier kurz die Erklärung: Gemeint ist damit das Teil, was beim Mann zwischen den beinen baumelt.  :red:
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

lemming

Hi  :),

also ich verwende die überarbeitete robot.txt die andi hochgeladen hat (mein erster post hier) und bei mir wird content sofort gefunden:

http://www.google.de/search?hl=de&q=Foto-J%C3%A4ger%2Finnen+gesucht...&btnG=Suche&meta=

würd dir empfehlen dir hier nicht zuviel gedanken zu machen und die robot.txt von andi drinnen lassen. mit google ist das eh bisle ne langwirige sache teilweise...deshalb mach die robot.txt rein und schau in 3 wochen nochmal danach.  :smile:

gruß,
Jörg
greetz,
Jörg

------------------------
Mitgliedersuche v.0.3 *new*

cscarn

Da die Seite seit Juli 2007 so existiert und die Robots.txt richtig war, habe ich große Sorge, dass meine bisher sehr gute Position bei google verloren geht. ich habe jetzt mal eine eindeutige Textzeile (*Sensationspreis_in_diesem_Segment) -> http://www.google.de/search?hl=de&q=*Sensationspreis_in_diesem_Segment&meta=[/b] in den Content eingefügt. Die müßte ja spätesntes in ein paar Wochen bei google zu finden sein.

Hat sonst noch jemand eine Idee, wieso meine fast Standardinstalletion von pragmaMX den Content nicht an google weitergibt?
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

cscarn

Das ist ja der Hammer. Kaum hier ins Forum gesetzt, ist es bei google zu finden, aber nur hier  :'(
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de

maverik

#16
moin moin

Zitatwas treibt ihr denn eigentlich hier ??

das frage ich mich so langsam auch und habe, sorry, das gefühl das sich hier blinde über farbe unterhalten wollen.  bitte jetzt nicht persönlich nehmen.  :cool:

@cscan

du wunderst dich das deine seiten nicht bei google auftauchen wie wir ja auch hier sehen

http://www.google.de/search?hl=de&client=firefox-a&rls=org.mozilla%3Ade%3Aofficial&hs=r0B&q=site%3Awww.pc-spezialisten.de&btnG=Suche&meta=

das ganze hat jedoch nichts oder nicht nur mit der robots zu tun.

stellen wir uns mal vor wir wohnen in einer riesen halle in der wir eine bilder ausstellung eröffnen. wir möchten das journalisten über diese ausstellung berichten, möchten aber nicht das sie es auch über unsere privaträume tun.
also hängen wir an die privaten räume ein schild "privat, bitte nicht betreten".

das ist die robots.txt

damit die journalisten aber erstmal kommen müssen wir unsere ausstellung bekannt machen, wir schalten anzeigen und verteilen flugblätter.

wir melden unsere seite bei den wichtigsten suchmaschinen an.

damit die journalisten sich besser zurechtfinden und schon mal einen vorgeschmack bekommen was sie erwartet schreiben wir eine bilderliste und hängen sie in den eingang.

das ist die google sitemap

zu guter letzt achten wir noch darauf das die bilder alle verständliche namen haben die die journalisten auch lesen und abschreiben können.

wir benutzen modrewrite



du scheinst eine google sitemap eingereicht zu haben da du einen verification code im quelltext hast. wird sie einwandfrei gelesen? oder hast du fehler in den webmastertools stehen?
du müsstes fehler haben da sich deine google sitemap nicht aufrufen lässt.

ZitatXML-Verarbeitungsfehler: Undefinierte Entität Adresse: http://www.pc-spezialisten.de/google_sitemap.php Zeile Nr. 195, Spalte 63:

modrewrite ist auch nicht aktiv

http://www.pc-spezialisten.de/modules.php?name=News&file=article&sid=13

diese art der urls schaffen es zwar irgendwann mal in den google index doch so richtig lieb hat tante g diese urls nicht.

so wenn du das jetzt mal versuchst umzusetzen und dann noch die nötige gedult für tante g hast dann wird das auch was mit deinen einträgen bei google.

das thema modrewrite ist zu hauf hier im forum behandelt und weiteren guten lesestoff findest du auch hier http://www.abakus-internet-marketing.de/


soderle nichts für ungut, ich hoffe das bringt nu nen bisken klarheit in die sache.   ;) ;)


so long maverik

breakdancer

 :BD:

Sehr schön erklärt...

Wobei ich anmerken möchte, dass das mit der Google-Sitemap ein bissl umstritten ist...

Meine eigene Erfahrung damit ist, dass ich bei den ersten Aufrufen der Sitemap in den ersten ein, zwei Wochen noch über 3.000 übertragene URL´s hatte, dies aber dann rapide und kontinuirlich nach unten gegangen ist bis zu knapp über hundert letzte Woche. Das ist so ähnlich noch jemandem aus unserem Forum passiert, der allerdings dadurch auch gleich starke PR Schwankungen hatte.

Ich hab die Sitemap mal rausgeschmissen und schaue jetzt mal, was passiert.

Grüßle

Markus

m-t

na endlich hab ich wieder ein beispiel was google mit seiten macht die sommaire als menu haben...
überall wird der name der .gif datei ausgelesen.
so gings mir mit tausenden einträgen :-)


http://www.google.de/search?hl=de&q=tree-T.gif

cscarn

Hallo Leute,

danke für die vielen Antworten. Man fühlt sich hier gut aufgehoben, pragmaMX war offensichtlich eine gute Wahl!

Zurück zu google. Man kann beinahe sagen google liebt mich mittlerweile ;-) Mal im ernst, seit dem ich folgende Einstellungen habe kommt der Roboter vorbei und schaut sich alles an und man findet bei google auch den Content.

robots.txt:
User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow: /themecache/
index, follow

Eigentlich habe ich nur eine Änderung gemacht und zwar den Ordner "modules" aus der Liste entfernt! Das wars...
Installation: pragmaMx 0.1.9 & 0.10.1
EDV-Kenntnisse: fundiert
Web-Projekte: www.pc-spezialisten.de & www.veni-vide-audi.de