Crawler Programmiersprache/Tipps

Crysis nerd

Freizeitschrauber(in)
Guten Tag Leute,

ich hab mir in den Kopf gesetzt, dass ich für ein Projekt einen kleinen Crawler entwickle. Dieser soll das Internet auf Sprüche und Zitate durchsuchen und diese dann speichern. Es wäre natürlich noch recht... ich will nicht sagen "einfach", aber "überschaubar", wenn man zb. für Zitate-Online.de ein Script baut, was dort entsprechend die Sprüche rauszieht. Aber ich wollte halt doch schon bischen weitergehen und nen vollwertigen Crawler bauen, der auf unterschiedlichen Seiten funktionieren soll. Eventuell gibt man ihm später halt nur ein paar Domains, um die Suche zu beschränken, aber ich wollte jedenfalls kein Seiten spezifisches Script haben.

Das so die Grundlage. Jetzt stellt sich für mich die Frage, welche Programmiersprache oder Scriptsprache ich am besten nehmen kann.
C++ liegt mir am meisten, aber ich bin eher geneigt zu Sprachen wie C# oder Java. Denn diese besitzen nen shitload of Funktionen, auch gerade für so HTTP-Request und sowas. Das in C++ nachzubasteln.. das is nicht wirklich das tollste.
Es sei denn ihr könntet mir gute Bibliotheken für C++ empfehlen, die das ganze erleichtern.
Das Problem bei C# ist, dass es nur auf Windows läuft und so ein Crawler läuft ja eigentlich eher auf Linux, zumindest habe ich das vor.
Java mag ich eigentlich nicht so gerne, weil.. naja persönliche Abneigung :D

Darum: eventuell eine Scriptsprache? Python? Oder irgendwas anderes.. PHP nun nicht gerade, das würd ich eig nie so zum crawlen nehmen.. Also ich halte das irgendwie für falsch da einfach die Scriptausführzeit zu erhöhen und das als Programm laufen zu lassen... Oder was sagt ihr?

Naja die Sprache ist das eine..

Und das andere ist vllt ob ihr noch gute Tipps habt wie zb.
"Du schaffst das nie, hör auf" oder sonst irgendwas anderes was crawler angeht ;)

Danke schonmal im Vorraus

mfg
Lukas
 
Hoffentlich wird das nicht einer dieser Crawler, welcher unnütz Traffic erzeugt und sich nicht an Regeln hält: keine robots.txt beachtet, keinen (richtigen) User-Agent-String besitzt, etc... .
Ansonsten finde ich die Idee gut :) Gutes Gelingen :)
 
Danke. Und nein, von der robots.txt wollte ich gebrauch machen, da fühlt man sich professioneller ;D
Unnütz Traffic erzeugen hatte ich nciht vor, aber das hängt wohl auch von meiner Programmierkunst ab..
Was meinste mit User-Agent String? Also ich hatte vor, mich nicht als ein Browser auszugeben sondern einen eigenen zu nehmen. Ich hoffe das ist guter Ton beim crawlen ;P

mfg
Lukas
 
Zurück