Gestern hat die Monika von webdesign-in.de die Google+ Welt darüber informiert, dass sie einen hartnäckigen Bot auf ihren Seiten zu Besuch hat.

[…]soso die Tu-Berlin holt sich meine Daten, bereitet sie auf und verkauft sie => und belastet beim Durchlauf meinen Server als sei eine Bombe eingeschlagen …
logischerweise guggt deren Bot mal kurz in die robots.txt, um sie dann genauso logisch zu ignorieren…
gefördert wird das ganze auch noch mit verdammt viel Steuergeldern.[..]

Daraufhin bin ich natürlich gleich mal schauen gegangen ob ich auch Besuch von diesem Bot habe und siehe da, er schleicht auch bei mir herum. Gestern Abend habe ich auf die Schnelle erst einmal die gestrige IP geblockt und heute mit ein wenig mehr Ruhe habe ich die gesammte IP-Range der TU Berlin in die htaccess eingetragen. Denn der Bot taucht mit wechselnden IP Adressen bei mir in den Log Daten des Servers auf. Warum ich das getan habe? Ich finde es ziemlich dreist, dass eine TU mit Fördergeldern des Bundeswirtschaftsministerium, letztlich als mit unseren Steuergeldern Daten aus dem Netz spidert um sie dann „aufgearbeitet“, was immer das bedeuten soll, an private Unternehmen weiter verkauft.

[..]Ein besonderes Merkmal des Projekts ist es, dass das deutschsprachige Internet inklusive seiner Historie als Datenbasis für Analysen und Mehrwertdienste bereitgestellt werden soll.[…]

Mehr und Genaueres kann man auf der Startseite des Projektes nachlesen. Verständlicherweise werde ich es mir verkneifen die Herrschaften zu verlinken. Das Projekt nennt sich verniedlichend MIA – ein Marktplatz für Informationen und Analysen.