google+ Profile und Accounts liegen offen

von am 22. März 2012

Wir haben schon vor einigen Wochen mal die sitemaps von google unter die Lupe genommen und dabei einige äusserst interessante Dinge “gefunden”. Wir haben lange überlegt das überhaupt öffentlich zu machen, bzw. darüber nachgedacht, was man mit den Daten tun könnte. INFOGRAFIKEN war natürlich die erste Idee. Wir haben darüber auf der Campixx mit einigen Leuten gesprochen (Heiner Du erinnerst Dich sicher!). Deshalb nachfolgend einige Zahlen, die unsere Crawler zusammengetragen haben. Zur Info am Rande: wir haben nichts gehackt, oder sind sonstwie in Systeme eingedrungen! Die Daten liegen nach wie vor offen rum. In google´s eigener Sitemap, ALLE!

Wie wir drauf gekommen sind? OK, here we go: es macht ja durchaus Sinn ab und an mal über den Tellerrand zu schauen, um zu analysieren was andere vll. anders und vor allem besser machen. Im Zuge dessen haben wir uns die robots.txt von google angeschaut und dort das hier gefunden: Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml . Wenn man sich diese .xml mal näher anschaut findet man dort Verweise auf viele .txt-Dateien, in denen dann die exakten URLs der Profile und Accounts liegen.

Na wenn da das SEO- und Programmiererherz nicht höher schlägt? Also fix nen Crawler gebaut und alle Daten abgegrast. Am Ende des Tages waren dann sage und schreibe knapp über 106 Millionen Datensätze in der DB. Und da google netterweise auch noch das Datum über die sitemaps mitliefert, haben wir unser Krabbeltierchen natürlich darauf getrimmt, nach Updates Ausschau zu halten. Zeitliche Verläufe in Infografiken machen sich einfach immer gut! und siehe da, mehr oder weniger regelmäßig updated google den Datenbestand auch. Wir haben die ersten Daten am 13.12.2011 analysiert und 4 Wochen später am 13.01. war wieder ein Update der sitemaps. und etwa 8 Wochen später am 16.03. das letzte Mal.

hier könnt Ihr die Daten einsehen: google plus Auswertung Tool (sorry für die Ladezeit, konnten wir auf die Schnelle nicht optimieren, aber ich denke 5 Sekunden ist noch im Rahmen)

Wir haben lange hin und her überlegt, ob wir unsere Auswertung öffnen sollen! Aber damit klar wird, was google da offen legt hat das Team sich dafür eingesetzt: bittesehr, unsere google+ Profilsuchmaschine auf Basis frei zugänglicher Daten, google erlaubt es einem robot bzw Crawler wie unserem mit einem deutlichen ALLOW: http://www.gstatic.com/robots.txt ;-)

Danke an Amit Agarwal, der gestern Abend einen Artikel genau dazu geschrieben hat und seo-united.de, die heute morgen auch schon darüber gebloggt haben! Daraufhin haben wir beschlossen das auch öffentlich zu machen! Er spekuliert und rechnet grob durch, was da an Daten “rumliegt”, wir haben das Tool dazu gebaut! Man kann jetzt natürlich noch weiter gehen und genaue Daten ziehen, über öffentliche Profile und nicht öffentliche. Und die öffentlichen kann man problemlos crawlen und scrapen. Selbst wenn nur 10% aller User ein offenes Profil haben sollten, ist die Datenmenge schon sehr nah an “repräsentativ”. Man könnte also einfach mal analysieren, wie die grundsätzliche Genderverteilung ist, oder wo die Ballungsräume der Plus-Nutzer liegen, oder wie viele Plusser in NYC weiblich sind, oder oder oder…..

Alles in allem eine hochinteressante Sache, mit der man tolle Analysen fahren kann, aber auch viele böse Dinge anstellen könnte. Deshalb bin ich mir nicht so sicher, ob sich google mit der kompletten Offenlegung einen Gefallen tut und als google+-Nutzer wirft das sicher Fragen auf. Andererseits werden die google+-Profil-URLs ja aber auch indixiert und sind auch so einsehbar! Mit der Abfrage: site:plus.google.com inurl:about sieht man aber deutlich, dass die Seiten nicht alle indexiert sind. Was meint Ihr dazu? Wie findet Ihr das Tool?

{ 16 Kommentare }

Schulze, Thomas März 22, 2012 um 11:05

Wow, das ist mal ein Hammer! Gute Arbeit, die Herren!

Antworten

Sebastian März 22, 2012 um 11:20

Ganz schön derbe…

Antworten

Nicolas Sacotte März 22, 2012 um 11:21

bedank Dich beim Crawler! ;-)

Antworten

Nils Hitze März 22, 2012 um 11:26

Was daran ist genau jetzt neu?

Einfach mal danach Googlen:
http://goo.gl/mY59Z
“Sophie Wrobel hat das auf Google+ geteilt · 13. Juli 2011″

Ebenfalls aus 2008:
http://www.searchenginejournal.com/google-profiles-now-indexable-in-search-engines/7846/

Ich sehe auch gerade nicht was man damit “böses” anstellen könnte, aber klär mich bitte auf

Antworten

Nicolas Sacotte März 22, 2012 um 11:33

neu ist das nicht, aber wir haben es halt visualisiert und die Updates bzw. Zuwachsraten damit aufgezeigt! ;-)

….und “böse” ist halt immer sehr relativ, aber man könnte die offenen Profile crawlen und dann z.B. regionale Circles aufbauen, d.h. ich such mir alle weiblichen Personen in Berlin und adde die zu meinen Circles…. :-) Viel Raum für Spam…

Antworten

Mario März 22, 2012 um 11:27

Nice!

Antworten

Gretus März 22, 2012 um 11:50

Hallo,

schon krass, allesamt zu Facebook einladen #lol

Grüße

Gretus

Antworten

Nicolas Sacotte März 22, 2012 um 11:51

genau das wäre auch ne Möglichkeit! ;-) gute Idee eigentlich!

Antworten

Speedy März 22, 2012 um 12:09

Wahnsinn, was es doch so alles gibt, und wer so alles Zeit nach solchen Punkten zu suchen ;-) Kompliment.
Habe das Tool gerade einmal nach meinen ID´s durchsucht und diese nicht gefunden. Sie sind zwar bei google indiziert, aber nicht bei euch drin. Auch interessant.
Die Suche ist etwas sehr lang, bei den Daten aber auch kein Wunder.

Antworten

Nicolas Sacotte März 22, 2012 um 12:21

die ist mit Sicherheit drin! es sei denn der Account bzw. das Profil wurde nach dem 16.03. angelegt!
Wir haben das mit etwa 50 IDs durchgetestet, alle drin!

Antworten

Speedy März 22, 2012 um 13:50

OK, sorry. War mein Fehler, ich hatte die Profil-ID aus der URL herauskopiert und dabei den / am Ende mitkopiert. Neuer Versuch, mit einem Treffer.

Interessant wäre zu wissen ob alle Profile, die indiziert sind, eine bestimmte Anzahl an Fans haben (Kreise). So in der Art, Profile mit weniger als 10 Freunde werden nicht indiziert, etc. Lässt sich das mit den Daten berechnen?

Antworten

Nicolas Sacotte März 22, 2012 um 14:11

gute Frage! werden wir beizeiten mal prüfen, ob das ein Grund für die Diskrepanz zwischen Der Profil- bzw. Accountanzahl und den Suchergebnissen sein könnte!

Antworten

Manfred Gottschling März 22, 2012 um 14:07

hmm…

das ist ja schön ;) nun ich habe meine ID gefunden und auch angezeigt bekommen … und richtig cool finde ich das ganze tatsächlich in Verbindung mit einem lokalen Wettbewerb zu verknüpfen – bin ja direkt mal gespannt wie sich das am ende auf das local search ranking auswirken wird …
ein schelm wer böses dabei denkt …

Antworten

Alex März 23, 2012 um 23:18

Schon, nice.

Da kann man bestimmt einiges mit machen, mal eine Nacht drüber schlafen ;)

Antworten

Tilo März 30, 2012 um 12:03

Jetzt sagt nicht, dass ihr das alle nicht geahnt haben. Was denkt ihr denn, was eine Suchmaschine oder Netzwerk (FB, G+ etc.) mit den Daten anstellt. Hier mein User, ja es ist deins, nein wir machen so etwas nicht…LOL… Wenn ihr an einem Gewinnspiel teilnehmt, dann steht auch im klein gedruckten, was noch kommen wird. Die verdienen ihr Geld damit, nichts ist umsonst. Alles hat immer einen Preis… Privatsphäre und Datenschutz ist nicht mehr zeitgemäß….total OUT.

Antworten

Markus Wagner April 26, 2012 um 14:29

Hui, da bietet ne Menge Möglichkeit zum spammen, schöne Circles könnte man bauen, wenn man die Zeit dafür hätte. Habe ich aber nicht. ;-)

Antworten

Kommentar

{ 6 trackbacks }