In die BonnerBlogs.de-Datenbank sind seit 2004 etwa 57.000 Artikel aus Bonn reingelaufen (abzüglich ein paar Duplikate, Umzügler, etc.). Die Datenbank mit allen Links und teils den Texten, Autorennamen, Kategorien stelle ich gerne allen zur Verfügung, die da Ideen zur Auswertung, Visualisierung und Darstellung haben.
Gerade hat ja David Kriesel aus Bonn/Region beim Chaos Communication Camp gezeigt, wie spannend so eine Auswertung sein kann. Er hat Spiegel Online mit seinen 80.000 Artikeln analysiert und viele Erkenntnisse daraus gezogen, zum Beispiel, bei welchen Themen das Kommentarfeld gesperrt wird:
Mehr dazu auch bei @gsohn:
https://ichsagmal.com/2017/01/02/spon-politik-bei-kommentaren-feuer-frei-bei-putin-und-brexit-33c3/
@basti-tee hat schon mal einen kleinen Aufschlag zur Analyse gemacht:
"Sehr interessanter Content. 67181 Permalinks, davon waren 58876 erreichbar (HTTP 200) und ich hab mal den ganzen Blogcontent gedumpt. Da gibts noch einige Baustellen (Redirects, etc.) und interessant ist das Ergebnis noch nicht, aber ein Schritt weiter als gestern
Das Skript würde ich am liebsten Open Source auf Github schmeißen, aber der Content liegt bei 12 GB. Da wäre es wohl fast besser, dass skript so weit zu bekommen, dass man sich den Dump mit deiner SQL Datei selber erzeugt."
Je nach Rechner und Leitung hat man den Volltext-Dump in ca. 4-6 Stunden.
Wir sind uns ziemlich sicher, dass sich mit diesen Daten sehr interessante Analysen machen lassen. Im CodeCentric-Blog gab es auch ein paar spannende Hinweise, wie man solche Big-Data-Analysen aufziehen könnte, bei LDA Topic Modell musste ich leider aussteigen:
Last but not least: @basti-tee hat auch schon etwas Code zum Auswerten und Bereinigen der Daten geschrieben. Den Fork davon gibt es jetzt bei GitHub:
https://github.com/BastiTee/bonnerblogs-analysis