Bonner Blogs auswerten: Datenjournalisten und Statistik-Fans gefragt

Sascha_Foerster · 4. Januar 2017 um 16:32

In die BonnerBlogs.de-Datenbank sind seit 2004 etwa 57.000 Artikel aus Bonn reingelaufen (abzüglich ein paar Duplikate, Umzügler, etc.). Die Datenbank mit allen Links und teils den Texten, Autorennamen, Kategorien stelle ich gerne allen zur Verfügung, die da Ideen zur Auswertung, Visualisierung und Darstellung haben.

Gerade hat ja David Kriesel aus Bonn/Region beim Chaos Communication Camp gezeigt, wie spannend so eine Auswertung sein kann. Er hat Spiegel Online mit seinen 80.000 Artikeln analysiert und viele Erkenntnisse daraus gezogen, zum Beispiel, bei welchen Themen das Kommentarfeld gesperrt wird:

Mehr dazu auch bei @gsohn:
https://ichsagmal.com/2017/01/02/spon-politik-bei-kommentaren-feuer-frei-bei-putin-und-brexit-33c3/

@basti-tee hat schon mal einen kleinen Aufschlag zur Analyse gemacht:

"Sehr interessanter Content. 67181 Permalinks, davon waren 58876 erreichbar (HTTP 200) und ich hab mal den ganzen Blogcontent gedumpt. Da gibts noch einige Baustellen (Redirects, etc.) und interessant ist das Ergebnis noch nicht, aber ein Schritt weiter als gestern

Das Skript würde ich am liebsten Open Source auf Github schmeißen, aber der Content liegt bei 12 GB. Da wäre es wohl fast besser, dass skript so weit zu bekommen, dass man sich den Dump mit deiner SQL Datei selber erzeugt."

Je nach Rechner und Leitung hat man den Volltext-Dump in ca. 4-6 Stunden.

Wir sind uns ziemlich sicher, dass sich mit diesen Daten sehr interessante Analysen machen lassen. Im CodeCentric-Blog gab es auch ein paar spannende Hinweise, wie man solche Big-Data-Analysen aufziehen könnte, bei LDA Topic Modell musste ich leider aussteigen:

Last but not least: @basti-tee hat auch schon etwas Code zum Auswerten und Bereinigen der Daten geschrieben. Den Fork davon gibt es jetzt bei GitHub:
https://github.com/BastiTee/bonnerblogs-analysis

Sascha_Foerster · 20. Februar 2017 um 10:31

Tatsächlich hat sich ein Student der Hochschule Bonn/Rhein-Sieg gemeldet, der nun seine Bachelor-Arbeit zu dem Thema schreibt und sich fleißig in Python, Symantec Web, und Data Exploration & Analysis einliest.

Dazu entsteht ein Netzwerk zwischen @basti-tee, dem Studenten und David Kriesel, so dass sie Ideen austauschen können. Ich bin schon sehr gespannt, was da entsteht.

gsohn1 · 6. Juni 2017 um 09:03

Wie weit ist das gediehen?

basti-tee · 6. Juni 2017 um 13:18

Hi, ein großer Schritt für mich, ein kleiner Schritt für die Data Science würde ich sagen. Ich stelle die Infos nochmal zusammen in den nächsten 1-2 Wochen und linke das hier. War das allgemein gefragt oder hast du einen konkreten Anlass?

basti-tee · 16. Juni 2017 um 06:24

https://basti.site/2017/06/09/bonnerblogs-analysis-p1.html
Hier steht jetzt ausführlich, wie weit es gediehen ist.