Daten

Mit unserem Bildungsprogramm, der Datenschule, möchten wir gemeinnützigen Organisationen den guten Umgang mit Daten verständlich machen und die Chancen der Digitalisierung für die Zivilgesellschaft aufzeigen. Unsere Workshops und Kooperationsprojekte orientieren sich an der Data Pipeline. Diese Methode verschafft einen guten Überblick darüber, wie man beim Arbeiten mit Daten von der ersten Fragestellung bis zur Kommunikation vorgeht.

Uns ist eine gute Dokumentation unserer Datenarbeit wichtig, damit andere Menschen die Ergebnisse besser überprüfen und auf diesem Wissen aufbauen können.

Alle Daten sind unter CC0 als Open Data frei zugänglich und können hier heruntergeladen werden. Fehler entdeckt? Melde dich bei uns per Mail. Wir werden Korrekturen schnellstmöglich vornehmen.

Fragestellung

OffenesParlament existiert seit 2013 und ist ein Community-Projekt, zu dem viele ehrenamtlich Engagierte beigetragen haben. Ziel ist es, Regierungshandeln verständlicher und transparenter zu machen. Wir wollten wissen, über welche Themen im Bundestag verhandelt wird und welche Positionen die einzelnen Abgeordneten beziehen.

Suchen und Finden

Bei unserer Recherche haben wir verschiedene Datenquellen gesammelt und dann definiert, welche Daten zuverlässig und aussagekräftig sind (Qualität der Daten), um unsere Frage zu beantworten. OffenesParlament verwendet überwiegend historische Daten des Bundestags zur 18. Wahlperiode (Oktober 2013 - Juni 2017). Die Plenarprotokolle werden nach jeder Sitzung online als txt- und pdf-Dateien auf der Bundestagswebseite veröffentlicht. Sie umfassen unter anderem Redebeiträge der Abgeordneten, Listen der Abgeordneten, Berichte und Debatten, Sitzungsverläufe und Tagesordnungspunkte, Gesetzentwürfe, und Drucksachen. Zusätzlich nutzen wir Informationen zu den Profilen der einzelnen Abgeordneten von abgeordnetenwatch.de und dem Bundestag: Berufe, Geschlecht, Alter und Bilder der Abgeordneten.

Säubern

Daten müssen vor der eigentlichen Analyse überprüft, validiert und gesäubert werden, bevor Rückschlüsse aus ihnen gezogen werden können. Bei der Säuberung der Daten werden z.B. Informationslücken recherchiert und Daten in eine strukturierte Form gebracht, damit sie von Maschinen verarbeitet werden können. Außerdem müssen die verschiedenen Datenquellen miteinander verknüpft werden, sodass ein einheitlicher Datensatz entsteht.

Die Plenarprotokolle liegen uns in Textform vor. Um einzelnen Abgeordneten Redebeiträge zuordnen zu können, bringen wir die Texte mit unserem PLPR-Scraper in eine tabellarische Form. Einzelne Redebeiträge haben wir den Tagesordnungspunkten zugeordnet. Die Details der Tagesordnungspunkte stammen aus den Sitzungsverläufen. Die Verknüpfung mit den Redebeiträgen erstellen wir anhand der Rednerlisten der Plenarprotokolle. Tagesordnungspunkte verknüpfen wir mit Informationen zu den Abgeordneten über den MdB-Merger. Um die Themen der Plenarprotokolle herauszuarbeiten, haben wir jeden Titel der Tagesordnungspunkte klassifiziert. Die Klassifizierung erfolgte mit dem Open Source-Tool crowdcrafting”. Die Liste der Arbeitsbereiche des Bundestags dient uns dabei als Grundlage und beinhaltet 18 Themen, die bei der Zuordnung der Tagesordnungspunkte bei OffenesParlament verwendet werden.

Von uns werden die Daten inhaltlich nicht verändert, sondern lediglich in einer anderen Form dargestellt. Um unsere Arbeitsschritte nachvollziehbar zu machen, verweisen wir auf die von uns bearbeiteten Daten und Rohdaten der ursprünglichen Quellen (weiter unten).

Analysieren

Die von uns aufbereiteten Daten werden in einer Datenbank gesammelt, die uns erlaubt, die verknüpften Daten flexibel abzufragen. Um ein Gefühl für die Daten zu bekommen, haben wir explorativ gearbeitet und die Test-Ergebnisse in Python Notebooks festgehalten.

Außerdem haben wir von uns erstellte CSV Dateien mit Orange analysiert. Orange ist ein interaktives Datamining Tool, um Teile von Datensätzen einfach zu analysieren.

Visualisieren und Kommunizieren

Für unsere Visualisierung haben wir die freie Bibliothek Chartist verwendet. Bei dem Großteil unserer Visualisierungen handelt es sich um interaktive Balkendiagramme bei dem die Nutzer einzelne Parameter ändern können. Einfache Diagrammtypen (wie Balken- Kreis- oder Liniendiagramme) bieten den Vorteil, dass sie einfach erschlossen werden können.

Aktualisierung der Daten

Wir haben ausschließlich historische Daten des Bundestags genutzt (Stand 04.09.2017). Unsere Analysen beziehen sich daher lediglich auf die 18. Wahlperiode.

Unsere Daten zum Download

Rohdatenzugriff zur Überprüfung der genutzten Datenbasis
CSV | JSON

Von uns aufbereitete Daten, die für die Analysen verwendet wurden
CSV | JSON

Scraper für das Abfragen der Plenarprotokolle auf der Webseite des Bundestags
Github

Quellcode von OffenesParlament auf GitHub
Datenbank | Webseite

Protokolle der Plenarsitzungen
CSV | JSON

Tasgesordnungspunkte aller Plenarsitzungen
CSV | JSON

Metadaten der MdBs der 18. Wahlperiode
CSV | JSON

Weitere Daten und Tools

In Wikidata, dem zentraler Speicher für strukturierte Daten der Wikipedia (und anderen Projekten) finden sich bereits einige Daten über die Parlamente und Abgeordnete.

Bundesgit ist der Versuch, die Mechanismen der Versionskontrolle von Software auf deutsche Gesetze anzuwenden. Diese Seite wurde automatisch aus den Inhalten des zugehörigen GitHub Repositories erzeugt.

EveryPolitician stellt weltweit Daten über Politiker/innen, mit Geburtsdatum und Links auf Social Network-Profile zur Verfügung.

Abgeordnetenwatch bietet Daten über Parlamente, Profile und Wahlkreise.

Kleine Anfragen stellt alle Anfragen aus den Landesparlamenten und des Bundestags bereit. Volltext und Datenbankdump verfügbar.

Wahldaten-Repositorium der Open Knowledge Foundation Deutschland.