Data Mining, Teil 1 – Nachrichten Mining – der Start

Die Inspiration

Kann man durch das Sammeln von Nachrichten interessante Theorien ableiten? „Veröffentlichungen nach Wochentag und Zeit?“ oder „Veröffentlichungshäufung nach Wochentag“ sind hier noch der Anfang.

Welche Wörter und Satzbauten werden in den Texten genutzt? Welche Personen oder Dinge in der Nachricht stehen mit anderen am öftesten im Kontext? Wie oft werden Nachrichten von dritten Kommentiert mit ähnlichen Textfragmenten kopiert? Das sind nur einige der möglichen Kausalitäten die es zu erforschen gilt.

Seit Anfang diesen Monates (Februar 2017) sammle ich hierzu Nachrichten Artikel von verschieden Nachrichten Server. Unter anderem faz.net, spiegel.de, welt.de, tagesschau.de, tomshardware.de, zak.de auto-motor-sport.de und ariva.de.

Hierzu wurde ein kleiner Server programmiert, der zyklisch das RSS-Feed der Seiten auswertet und bei neuen Inhalten diese Speichert und zusätzlich in flachen Tabellen pro Internetseite ablegt.

Inspiriert wurde ich hier durch D. Kriesel und seinem Artikel auf der 33C3 „SpiegelMining“.

Die Hardware

Da das System Tag und Nacht arbeitet und mein NAS-System mit Linux keine weiteren Programme verkraftet, entschloss ich mich einen neuen Rechner zu kaufen. Meine Wahl viel hier auf einen kleinen Laptop um 199€ inklusive Betriebssystem. Die Spezifikaion anbei:

Prozessor: Intel(R) Atom(TM) x5-Z8350 CPU @ 1.44 GHz
Arbeitsspeicher: 4,00 GB
Systemtyp: 64-Bit-Betriebssystem
Festplatte: 256 GByte
OS: Windows 10, 64 Bit

Die Daten werden auf meinem NAS gespeichert. Hierzu wurden ersteinmal 2TBytes reserviert.

Die ersten Probleme

Nach dem das System die erste Woche perfekt gearbeitet hatte, gab es einen Bluescreen. Leider habe ich den Zustand zu spät gemerkt. 2 Tage wurden keine Daten gespeichert. Alle Systemtreiber, BIOS und Windows-Updates wurden jetzt installiert und ich hoffe es gibt kein Bluescreen mehr.

Schreibe einen Kommentar