Data Mining, Teil 3 – Welche Themen bewegt die Welt? (Feb 2017 – Feb 2018)

Die bisher über 200.000 gesammelten Nachrichten umfassen ein großes Spektrum an Themen (Siehe Data Mining, Teil 1). Aber was waren von Februar 2017 bis Februar 2018 die Hauptthemen? In dieser Analyse beschäftigen wir uns für den Anfang mit den Nachrichten von CNN (Sprache Englisch) und analysieren welche 25 Begriffe am häufigsten in den Nachrichten genannt wurden. Hierzu generieren wir uns eine Matrix, die wir anschließend sortieren:

# die 25 häufigsten Wörter inklusive Anzahl ausgeben

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 25)

Wir bekommen folgende Liste:

         word  freq
the       the 10311
trump   trump  5879
for       for  5058
and       and  3426
with     with  2446
trumps trumps  1814
new       new  1769
fast     fast  1717
facts   facts  1698
after   after  1669
from     from  1573
how       how  1542
says     says  1428
what     what  1379
are       are  1250
house   house  1219
why       why  1166
about   about  1137
over     over  1114
will     will  1091
north   north  1072
you       you  1067
this     this  1039
not       not   964
russia russia   898

Weiterlesen

Data Mining Teil 2 – nach einem Jahr – Analyse mit R der News pro Tag

Publizierte Nachrichten pro Jahr

Jetzt ist es an der Zeit die gesammelten Daten zu analysieren. Hierzu werden wir Sprache R benutzen.

Zuerst soll die Anzahl der publizierten Nachrichten pro Tag ausgewertet werden. Hierzu ist es wichtig einen Blick in die Tabellen zu werfen. Folgende Daten der Nachrichtenseite wurden gesammelt, sofern die die Daten im RSS-Feed oder im Artikel selber gefunden wurden:

  • PublishDate (datetime)
  • UtcDateTime (datetime)
  • LastUpdatedTime (datetime)
  • Title (string)
  • Description (string)
  • Categories (string)
  • Id (string)
  • Authors (string)
  • Contributors (string)
  • Copyright (string)
  • Link1 (hyperlink)
  • Link2 (hyperlink)

Ein Auszug einer Tabelle könnt ihr hier sehen.

Bild 1: Auszug der gespeichert Daten als Tabelle (zum vergrößern, klicken)

Weiterlesen

Kugeln

Präsentieren mit Prozent-Angaben

Für Präsentationen benötige ich sehr oft Angaben in %. Hier fehlen jedoch z.B. in PowerPoint schöne aussagekräftige Grafiken. Des Weiteren wäre es doch perfekt, wenn die Präsentation automatisch anhand einem aktuellen Datenpool generiert wird. Also warum kein C# Programm schreiben und die Kugeln selbst generieren lassen?

Hier das Resultat der fertigen Software, die Farbe ist frei wählbar:

Ein besonderen Dank gilt Dr. Urs Schaudt der mich bei diesem Projekt unterstützte. Weiterlesen

How to build a blockchain

Why write about Blockchain?

After more and more people asked me how a blockchain works, I decided to write about it. For the visualization a small test tool was written in C#.

A block chain is a continuously expandable list of data sets, called „blocks“, which are linked together by cryptographic methods. Each block typically contains a cryptographically secure hash (scatter value) of the previous block, a time stamp and transaction data.

The idea of Blockchain is not new. Stuart Haber and W. Scott Stornetta described the first principles of cryptographically secured linking of individual blocks in 1991.

Weiterlesen

Computer Dichtkunst und der Edington Affe

Das Edington Affen oder Infinite-Monkey-Theorem besagt, dass ein Affe, der unendlich lange und zufällig auf einer Schreibmaschine herumtippt, fast sicher irgendwann alle Bücher in der „Bibliothèque nationale de France, der Nationalbibliothek“ Frankreichs, schreiben wird.

Hier stellt sich die Frage wie lange wohl ein Computer, der schneller Zufallstexte generieren kann als ein Affe, exzellente poetische Werke, perfekten Sourcecode, harmonische Musikstücke oder ausführbare Programme generieren kann.

Und noch wichtiger: wie kann man die Generierung beschleunigen? Hier gibt es unzählige Möglichkeiten.  Je nach Text finden sich die Buchstaben in unterschiedlicher Häufigkeit in dem Text. Ein „Y“ lässt sich meist weniger oft finden als ein „E“. Auch die Beziehungen der Buchstaben und Wörter sind interessant. Wie häufig folgt ein „U“ nach einem „A“ oder das Wort „AUTO“ nach dem bestimmten Artikel „DAS“. Weiterlesen

Genetisch mutierende Algorithmen

Genetische Algorithmen wurden in den sechziger Jahren von John H. Holland an der Universität von Michigan beschrieben. Diese Technik löst Probleme mit einer Folge von immer besseren Näherungslösungen. Neue Lösungen züchtet man dabei durch Verpaarung der besten alten Lösungen. Nach einer Zeit taucht auf diese Weise eine Lösung auf, die besser ist als ihre Vorgänger.

Fasziniert von einem Bericht von A.K. Dewdney im Spektrum der Wissenschaft „Computer Kurzweil“ über generische Algorithmen fragte ich mich, ob diese Idee noch erweitert werden kann.

A. K. Dewndey beschreibt in dem Artikel das Züchten von Lösungen mit sogenannten „Eleks“. Jedes Elek besitzt ein Chromosom welche Übergangsinformationen speichert. Weiterlesen

Data Mining, Teil 1 – Nachrichten Mining – der Start

Die Inspiration

Kann man durch das Sammeln von Nachrichten interessante Theorien ableiten? „Veröffentlichungen nach Wochentag und Zeit?“ oder „Veröffentlichungshäufung nach Wochentag“ sind hier noch der Anfang.

Welche Wörter und Satzbauten werden in den Texten genutzt? Welche Personen oder Dinge in der Nachricht stehen mit anderen am öftesten im Kontext? Wie oft werden Nachrichten von dritten Kommentiert mit ähnlichen Textfragmenten kopiert? Das sind nur einige der möglichen Kausalitäten die es zu erforschen gilt.

Seit Anfang diesen Monates (Februar 2017) sammle ich hierzu Nachrichten Artikel von verschieden Nachrichten Server. Unter anderem faz.net, spiegel.de, welt.de, tagesschau.de, tomshardware.de, zak.de auto-motor-sport.de und ariva.de.

Hierzu wurde ein kleiner Server programmiert, der zyklisch das RSS-Feed der Seiten auswertet und bei neuen Inhalten diese Speichert und zusätzlich in flachen Tabellen pro Internetseite ablegt.

Inspiriert wurde ich hier durch D. Kriesel und seinem Artikel auf der 33C3 „SpiegelMining“. Weiterlesen