Data Mining, Teil 3 – Welche Themen bewegt die Welt? (Feb 2017 – Feb 2018)

Die bisher über 200.000 gesammelten Nachrichten umfassen ein großes Spektrum an Themen (Siehe Data Mining, Teil 1). Aber was waren von Februar 2017 bis Februar 2018 die Hauptthemen? In dieser Analyse beschäftigen wir uns für den Anfang mit den Nachrichten von CNN (Sprache Englisch) und analysieren welche 25 Begriffe am häufigsten in den Nachrichten genannt wurden. Hierzu generieren wir uns eine Matrix, die wir anschließend sortieren:

# die 25 häufigsten Wörter inklusive Anzahl ausgeben

dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 25)

Wir bekommen folgende Liste:

         word  freq
the       the 10311
trump   trump  5879
for       for  5058
and       and  3426
with     with  2446
trumps trumps  1814
new       new  1769
fast     fast  1717
facts   facts  1698
after   after  1669
from     from  1573
how       how  1542
says     says  1428
what     what  1379
are       are  1250
house   house  1219
why       why  1166
about   about  1137
over     over  1114
will     will  1091
north   north  1072
you       you  1067
this     this  1039
not       not   964
russia russia   898

Weiterlesen

Data Mining Teil 2 – nach einem Jahr – Analyse mit R der News pro Tag

Publizierte Nachrichten pro Jahr

Jetzt ist es an der Zeit die gesammelten Daten zu analysieren. Hierzu werden wir Sprache R benutzen.

Zuerst soll die Anzahl der publizierten Nachrichten pro Tag ausgewertet werden. Hierzu ist es wichtig einen Blick in die Tabellen zu werfen. Folgende Daten der Nachrichtenseite wurden gesammelt, sofern die die Daten im RSS-Feed oder im Artikel selber gefunden wurden:

  • PublishDate (datetime)
  • UtcDateTime (datetime)
  • LastUpdatedTime (datetime)
  • Title (string)
  • Description (string)
  • Categories (string)
  • Id (string)
  • Authors (string)
  • Contributors (string)
  • Copyright (string)
  • Link1 (hyperlink)
  • Link2 (hyperlink)

Ein Auszug einer Tabelle könnt ihr hier sehen.

Bild 1: Auszug der gespeichert Daten als Tabelle (zum vergrößern, klicken)

Weiterlesen