Die bisher über 200.000 gesammelten Nachrichten umfassen ein großes Spektrum an Themen (Siehe Data Mining, Teil 1). Aber was waren von Februar 2017 bis Februar 2018 die Hauptthemen? In dieser Analyse beschäftigen wir uns für den Anfang mit den Nachrichten von CNN (Sprache Englisch) und analysieren welche 25 Begriffe am häufigsten in den Nachrichten genannt wurden. Hierzu generieren wir uns eine Matrix, die wir anschließend sortieren:
# die 25 häufigsten Wörter inklusive Anzahl ausgeben dtm <- TermDocumentMatrix(docs) m <- as.matrix(dtm) v <- sort(rowSums(m),decreasing=TRUE) d <- data.frame(word = names(v),freq=v) head(d, 25)
Wir bekommen folgende Liste:
word freq the the 10311 trump trump 5879 for for 5058 and and 3426 with with 2446 trumps trumps 1814 new new 1769 fast fast 1717 facts facts 1698 after after 1669 from from 1573 how how 1542 says says 1428 what what 1379 are are 1250 house house 1219 why why 1166 about about 1137 over over 1114 will will 1091 north north 1072 you you 1067 this this 1039 not not 964 russia russia 898