Data Mining Teil 2 – nach einem Jahr – Analyse mit R der News pro Tag

Publizierte Nachrichten pro Jahr

Jetzt ist es an der Zeit die gesammelten Daten zu analysieren. Hierzu werden wir Sprache R benutzen.

Zuerst soll die Anzahl der publizierten Nachrichten pro Tag ausgewertet werden. Hierzu ist es wichtig einen Blick in die Tabellen zu werfen. Folgende Daten der Nachrichtenseite wurden gesammelt, sofern die die Daten im RSS-Feed oder im Artikel selber gefunden wurden:

  • PublishDate (datetime)
  • UtcDateTime (datetime)
  • LastUpdatedTime (datetime)
  • Title (string)
  • Description (string)
  • Categories (string)
  • Id (string)
  • Authors (string)
  • Contributors (string)
  • Copyright (string)
  • Link1 (hyperlink)
  • Link2 (hyperlink)

Ein Auszug einer Tabelle könnt ihr hier sehen.

Bild 1: Auszug der gespeichert Daten als Tabelle (zum vergrößern, klicken)

Zur Auswertung „News pro Tag“ nutze ich die ggplot2 library. Mit der Bibliothek kann die gewünschte Grafik sehr einfach und schnell generiert werden. Hierzu muss als erstes die Tabelle (CSV-File) mit dem Befehl read.csv eingelesen werden. Als Trennzeichen liegt der Strichpunkt vor. Die Daten sind im UTF-8 Format abgespeichert. Danach ist es relavant das Datum korrekt zu konvertieren. Dies kann mit dem Befehl as.Date realisiert werden. Anschließend kann die Menge der Datensätze mit identischen Datum mit einer Zeile Code generiert werden. Dies geschieht mit as.date.frame.

So sieht der fertige Sourcecode in R aus.

#read CSV-File
NewsData <- read.csv(file="g:\\news.csv",head=TRUE,sep=";", row.names=NULL, encoding="UTF-8")

#format PublishDate as date
NewsData$PublishDate=as.Date(NewsData$PublishDate,"%d.%m.%Y")

#group all news with same date (you get a table with Date and Freq)
reqs=as.data.frame(table(NewsData$PublishDate))

#load ggplot2 
library library(ggplot2)

 

Bild 2: Veröffentlichte Nachrichten pro Tag

Plausible Daten

Die obigen Auswertung (Bild 2) zeigt zu Begin eine durchschnittliche Publizierungsrate von 150 Nachrichten dieser Webseite pro Tag. Nach einem Jahr liegt diese nur noch bei durchschnittlich 140 Nachrichten pro Tag.

Ebenfalls sichtbar sind Peaks, sowie Lücken in der Grafik. Diese wurden in der folgenden Grafik mit a bis f markiert. Sind diese Peaks korrekt oder sind die Daten falsch? Dies muss analysiert und bewertet werden.

 

Bild 3: Veröffentlichte Nachrichten pro Tag, Peaks und Lücken

Peak a

Mit über 400 Nachrichten pro Tag ist diese Häufung auffällig, jedoch plausibel. Hier publizierte die Nachrichtenseite eine Artikelaktion mit über 150 Artikeln, alle in der Art „Die 10 schönsten Strände von…“, „Die schönsten Städte von…“, … . Das erklärt die Häufung.

Tal b und c

In den Zeiträumen über Weihnachten und Silvester publizierte die Nachrichtenseite wirklich weniger Nachrichten.

Lücke bzw. Tal d,e und f

Leider reflektieren diese Punkte 3 Systemausfälle. Ein Bluescreen (d) der nicht sofort von mir erkannt wurde. Die anderen zwei (e und f) sind ein weiterer Bluescreen in meinem Urlaub und ein Hardwareausfall. Aktuell läuft das System aber stabil.

Author: Jochen Müller März, 2018

Schreibe einen Kommentar