Data Mining
Sven Jaginiak
Ba-Arbeit
1. Gutachter: Prof. Dr. Ines Rossak
2. Gutachter: Prof. Dr. Volker Herwig
Zusammenfassung
Die vorliegende Arbeit beschäftigt sich mit der Informationsgewinnung aus
größeren Datenbeständen und gibt einen Ausblick auf deren wirtschaftliche
Bedeutung. Als ein Schritt dieses Prozesses wird insbesondere auf den Aspekt
des Data Mining eingegangen.
Als äußerst praxisnahes Fallbeispiel wurde dabei der jährliche Data Mining Cup
gewählt, welcher als offener Wettbewerb für Studenten die Möglichkeit bietet,
Untersuchungen an realistischen Daten vorzunehmen. So stellt ein Großverleger
die Daten zur diesjährigen Aufgabe bereit, in der die Verkaufszahlen für
konkrete Buchtitel innerhalb eines Geschäftszyklus anhand der Absatzzahlen
bestimmter Buchkategorien bestimmt werden sollen.
Im Rahmen dieser Arbeit werden die dazu notwendigen Schritte, angefangen
von der Datenaufbereitung und –selektion bis zur Erstellung eines aussagekräftigen
Modells durchgeführt, um eine Vorhersage treffen zu können.
Abstract
This thesis is about the acquisition of information in big pools of data and affords
a perspective of its economical meaning. Thereby it will focus on Data
Mining as one step in this process.
As a high practical example the annual “Data Mining Cup” was chosen, which
offers students the ability of examining realistic data. The data of this year’s
task were making available by a great publisher who wants to predict the sales
figures of specific books in addiction of the sales figures of particular categories.
Within this thesis the necessary steps will realized, beginning by preparing the
data and ending with creating a convincing model for prediction.