Definitionen

Was ist CRISP?

| Autor / Redakteur: Egoloizos / Manfred Klein

(Bild: © aga7ta - Fotolia)

Als Abkürzung steht CRISP-DM für Cross-Industry-Standard-Process-for-Data-Mining und hat sich als Phasen-Prozessmodell und Standard für Data-Mining in verschiedenen Branchen durchgesetzt. Entstanden ist CRISP 1996 im Zuge eines EU-Förderprogramms.

Ziel des Projekts war die Entwicklung einer Standard-Methode für das damals noch nicht einheitlich definierte oder dokumentierte Data-Mining. Die Entwicklung begann bereits 1996 unter der Beteiligung namhafter Konzerne. Ein Jahr später wurde das CRSIP-Projekt unter Bildung eines Konsortiums öffentlich initiiert. Die Initiatoren des Projekts umfassten die NCR Dänemark, ein Lieferant für Lösungen im Bereich Data-Warehousing und die damalige Daimler-Benz AG (heute Daimler AG). Die beiden Initiatoren wurden erweitert um die britische Integral Solutions Limited (ISL) (seit 1999 übernommen von SPSS) sowie die OHRA Versicherungen und Bank Gruppe. Diese Organisationen bilden gemeinsam das CRISP-Konsortium.

Das CRISP-DM-Konzept erfreut sich einer Förderung und Subventionierung durch die Europäische Kommission. Die Förderung findet statt im Rahmen des Programms zur Förderung von technologischen Entwicklungen in Europa (ESPRIT).

Das Prozessmodell und seine Phasen

Im Modell von CRISP-DM ist der vollständige Zyklus eines Data-Mining-Prozesses abgebildet. Dieser umfasst sechs Phasen, die sowohl Aufgaben als auch Outputs beinhalten:

  • Business Understanding
  • Data Understanding
  • Data Preparation
  • Modeling
  • Evaluation und
  • Deployment.

Diese Modell-Aufgaben sind vollumfänglich und generisch. In diesem Sinne sind sie unabhängig von speziellen Anforderungen in Data-Mining-Anwendungen. Die Techniken sind dergestalt entwickelt worden, dass sie im Hinblick auf kommende Entwicklungen in der Data-Mining-Forschung stabil sind. Damit sind sie beispielsweise auch für neue Modelliertechniken geeignet.

Die Schritte werden im Allgemeinen nicht in einer festen Reihenfolge abgearbeitet. In der Data-Mining-Praxis erweist sich der Gesamtprozess immer wieder als dynamisch und nicht etwa linear. Entwicklungen und Befunde in einer bestimmten Phase können Analytiker dazu veranlassen, wieder zu früheren Phasen zurückzugehen.

Business Understanding

Im Geschäftsverständnis geht es um die Festlegung der konkreten Ziele und Anforderungen. In dieser ersten Phase werden eine spezifische Aufgabenstellung sowie eine erste große Vorgehensweise formuliert.

Data Understanding

Das Datenverständnis umfasst eine Bestandsaufnahme der verfügbaren und nutzbaren Daten. Anschließend erfolgt die Datensammlung. Daraufhin wird die Datenqualität analysiert und mögliche damit im Zusammenhang stehende Probleme ermittelt.

Data Preparation

Die Datenvorbereitung ist eine Phase, in der ein finaler Datensatz erstellt wird. Dieser dient als Grundlage für die anschließende Modellierung.

Modeling

In der eigentlichen Phase der Modellierung werden angemessene Data-Mining-Verfahren zur Anwendung gebracht. Die verfügbaren Parameter werden optimiert. Im Allgemeinen werden hier gleich mehrere Daten-Modelle erstellt.

Evaluation

In der Auswertung oder Evaluierung wird schließlich ein Modell ausgewählt, das am ehesten geeignet ist, die ursprüngliche Aufgabenstellung zu erfüllen. Bei der Evaluierung werden die zuvor ermittelten Datenmodelle sorgfältig mit der Aufgabenstellung abgeglichen.

Deployment

Die Phase der Bereitstellung beinhaltet die Datenaufbereitung sowie ihre Präsentation. Das Datenmodell wird gegebenenfalls in den Entscheidungsprozess eines Auftraggebers integriert.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45119007 / eGOV_Definitionen)