Referenzprojekte

Projektziel: Vorhersage von Hochkostenfällen bei einer Versicherung

 

Projektziel: Ziel des Projekts war es, bei einer Versicherung aus der Gesundheitsbranche, Fälle mit Hochkostenpotenzial vorherzusagen. Wie in vielen Situationen war es auch bei diesem Kunden so, dass die Verteilung der Kosten pro Fall sehr schief ist: Die meisten Fälle verursachen wenig Kosten. Aber einige wenige können extrem hohe Kosten verursachen. Daher gilt es, solche Fälle frühzeitig zu erkennen.

 

Vorgehen: Die Daten blieben die ganze Zeit auf den Servern des Kunden. Über eine Citrix-Remote-Verbindung wählten wir uns auf einen virtuellen Rechner im Netzwerk des Kunden ein. Auf diesem Rechner waren Daten und Analyse-Software vorhanden. So hatte der Kunde eine Sorge weniger: Die Daten verließen sein Haus zu keiner Zeit. 

 

Ein Großteil der Zeit nahm die Datenaufbereitung in Kauf. Die Datenlage war hoch komplex und es bewahrheitete sich die alte Weisheit, dass diese Phase (Aufbereitung) die meiste Zeit und Mühe kostet. Außerdem war ein Branchenverständnis unabdingbar, denn viele Details, z.B. rechtlicher Art oder in der Verwendung von Fachausdrücken, gehen sonst verloren.

 

Da der Datensatz recht groß war (ein paar Millionen Zeilen und ein paar Tausend Spalten) liefen die Rechner mitunter tagelang, um bestimmte, rechenintensive Analysen durchzuführen. Da war es praktisch, dass wir eine gute Serverinfrastruktur des Kunden nutzen konnten.

 

An prädiktiven Algorithmen hat sich (wieder einmal) Random Forests bewährt in diesem Projekt. Wir probierten eine Reihe von bewährten Algorithmen aus und es zeigte sich eine deutliche Spanne in der prädiktiven Güte.

 

Ergebnisse: Die extreme Schiefe der Outcome-Variablen (Schadensfall bzw. Schadenshöhe) machte die Algorithmen zu schaffen, so dass die Güte der Prädiktion zuerst bescheiden war. Nachdem wir die Schiefe (durch Transformation) besser im Griff hatten, wurde auch die Vorhsagegenauigkeit besser. Letztlich konnten wir eine Reihe von Prädiktoren identifizieren, die möglicherweise als "Frühwarnsystem" eingesetzt werden könnten.

 

 

 

Augenbelastung bei Plasma- und LCD-TVs

Projektziel: Ziel des Projekts war es, verschiedene TVs (Plasma und LCD) hinsichtlich ihrer Augenbelastung und weiterer gesundheitsrelevanter Parameter zu vergleichen.

 

Vorgehen: Für eine hohe statistische Power wurde ein between-Forschungsdesign gewählt, d.h. alle Versuchspersonen haben alle TV-Geräte getestet. Es wurde jeweils drei Filmaussschnitte gezeigt. Dabei wurden sowohl physiologische (EEG, Pupillengröße, Hautleitwiderstand, Reaktionszeiten) als auch psychologische Parameter (subjektive Präferenz, subjektive Bildqualität, etc.) getestet.

 

Ergebnisse: Der Plasma-TV zeigte insgesamt das beste Belastungsprofil über alle Parameter hinweg. Das Plasma-Bild wurde als weicher, weniger belastend und angenehmer wahrgenommen. Das Diagramm veranschaulicht die Ergebnisse des Versuchs (aus Datenschutzgründen in verfremdeter Form).

Mentale Belastung bei Computerarbeit

Projektziel: Aufgrund der Pupillengröße als Indikator für die Belastung des Arbeitsgedächtnisses sollte die Leistung (bzw. Fehleranzahl) von Versuchsteilnehmern bei Aufgaben der Arbeit am Computer vorhergesagt werden. Die Leistung der Nutzer sollte in Echtzeit vorhergesagt werden, damit zukünftig in Echtzeit eine Warnung ausgegeben werden kann, wenn einer Nutzer von einer Aufgabe am Computer überlastet ist.

 

Vorgehen: Alle Probanden bearbeiten die gleichen drei Aufgaben (leicht vs. mittel vs. schwer); dabei wurden kontinuierlich Biosignale abgeleitet (z.B. Pupillengröße). Bei der Analyse der Daten versuchten wir, in Echtzeit (etwa pro Sekunde) vorhzusagen, wie sich die Leistung des Nutzers entwickeln wird.

 

Ergebnisse: Es war allein aufgrund der Pupillengröße möglich, die Leistung der Versuchsteilnehmer vorherzusagen. Dabei gelang keine perfekte Vorhersage, aber die Vorhersagegüte war deutlich besser als es durch Zufall zu erwarten gewesen wäre. Die Pupille der Teilnehmer mit hoher Leistung war konsistent (im Mittel) größer als die der Versuchsteilnehmer mit geringer Leistung (vgl. Diagramm; hier mit verfremdeten Daten).

Vorhersage von Verhalten auf Basis einer Befragung

Projektziel: Auf Basis einer Befragung sollte das Verhalten der befragten Personen vorhergesagt werden (verfremdetes Beispiel: Vorhersage, ob ein Kunde das Produkt kauft auf Basis einer Kundenbefragung).

 

Vorgehen: Für ca. 300 Personen wurden Befragungdaten und die Tatsache, ob diese Personen das Produkt gekauft haben oder nicht, erfasst. Dann wurde für einen Teil der Stichprobe ein Vorhersagemodell entwickelt und am anderen Teil der Stichprobe überprüft. Dabei wurden ca. 10 aktuelle Vorhersage-Algorithmen verglichen (z.B. Support Vector Machines, Random Forests, Neuronale Netze...).

 

Ergebnis: Das Random-Forest-Modell bewies insgesamt mit Abstand die beste Vorhersagequalität. Das Verhalten der Personen (Kaufentscheidung ja vs. nein) konnte zwar nicht perfekt, aber deutlich besser als es der Zufall erwarten lassen würde, vorhergesagt. Das nebenstehende Diagramm illustiert die Daten der Kundenbefragung (hier mit verfremdeten Werten).

Hinweis: Aus Datenschutzgründen wurden die Daten dieser Projekte verfremdet.

Druckversion Druckversion | Sitemap
© Data-Divers