1. Trang chủ
  2. » Thể loại khác

Datamining and Prediction (tiếng Đức)

13 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 635,73 KB

Nội dung

Seminar: Datamining and Prediction Verwendung von Vorhersagen in der Praxis Literaturgrundlage: Makridakis, S.; Wheelwright, S C.; Hyndman, R J.: Forcasting – Methods and Applications (Third Edition); John Wiley and Sons Inc.; 1998 Doreen Rosenthal rosentha@inf.fu-berlin.de Inhalt Motivation Umfragen bei den Benutzern 3 Genauigkeit 3.1 Einfache vs Komplexe Methoden 3.2 Zeithorizont des Vorhersagens 10 3.3 Verschiedene Methoden und deren unterschiedlichen Genauigkeitsmaße 11 Kombination von Vorhersagen 11 3.4 Faktoren, die die Vorhersage beeinflussen 11 4.1 Vorhersagen vs Erklärungen 11 4.2 Charakteristika von Zeitperioden 11 4.3 Typ der Daten 12 4.4 Zahl und Häufigkeit von Vorhersagen 12 Zusammenfassung 13 Motivation Im Rahmen des Seminars „Datamining and Prediction“ wurden verschiedenste Vorhersagemethoden vorgestellt, allerdings wurde in diesem Zusammenhang nicht darauf eingegangen, wie sich diese unterschiedlichen Techniken in der Praxis bewähren Diese Ausarbeitung setzt sich deshalb mit diesem Thema auseinander Zuerst wird in diesem Zusammenhang auf eine Benutzerumfrage eingegangen Danach soll erötert werden, wie genau die verschiedenen Vorhersagemethoden sind Abschließend wird sich dann mit den Faktoren, welche eine Vorhessage beeinflussen können, beschäftigt Umfragen bei den Benutzern Die Grundlage dieses ersten Abschnitts ist eine Studie von Metzner und Cox aus dem Jahre 1989, welche auf einer Befragung von mehr als 150 US-Managern aus verschiedenen Bereichen beruht Diese Studie untersuchte den Grad der Bekanntheit von subjektiven und qualitativen (objektiven) Vorhersagemethoden Interessant ist hier in diesem Fall der Bekanntheitsgrad der verschiedenen Vorhersagemethoden, die Benutzerzufriedenheit mit den unterschiedlichen Methodiken und der Einsatz dieser Techniken in der Praxis Wie bekannt die verschiedenen Methoden den befragten US-Managern sind, ist in Abbildung grafisch dargestellt 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% *Subjektive 20 73 Customer expectations 16 79 Sales force composite 13 81 Jury of executive opinion *Objective (quantitative) Moving avarage 85 Straight-line projection 82 Exponential smoothing 73 Regression 72 Trend-line analysis Box-Jenkins 23 41 11 49 65 26 Very Familiar 15 17 22 42 16 48 Classical decomposition 11 20 55 Life cycle analysis 12 67 Simulation Vaguely Familiar Completely Unfamiliar Abb 1: Bekanntheit von Vorhersagemethoden Wie man in der Grafik sieht, sind subjektive Methoden den meisten Befragten geläufig, teilweise sogar geläufiger als objektive Vorhersagemethoden Auch einfache quantitative Methoden sind den Studienteilnehmern bestens bekannt, wobei die bekannteste objektive Vorhersagemethode Moving Average ist, obwohl sie nicht so genaue Ergebnisse wie Exponential Smoothing liefert Die Box-Jenkins Methodik für ARIMA Modelle ist den wenigsten geläufig, was auch für andere komplexere Vorhersagemodelle gilt Erstaunlicherweise ist Classical Decomposition die zweitunbekannteste Methode, nur die Hälfte aller Befragten kannte sie Dabei ist sie sehr nützlich, da sie als äußerst flexibel gilt Obwohl die subjektiven Vorhersagemethoden den Befragten geläufiger sind, sind die Studienteilnehmer mit den objektiven Methoden wesentlich zufriedener (Abbildung 2) 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% *Subjektive Jury of executive opinion Customer expectations 32 23 45 Sales force composite 22 24 54 32 25 43 *Objective (quantitative) Moving avarage 58 Trend-line analysis 58 Classical decomposition 55 Simulation 54 Straight-line projection Box-Jenkins 15 28 31 14 28 18 40 20 37 31 32 30 21 21 40 Life cycle analysis 21 19 60 Exponential smoothing 14 19 67 Regression 57 13 Satisfied Neutral Dissatisfied Abb 2: Zufriedenheit mit Vorhersagemethoden Die Befragten der Studie sind also mit Regression am zufriedensten, obwohl die TimeSeries Methode genauer ist Auf Rang zwei der Zufriedenheit steht Exponential Smoothing Diese Vorhersagemethode ist leicht zu verstehen und liefert recht genaue Ergebnisse Außerdem kann man sie mit wenig Aufwand auf große Datensätze anwenden Die beiden Methoden Moving Average, welches zur Zufallsfehlerentfernung aus Daten genutzt wird, und Trend-line Analysis, die zur Erstellung von Benchmarks dient, sind ebenfalls sehr beliebte Vorhersagemethoden Auffallend ist, dass bei dieser Studie kaum jemand der Befragten mit Trend-line Analysis, wohl aber mit Box-Jenkins unzufrieden ist Dies liegt wahrscheinlich daran, dass die meisten Teilnehmer der Studie Box-Jenkins als zu kompliziert empfanden und sie keine besseren Ergebnisse wie einfachere Methoden lieferte Die Box-Jenkins Methodik wird nämlich hauptsächlich von Akademikern in der Forschung genutzt, weshalb es in der Wilsonstudie von 1996 auch mehr Studienteilnehmer gab, die damit zufrieden waren, da diese einen hohen Akademikeranteil unter den Befragten aufwies Ein ebenfalls grundlegendes Werkzeug für Analysen und Vorhersagemethoden ist Classical Decomposition Die Fähigkeit dieser Methode Serien auf Episoden, Trendzyklen und Zufälligkeiten zurückzuführen, ist besonders wichtig für Manager Letzten Endes ist aber die Zufriedenheit mit „expert systems“ und „neural networks“ nicht grad sehr hoch Nach der Betrachtung des Grades der Bekanntheit und Benutzerzufriedenheit der Vorhersagetechniken soll jetzt der Einsatzbereich dieser Techniken erörtert werden Als erstes wird nun darauf eingegangen, in welchen Zeiträumen die verschiedenen Vorhersagemethoden bevorzugt benutzt werden (Abbildung 3) 10 15 20 25 30 35 40 45 *Subjektive Sales force composite Jury of executive opinion Industrie/Intention to buy survey *Extrapolation Naive Forecast Moving avarage Percentage/Unit rate of change Exponential smoothing Line extension Leading indicators *Quantitative Box-Jenkins Multiple/Simple regression analysis Econometric models over year 3-24 month 0-3 month Abb 3: Nutzen von Vorhersagemethoden in best Zeiträumen (Mentzer und Cox 1984) Wie hier ersichtlich, ist die am häufigsten genutzte Methode über alle Zeithorizonte Jury of executive Opinion Die zweithäufigste Vorhersagemethode ist Sales Force Composite, welche weniger für Lang- als für Mittel- und Kurzzeituntersuchungen genutzt wird Allerdings führen beide zur Voreingenommenheit bei den Vorhersagen Die zwei Methoden Exponential Smoothing und Moving Average werden haupsächlich für kurzzeitige Vorhersagen genutzt, wofür sie auch am besten geeignet sind Im Gegensatz zu Straight-line Projektion, welches überraschender Weise hauptsächlich für Kurzzeitvorhersagen benutzt wird, aber gerade dort wegen der saisonalen und zyklischen Faktoren sehr ungenau ist Die Box-Jenkins Methodik wird eigentlich fast nicht genutzt, dies liegt aber wie schon erwähnt an der Wahl der Studienteilnehmer Regression wird häufig bei Mittel- oder Langzeitstudien angewandt, was in der Theorie auch als am sinnvollsten erachtet wird Nach der Frage des Einsatzzeitraums der unterschiedlichen Techniken interessiert nun, wo die verschiedenen Vorhersagemethoden eigentlich eingesetzt werden und in welchen Organisationsformen (Abbildung 4) beziehungsweise Anwendungsbereichen (Abbildung 5) sie genutzt werden 20 40 60 80 100 120 140 160 180 *Subjektive Customer expectations 24 27 25 20 Sales force composite 22 23 18 18 12 32 32 41 26 Jury of executive opinion *Objective (quantitative) Trend-line analysis Simulation Straight-line projection 21 20 20 13 12 29 21 22 18 Regression 22 4 10 11 10 11 Life cycle analysis 4 4 Exponential smoothing 14 14 20 19 18 Moving avarage 23 Box-Jenkins 23 Classical decomposition Industry Forecast Corporate Forecast Product Group Forecast Product Line Forecast Product Forecast Abb 4: Vorhersagemethoden in verschiedenen Organisationsformen Wie wir sehen, nutzen alle Organisationsformen etwa im selben Maße die verschiedenen Vorhersagemethoden Besonders auffällig ist, dass alle Organisationsformen sehr stark auf subjektive Vorhersagemethoden setzen Am beliebtesten ist die Jury of executive opinion, welche von allen außer dem Product Forecast am häufigsten genutzt wird Wenn wir einen Blick auf Abbildung werfen, stellen wir fest, dass bei Material 10 20 Production planning Marketing planning Production planning 0 22 13 17 26 13 29 14 Material requirements planning 73 45 Inventory control 80 70 18 Purchasing 60 25 Sales analysis 50 54 11 Stratgetic planning 40 36 20 Budgeting Logistics planning 30 10 10 Total Primary Decision Secondary Decision Abb 5: Nutzen von Vorhersagen in verschiedenen Anwendungsbereichen requirements planning kaum Vorhersagen genutzt werden Es ist aber anzunehmen dass die Personen, die befragt wurden, dies mit Production planning vermischt haben Da die Teilnehmer dieser Studie Manager sind, bietet es sich an, nach den Gebrauch der verschiedenen Vorhersagemethoden in „industrial firms“ und „consumer firms“ zu fragen „Industrial firms“ sind Unternehmen, deren Produkte ausschließlich von der Industrie weiter verarbeitet werden Die Zahl dieser Unternehmungen beläuft sich bei dieser Untersuchung auf 59, die der „consumer firms“ ist 46 Als „consumer firms“ werden alle Firmen bezeichnet, welche direkten Umgang mit dem Verbraucher haben Dazu zählen Einzelhandel, Handwerk und Dienstleistungsunternehmen Laut dieser Umfrage nutzen „industrial firms“ häufiger Vorhersagen als „consumer firms“ (Abbildung 6), obwohl gerade diesen Unternehmen dies mehr Nutzen bringen würden, da hier die Genauigkeit höher wäre als bei den anderen Firmen Ebenfalls kann man in der Grafik erkennen, dass manche statistischen Erhebungen mehr von „consumer firms“ benutzt werden 10 15 20 25 30 35 40 45 50 Subjektive 33,9 Sales force composite 13 25,4 Jury of executive opinion Industrie survay 6,8 Intentions to buy 6,8 19,6 8,7 4,3 Extrapolation 18,6 Naive Forecast 16,9 Leading indicators 10,9 6,8 Unit rate of change Exponential smoothing 2,2 8,5 Moving avarage Percentage rate of change 17,4 6,5 5,1 15,2 3,4 Line extension 1,7 10,9 6,5 Quantitative Econometric models 10,2 4,3 Multiple regression 10,2 4,3 Simple regression 5,1 2,2 Box-Jenkins Percent of Industrial Firms Percent of Consumer Firms Abb 6: Vorhersagemethoden in "industrial and consumer firms" Abschließend muss man sagen, dass formale Vorhersagen den Firmen mehr nutzen würden, die, wie man oben sieht, immer noch stark auf subjektive Methoden setzen, deren Ergebnisgenauigkeit recht zweifelhaft ist Genauigkeit Die Genauigkeit der verschiedenen Vorhersagemethoden kann eigentlich nur über empirische Beobachtungen verifiziert werden Das Ergebnis der empirischen Studien, die über 30 Jahre den Erfolg der unterschiedlichen Vorhersagemethoden mit verschiedenen Daten in der Praxis analysierten, bezeichnet man als die Post-sample Genauigkeit Die wichtigsten Schlussfolgerungen dieser Untersuchungen sind: a ökonometrische Methoden sind nicht genauer als alternative und einfache Methoden.1 b Für multivariate Modelle (ARIMA etc.) existieren kaum Studien und wenn es welche gibt, dann sagen sie nicht, dass diese genauer wären als andere Vorhersagemethoden.2 c Der Vorteil von nichtlinearen Modellen gegenüber anderen Methoden ist nicht klar erkennbar Selbst wenn diese Techniken besser auf die Daten zugeschnitten sind, erreicht man keine merkliche Steigerung der Vorhersagegenauigkeit.3 d Über die Genauigkeit von makroökonomischen Vorhersagen ist man sich nicht einig Einzig scheint fest zu stehen, dass makroökonomische Vorhersagen über längere Beobachtungszeiträume hinweg immer ungenauer werden.4 e Häufig wird behauptet, dass angepasste Methoden genauer sind als welche, die feste Parameter benutzen Dies konnte aber bisher nicht belegt werden.5 f Für Experten Systeme und neurale Netzwerke gibt es noch keine Untersuchungen, da nicht klar ist, welchen Wert so eine Untersuchung hätte.6 Wegen dem häufigen Fehlen aussagekräftiger Studien und der großen Uneinigkeit, welche unter den Forschern herrschte, erarbeitete man vier Kriterien, auf die sich alle einigen konnten 3.1 Einfache vs Komplexe Methoden Die einfachen Methoden sind mindestens genauso gut wie die komplizierten hochtheoretischen komplexeren Vorhersagetechniken Ein Beispiel dafür stellen die MAPE-Studien (Mean Absolute Percentage Error) von Makridakis/Hibon (1979) und Makidakis u.a (1982) dar In diesen Untersuchungen wurden die durchschnittlichen Fehlerwerte von verschiedenen Vorhersagetechniken, welche auf jeweils 111 Armstrong (1978) McNees (1986), Riise und Tjostheim (1984) De Gooijer und Kumar (1992) Ashley (1988) Gardner und Dannenbring (1980), Makridakis u.a (1982) Chatfield (1993) unterschiedliche Datersätze angewandt wurden, erfaßt Die Abbildungen 7a und 7c beruhen auf den ermittelten Werten der ersten Untersuchung, wo die beiden Forscher selbst die Vorhersagen machten Die zwei übrigen Grafiken zeigen die Ergebnisse von Experten der jeweiligen Vorhersagemethodik Folgendes Bild ergibt nun ein Vergleich von beispielsweise drei Methoden: Single Exponential Smoothing, Naive und BoxJenkins auf der Grundlage dieser zwei Studien Naive 9,1 | 8,5 11,4 13,9 15,4 16,6 17,4 17,8 14,5 31,2 30,8 D Single Exp 8,6 | 7,8 10,8 13,1 14,5 15,7 17,2 16,5 13,6 29,3 30,1 Box-Jenkins Naive 10,6 | 14,7 15,0 15,7 16,6 17,1 18,1 21,6 24,3 10,0 | 14,5 15,0 15,1 15,3 15,6 16,6 19,0 21,0 Single exponential smoothing 8,5 | 12,8 13,4 13,8 14,0 14,3 15,6 18,1 20,2 Box-Jenkins N.A.| 10,3 10,7 11,4 14,5 16,4 17,1 18,9 16,4 26,2 34,2 Abbildung 7a: MAPE Allgemein-Beipiel Abbildung 7b: MAPE Experten-Beispiel Abbildung 7c MAPE Allgemein-Beipiel Abbildung 7d MAPE Experten-Beispiel Exponential Smoothing ist wie in diesem Beispiel ersichtlich im Schnitt besser als ökonometrische und multivariate ARMA-Modelle Im Übrigen gelten einfache Modelle als sehr robust, was bei komplexeren Methoden nicht unbedingt der Fall ist Außerdem liefern Modelle, die historische Daten besser aufnehmen, nicht auch zwingend die besseren Ergebnisse, da bei diesen Modellen die Gefahr des Overfitting recht groß ist 3.2 Zeithorizont des Vorhersagens Manche Vorhersagetechniken sind besser für kurze Zeiträume und manche für Langzeitstudien geeignet Die zwei Methoden Exponential Smoothing und Moving Average sind beispielsweise, wie vorher schon erwähnt, besonders für Kurzzeitvorhersagen geeignet Im Gegensatz zu Straight-line Projektion und Regression, welche dort sehr ungenau sind und deshalb sinnvoller bei Langzeitstudien genutzt werden können 10 3.3 verschiedene Methoden und deren unterschiedliche Genauigkeitsmaße Man kann die Ergebnisse verschiedener Methoden nicht so ohne weiteres vergleichen, da sie teilweise andere Maßstäbe haben 3.4 Kombination von Vorhersagetechniken Die Verbindung verschiedener Methoden erhöht die Genauigkeit der Vorhersage und verringert die Fehlerquote, die eine einzelne Methode hätte Es gibt zwei Ansätze der Kombination verschiedener Techniken: Entweder man bewertet die genutzten Techniken gleich und berechnet einfach das arithmetische Mittel oder man gewichtet einzelne Vorhersagetechniken höher, wenn diese zum Beispiel besonders gut auf die benutzten Daten passen Faktoren, die die Vorhersage beeinflussen Die Wahl der richtigen Vorhersagenmethode ist aber nicht nur abhängig von der Genauigkeit oder der Wissenschaftlichkeit der Methode, sondern auch von anderen Faktoren Wichtig sind sowohl die zu untersuchenden Daten, die Eigenschaften der Daten, der Typ der Daten (die Länge zwischen einzelnen Werten) als auch die Anzahl und Häufigkeit der Vorhersagen um eine Auswahl der Methode treffen und diese planen zu können 4.1 Vorhersagen vs Erklärungen Zuerst muss deshalb entschieden werden, wofür eine Vorhersage gemacht werden soll Erklärende Modelle (Regression, ökonometrische Methoden) können zum Beispiel beim Finden von Faktoren, die den zu untersuchenden Gegenstand beeinflussen, helfen und durch eine geschickte Manipulation solcher Faktoren kann die Zukunft nach unseren Vorstellungen beeinflußt werden Je nachdem, ob man Zukunftsvorhersagen treffen oder erklärende Faktoren finden möchte, muss dies bei der Wahl der Vorhersagetechnik berücksichtigt werden 4.2 Charakteristika von Zeitperioden (time series) Auch die Charakteristika (time series) von Zeitperioden beeinflussen die Wahl der Vorhersagemethode, da Serien in Saisonalität, Trend, Zyklen und Zufall aufgespaltet werden können Man erhält ungefähr gleich genaue Vorhersagen mit allen Methoden Die simpelste Methode zur Abschätzung der Saisonalität ist Classical Decomposition Andere Methoden zur Abschätzung der Saisonalität stellen die ARMA-Modelle dar Diese liefern aber genauere Ergebnisse, also eine Verbesserung der „post-sample“ Genauigkeit, wenn erst die Saisonalität entfernt und dann ein ARMA-Modell gewählt wird Wo die Saisonalität kaum ein Problem mit sich bringt, dort hat der Zufall doch erhebliche Auswirkungen auf die Auswahl der Untersuchungsmethode Im Allgemeinen kann man 11 sagen, je grưßer die Zufälligkeit ist, desto einfacher sollte die Methode sein Wenn der Zufall den Trend-Zyklus dominiert, wie es oft bei Kurzzeitbeobachtungen der Fall ist, dann ist Exponential Smoothing die genaueste Methode, denn sie entfernt teilweise den Zufall aus den Daten Wenn Trend-Zyklen den Zufall überwiegen, der Zufall also nicht mehr so groß ist, dann sind ARMA-Methoden besser Methoden wie Kalman und andere Filtertechniken sowie die Parazen Herangehensweise sollten dann bedacht werden Wenn der Trend zyklische Fluktuationen dominiert und kaum noch Zufall vorhanden ist, dann ist Holts Methode zu bevorzugen, damit ein Trend linear herausgearbeitet werden kann Wenn aber die zyklische Komponente den Trend dominiert, kann diese Methode wirkliches Wachstum unterschlagen und dadurch zyklische Richtungsänderungen verpassen, was zu großen Fehlern führen kann In diesem Fall wäre die Damped Exponential Smoothing Methode sinnvoller, die das Herausnehmen des Trends bremst 4.3 Typ der Daten Der Typ der Daten bezeichnet, in welchem Abstand ( jährlich, vierteljährlich, monatlich, wöchentlich etc.) die Daten erhoben werden Er gehört zu den Charakteristika der Zeitverläufe, da der Zufall abnimmt, wenn die Aggregation grưßer wird Für lange Vorhersagen („jährlich“) sollte demnach eine Methode gewählt werden, die einen Trend aus den Daten korrekt herauslesen kann In diesem Fall wird „Trend-fitting“ bevorzugt, da dort zufällige bzw zyklische Fluktuationen ignoriert werden Die Gefahr der Ungenauigkeit liegt dabei vor allem in der Wahl des Startdatums, wegen der oft großen zyklischen Fluktuationen in jährlichen Datensätzen Ein anderes Extrem ist der Zufall, der in täglichen Datensätzen dominiert, während der Trend unwichtig oder überhaupt nicht vorhanden ist Single Smoothing ist hier die Methode der ersten Wahl Vierteljährliche Daten stellen in diesem Zusammenhang ein Problem dar, denn sie sind von Trend und Zufall abhängig Zusätzlich ist ihre Darstellung sowohl von starken zyklischen Fluktuationen als auch durch Saisonalitäten beeinflußt Da Zufall in solchen Daten begrenzt ist und der Trendzyklus überwiegt, ist eine wesentliche Änderung des Musters unwahrscheinlich Deswegen werden in solchen Fällen komplexe Methoden einfachen vorgezogen, da diese komplexe Muster richtig identifizieren und extrapolieren können 4.4 Zahl und Häufigkeit von Vorhersagen Die Zahl und Häufigkeit von Vorhersagen beeinflussen ebenfalls die Auswahl einer Vorhersagemethodik Wenn man auf kleinen Zeitabschnitten(wöchentlich, monatlich) agiert, benötigt man nämlich für die Vorhersage mehr Daten von kleineren Zeitintervallen, als wenn man Quartals- oder Jahresvorhersagen trifft Methoden, die anspruchsvolle Statistiken beinhalten, erfordern deshalb oft viele menschliche Daten Wenn beispielsweise wöchentlich oder täglich eine Inventur von tausenden Waren gemacht werden muß, sollte man eher nach automatischen Lösungen suchen Je häufiger Vorhersagen durchgeführt werden sollen, desto automatisierter sollte die verwendete Methode sein 12 Nachdem man sich mit den Erwartungen an eine Vorhersage auseinandergesetzt hat, sollte die Wahl einer Methodik, wenn alle oben genannten Besonderheiten bedacht wurden, nicht mehr so schwer fallen Zusammenfassung Abschließend kann man sagen, dass trotz der langjährigen Erfahrungen mit den verschiedensten Vorhersagemethoden und deren Genauigkeit es erstaunlich ist, dass die Benutzer häufig nur subjektive und einfache Methoden kennen Zudem werden teilweise objektive Methoden für Aufgaben eingesetzt für die sie nicht geeignet sind, was die Benutzerzufriedenheit auch beeinträchtigt Grundsätzlich sind die Befragten dennoch zufriedener mit objektiven als mit subjektiven Methoden Warum aber setzen trotz allem sehr viele Firmen noch stark auf subjektive Methoden, wenn formale Vorhersagen bessere Ergebnisse liefern Mit Hilfe der Post-sample Genauigkeit, dem Ergebnis empirischer Studien, und den vier Kriterien, auf die sich die Forscher einigten, wird jedem die Wahl der richtigen Vorhersagenmethode erleichtert Wenn man zusätzlich noch die Besonderheiten der Daten, die Eigenschaften der Daten, den Datentyp sowie die Vorhersagenanzahl und -häufigkeit bei der Auswahl der Untersuchungsmethode berücksichtigt, kann man die Vorhersageergebnisse optimieren und einen grưßeren Nutzen daraus ziehen 13

Ngày đăng: 02/06/2019, 17:28