Der QDA SOLUTIONS Blog

Übung macht den Meister

Predictive Quality Analytics (PQA) sind ein Game-Changer. Geht es doch darum, Defizite zu erkennen, noch bevor es zu echten Kosten kommt. Was allerdings eine Analyse mit sehr vielen Unbekannten ist. Analoge Rechenmethoden beißen sich schnell daran die Zähne aus. Mit dem Machine-Learning (ML) steht nun allerdings eine Technologie bereit, die selbst komplexeste Verteilungsmuster zuverlässig zu entschlüsseln vermag. Doch bevor ein ML-Algorithmus entsprechend liefern kann, braucht er ein passendes Training. Aus Sicht der Einführungsteams sind dabei vor allem diese fünf Dinge zu beachten:

1. Vom Prozess her starten, nicht von den Daten

Zentral ist: Machen Sie sich zuallererst ein exaktes Bild von Ihrem Informationswunsch. Bei genau welchen Anwendungsfragen lohnt es sich, zusätzliches Wissen darüber zu erlangen, wie sich die Parameter einer Produktionsumgebung gerade weiterentwickeln? Je konkreter Sie das Wissensziel und die damit einhergehende Analysefrage fassen, desto passgenauer können Sie die Daten(töpfe) ermitteln, mit denen Sie belastbare Erkenntnisse gewinnen.

Eigentlich liegt es ja auf der Hand, zunächst einmal nur auf den Prozess zu schauen. Gleichwohl läuft es in der Praxis oft anders herum und man startet eben doch von den Daten aus. So etwa im SPC-Umfeld, wo es QM-relevante Datenpunkte en masse gibt und es daher durchaus naheliegt, all diese Daten auch gleich einmal auszuprobieren. In der Praxis entwickelt sich die Mehrzahl solcher rein datengetriebenen IT-Projekte dann allerdings in Richtungen, die der Praxis eher wenig und unter Umständen sogar gar nichts bringen. Gerade Big-Data-Projekte haben dies in der jüngsten Vergangenheit noch einmal recht eindrücklich unter Beweis gestellt. Wer denkt, dass dies im Machine Learning nun substanziell anders laufen könnte, übersieht, dass selbst die elaboriertesten Algorithmen immer nur so smart sind, wie es die Fragestellungen sind, die sie zur Arbeit anleiten. Daher gilt für alle Teams, die die PS ihres Predictive-Quality-Programms auf die Straße bringen wollen: Starten Sie niemals von den Daten aus. Denken Sie immer vom Ergebnis her und verschaffen Sie sich Klarheit über das Analyseziel.

2. Fachkollegen von Anfang an mitnehmen

Vor diesem Hintergrund braucht es in den meisten Fällen auch gar keine ausgewiesenen Data Scientists, um die Algorithmen passend zu trainieren. Stattdessen ist es weitaus wichtiger darauf zu achten, dass gerade auch die Fachanwender vom Start weg mit dabei sind. Schließlich geht es im Kern ja um zwei Dinge. Erstens um das präzise Ausformulieren des Informationsziels. Und zweitens um das Identifizieren aller Anforderungen und Rahmenbedingungen, die die Performance der zu untersuchenden Abläufe maßgeblich (mit)bestimmen. Wie genau läuft der Prozess ab und welche Parameter müssen erfüllt sein, damit die gewünschte Qualität tatsächlich erzielt wird? Zudem muss klar sein, welche Merkmale die anzustrebende Qualität überhaupt ausmachen und in welchem Toleranzband diese Merkmale sich bewegen dürfen.

Nur wenn all diese Dinge präzise benannt sind, lassen sich genau diejenigen Datentöpfe anzapfen, die auf die Beantwortung des Analyse-Setups in all seinen Dimensionen am besten einzahlen. Spezialisierte Data Scientists können dies Konzeptionsarbeit durchaus begleiten. Doch ohne das Wissen der Fachanwender wird es kaum gelingen, eine passende Analysemaschinerie aufzusetzen und den Algorithmus der Wahl (vgl. 5.) wirklich produktiv zu machen.

3. Zunächst nur mit historischen Daten arbeiten

Außerordentlich wichtig ist es auch, mit bereits existierenden Daten zu starten und nicht etwa gleich schon zu Beginn des Trainings Live-Daten aus einer Produktionsumgebung zu nutzen. Schließlich geht es zu diesem Zeitpunkt der Einführung ja erst einmal nur darum, den Algorithmus und das Analysemodell zu testen. Hierzu brauchen Sie möglichst hochwertige Daten. Eine entsprechende Datenbereinigung ist dann fast immer erforderlich. Diese Basisaufgabe mit bereits vorliegenden Daten durchzuführen, ist wesentlich einfacher und kostengünstiger als mit Live-Daten. Fragen sind dann zum Beispiel: Sind unsere Daten vollständig? Sind sie konsistent? Bereits richtig kategorisiert? Und ganz wichtig immer wieder die Frage: Passen sie wirklich zu meinem aktuellen Analysethema?

Erst wenn die Trainingsdaten im Sinne all dieser Fragen (und es gibt noch eine ganze Reihe weiterer davon) optimiert sind, lenken Sie den ML-Algorithmus in die richtige Richtung. Die Datenqualität entscheidet dann ganz wesentlich darüber mit, ob ein Analysemodell Früchte trägt und sich dessen Ergebnisse tatsächlich auf den jeweils gewünschten Anwendungsfall beziehen.

4. Analysen so weit wie möglich automatisieren

Spätestens jetzt stellt sich dann auch die Frage, wie viele Trainingsdaten denn überhaupt nötig sind, damit ein Machine-Learning-Algorithmus einen konkreten Anwendungsfall ausreichend abbilden kann. Die Erfahrung zeigt: Im Qualitätsmanagement sollte man pro Anwendungsfall von mindestens 500 Datensätzen ausgehen. Besser man hat sogar bis zu 2.000 Sets, die man durch den Algorithmus schleust. Auf diese Weise steigt die Gewissheit, dass dieser die zu untersuchenden Muster erkennt, ohne dass es im späteren Wirkbetrieb zu weiteren Trainingsaufwänden kommt.

Nehmen wir als Beispiel das Foto eines Motorraums, auf dem geprüft werden soll, ob bestimmte Schrauben der Spezifikation entsprechend montiert sind. Ein vergleichsweise simpler Anwendungsfall, keine Frage. Doch auch der hat es in sich. Denn schließlich wollen wir den Algorithmus ja in die Lage versetzen, modellübergreifend und unabhängig von der aktuellen Bildqualität zu prüfen. Wenn wir ihn hierzu mit 500 Bildern trainieren, wird die Mustererkennung durchaus schon auf ein Niveau gebracht, das einen positiven ROI bringt. Schließlich wird der Algorithmus dann wahrscheinlich nur noch bei einem knappen Viertel der Fälle die Hand heben und den Anwender dazu auffordern, den aktuellen Fall noch einmal selbst zu prüfen.

Bei solchen menschlichen Eingriffen spricht man übrigens von Supervised Machine Learning. Solang sich der initiale Trainingsaufwand im Rahmen hält, lohnt es sich jedoch immer, gleich auch ein Un-Supervised Machine Learning anzustreben. Im oben genannten Beispiel der bildgestützten Motorraumanalyse reicht wahrscheinlich schon die drei- bis vierfache Menge an Aufnahmen, damit der Algorithmus seine Analyse auch dann noch korrekt durchführen kann, wenn sich im Design der zugelieferten Bilder etwas ändert, etwa der Aufnahmewinkel.

5. Unterschiedliche Algorithmen testen

Im QM sollen Algorithmen in der Regel entweder Zahlen oder Kategorien ausgeben. Je nach Anwendungsfall können dann unterschiedlich aufgesetzte Algorithmen die besten Ergebnisse liefern. Der Markt hält hier bereits eine ganze Reihe von interessanten Alternativen bereit. Allen voran im Open-Source-Umfeld. Daher ist es sinnvoll, eine offene Plattform zu haben, auf der sich die Algorithmen verschiedener Machine-Learning-Anbieter austesten lassen. Edge.One bietet Ihnen eine solche Plattform. Sobald Sie Ihr Analysemodell passend zugeschnitten und die zu prozessierenden Daten bereinigt haben, können Sie die unterschiedlichen Marktangebote in Ruhe ausprobieren. Machine-Learning-Lösungen arbeiten schließlich immer fallbezogen. Achten Sie daher darauf, dass Ihnen Ihre Werkzeugumgebung ein Höchstmaß an Wahlfreiheit gibt, um genau den Algorithmus ins Rennen zu schicken, der Ihr aktuelles Analyseproblem am besten löst.