Kern der Algorithmen für künstliche Intelligenz (KI) ist die Fähigkeit, komplexe Muster aus einer Datenprobe zu lernen. Wer KI in Betracht zieht, sollte dabei die Datenanforderungen von Beginn an verstehen.
KI ist in der Lage, ein Modell des Prozesses automatisch zu lernen – vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.
(Bild: Data Prophet)
Im Fertigungskontext kann ein Beispiel für ein Muster die Art und Weise sein, in der sich ein in diesen Daten enthaltener Parametersatz, der sich auf einen Prozess in einer Fabrik bezieht, gemeinsam ändert. Der Algorithmus lernt die Muster, indem ihm viele Beispiele der fraglichen Parameterwerte gezeigt werden – typischerweise zwischen einigen Tausend und mehreren Millionen. Dieses Datenbeispiel ist eine Darstellung der Geschichte des Fabrikprozesses. Wenn nun in der Probe ein Trend dahingehend besteht, dass beispielsweise jede Erhöhung der Prozesstemperatur um 1 °C mit einer Verkürzung der Prozesszeit um 10 s einhergeht, lernt die KI diesen offensichtlichen Zusammenhang zwischen die Temperatur- und Zeitparameter. Auf diese Weise lernt die KI effektiv ein Modell des Prozesses. Dies geschieht automatisch, vorausgesetzt, es ist ordnungsgemäß entworfen und es werden genügend Beispiele für die richtigen Daten eingegeben.
Was sind die richtigen Daten für KI?
Was sind die „richtigen“ Daten für eine KI- (bzw. engl. Artificial Intelligence – AI-)fähige Prozessoptimierung? Die allgemeine Antwort ist: Der Datensatz, der ausreicht, um zu beschreiben, wie sich Änderungen an den Parametern eines Prozesses auf die Qualität auswirken. Der Großteil der Prozessdaten kann im Allgemeinen als Tabelle oder als Sammlung von Tabellen mit Spalten (Parametern) und Zeilen (Produktionsbeispiele, die beispielsweise eine Produktionscharge pro Zeile darstellen) dargestellt werden. Um als Repräsentation eines Prozesses oder genauer der Historie eines Prozesses von Bedeutung zu sein, müssen diesen Tabellen einige erläuternde Informationen beigefügt werden.
Die wichtigsten Informationen
Zunächst sollte man sich die Arten der erforderlichen erläuternden Informationen ansehen, bevor man die Datenanforderungen in Bezug auf diese tabellarischen Spalten und Zeilen erläutert.
Die wichtigsten Informationen, die das Data Science-Team benötigt, sind:
Eine sehr genaue Beschreibung des physischen Prozesses.
Eine Beschreibung des Produktionsflusses durch den ganzen Prozess (normalerweise in Form eines Prozess-Flussdiagramms), inklusive der zeitlichen Abhängigkeiten und Verzögerungen zwischen den einzelnen Schritten.
Eine Beschreibung darüber wie die Datentabelle(n) mit dem Prozess zusammenhängen.
Einige dieser Beschreibungen können der verfügbaren technischen Dokumentation entnommen werden. In den meisten Fällen können jedoch die erforderlichen Erkenntnisse gewonnen werden, indem die Datentabellen mit Spezialisten aus der Fabrik oder der Prozessausrüstung durchgegangen werden.
Die Datenspalten müssen zunächst eine Darstellung des Qualitätsergebnisses enthalten. Es ist wichtig zu beachten, dass die Daten möglicherweise keine vollständige Darstellung der Qualitätsmessung in der Fabrik enthalten. Diese Lücken in den Daten sind häufig (z. B. Stichproben): In einigen Fällen können die verfügbaren Daten ausreichen, um dramatische Ergebnisse zu erzielen, wie in der folgenden Parameteroptimierung gezeigt.
Steuerbare und nicht steuerbare Prozessparameter
Der zweite Satz erforderlicher Datenspalten betrifft Prozessparameter. Diese lassen sich in zwei Typen unterteilen: steuerbare und nicht steuerbare Parameter.
Kontrollierbare Parameter sind die Hebel, die dem Werksbetreiber zur Verfügung stehen, um den Prozess zu verändern und damit die Qualität zu verbessern. Im Allgemeinen können dies steuerbare Aspekte der Prozesschemie, der Temperatur und der Zeit sein.
Nicht steuerbare Parameter stellen Eingaben in den Prozess dar, die vom Anlagenbediener nicht von Tag zu Tag gesteuert werden können, z. B. die Umgebungstemperatur, die Identität der Maschine (im Fall eines parallelen Prozesses) oder Eigenschaften des Eingabematerials.
Diese Parameterspalten sollten zusammen die Faktoren darstellen, die den größten Einfluss auf die Qualität haben.
Alle Datenpunkte im AI-Modell verfügbar machen
Aufgrund der Fähigkeit von AI-Modellen, komplexe Interaktionen in einer großen Anzahl von Variablen zu lernen, wird einem Hersteller empfohlen, alle verfügbaren Datenpunkte rund um den Prozess für die Aufnahme in das AI-Modell verfügbar zu machen. Die Kosten für die Aufnahme zusätzlicher Variablen sind gering.
Ein guter KI-Spezialist wird die erforderlichen statistischen Techniken anwenden, um zu bestimmen, ob die Variable in das endgültige Modell aufgenommen werden soll. Variablen, die zunächst als marginal betrachtet werden könnten, können zu einem KI-Modell beitragen, das Effekte und Interaktionen in dem Prozess nutzt, von denen die Spezialisten zuvor nichts gewusst hatten, was möglicherweise zu einem verbesserten Optimierungsergebnis führt.
Zeilenweise Datenanforderung
Wenden wir uns nun den zeilenweisen Datenanforderungen zu. Die allgemeine Regel lautet hier, dass die Daten repräsentativ für den Prozess und insbesondere für die Interaktionen sein müssen, die sich in Zukunft wahrscheinlich auf die Qualität auswirken werden.
Ein grundlegender Aspekt hierbei ist die Frage: Wie viele Zeilen, d. h. Produktionsbeispiele, ergeben einen ausreichenden Trainingssatz?
Die Antwort hängt von der Komplexität des Prozesses ab. Die Stichprobe muss diese Komplexität hinreichend abbilden. Im Herstellungskontext reicht die Untergrenze typischerweise von einigen hundert bis zu mehreren tausend historischen Beispielen. Das Trainieren eines Modells mit mehr Daten als unbedingt erforderlich erhöht jedoch in der Regel das Vertrauen und den Detaillierungsgrad des Modells, was wiederum das Optimierungsergebnis wahrscheinlich weiter verbessern wird.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.
Eine ausreichende Anzahl historischer Beispiele allein garantiert noch keine repräsentative Stichprobe. Die historischen Beispiele sollten auch zeitlich repräsentativ sein. Der Datensatz sollte ausreichend aktuell sein, um die wahrscheinlichen Betriebsbedingungen – wie Maschinenverschleiß – zum Zeitpunkt der Optimierung darzustellen.
In vielen Fällen sollten die Daten auch einen oder mehrere ausreichende Dauerbetriebszeiträume darstellen, da die KI auf diese Weise lernen kann, welche Betriebsbereiche aufrechterhalten werden können und wie sich die Auswirkungen eines Teils des Prozesses im Laufe der Zeit auf andere ausbreiten.
Konsistenz und kontinuierliche Datenverfügbarkeit
Damit kommen wir zur letzten Kennzahlenanforderung, nämlich Konsistenz und ständige Verfügbarkeit. Um das AI-Modell mit den Betriebsbedingungen in der Produktionslinie auf dem neuesten Stand zu halten, müssen neue Daten für die regelmäßige Umschulung des Modells verfügbar sein. Dies erfordert wiederum eine gewisse Integration in die Datenquelle. Im schlimmsten Fall kann dies einen kontinuierlichen Digitalisierungsprozess bedeuten, wenn das Aufzeichnungssystem offline ist, oder einen manuellen Export von Tabellendaten durch Fabriktechniker. Diese Ansätze sind relativ arbeitsintensiv und können Inkonsistenzen unterliegen.
Ein idealer Aufbau würde aus einem Live-Datenstrom vom Datenbus des Herstellers in einen dauerhaften Speicher bestehen, der für die Versorgung der AI-Trainings-Pipeline vorgesehen ist. Für einige Hersteller ist eine Mischung von Ansätzen angemessen, um mehrere Anlagen zu versorgen.
Die kontinuierliche Verfügbarkeit der Daten geht Hand in Hand mit der Forderung nach Datenkonsistenz. Dies lässt sich am besten an einem negativen Beispiel veranschaulichen, in dem eine Fabrik die Darstellung von Variablen in Datenexporten zeitweise ändert, z. B. ob ein Indikator mit drei Zuständen als Zahl {1, 2, 3} oder als Zeichenfolge {'rot', 'orange', 'grün'} dargestellt wird. Falls unentdeckt können solche Änderungen das Optimierungsmodell unbemerkt beschädigen und möglicherweise die Prozessqualität beeinträchtigen.
Die Digitalisierung und Automatisierung der Prozessdateninfrastruktur und der Datenexporte trägt wesentlich zur Behebung dieser Probleme bei. Unabhängig von der Dateninfrastruktur der Fabrik sollte eine gute KI-Datenaufnahme-Pipeline jedoch eine robuste Datenvalidierungsschicht aufweisen, um sicherzustellen, dass Inkonsistenzen gekennzeichnet und behoben werden.
Das Fachbuch Data Analytics bietet nicht nur einen guten Überblick zu den in Produktion und Logistik anwendbaren Data Mining Algorithmen, sondern liefert auch konkrete Use Cases, die mit diesen Algorithmen erfolgreich umgesetzt werden können.