Maschinelles Lernen für den Metallguss - Hype oder Chance?

Diese Seite ist ganz oder teilweise automatisch übersetzt.

28.04.2020 News

Maschinelles Lernen für den Metallguss - Hype oder Chance?

Lassen wir den Hype und Anti-Hype um das maschinelle Lernen beiseite und diskutieren wir die Chancen, die es für den Bereich Metallguss bieten kann. Doch welche Herausforderungen müssen zunächst bewältigt werden?

Der Hype um Machine Learning (ML) ist echt. Der Begriff taucht überall auf. Man hört Sätze wie "KI ist die neue Elektrizität". Aber auch der Anti-Hype gewinnt zunehmend an Boden. Manche glauben immer noch, dass jede ML-Methode nur eine Blackbox ist. Eines ist klar: Der Hype ist auf die bemerkenswerten und schwer zu leugnenden Auswirkungen von ML auf Bereiche von der Computermedizin bis zum Finanzwesen zurückzuführen. Der Bereich des Metallgusses hat diese Auswirkungen noch nicht zu spüren bekommen. Tatsächlich wurde die erste Arbeit, die die Anwendung von ML auf den Bereich der Modellierung der Erstarrung von Legierungen ausweitet, erst vor kurzem veröffentlicht [1]. Diese Arbeit soll eine produktive Debatte in der Gusssimulationsgemeinschaft darüber anstoßen, wie ML-Fähigkeiten im Bereich des Metallgusses genutzt werden können.

Warum maschinelles Lernen für den Metallguss?

Metallgusssimulationen waren bisher ausschließlich auf netzbasierte numerische Methoden wie Finite Elemente oder Finite-Differenzen angewiesen. Computersimulationen, die auf diesen Methoden basieren, haben dazu beigetragen, die Qualität von Gussteilen so weit zu verbessern, dass die Verwendung von Gießsimulationssoftware heute für Gießereiingenieure zur alltäglichen Praxis gehört. Trotz der positiven Auswirkungen, die diese Simulationen hatten, ist die Simulation realistischer Erstarrungsmodelle mit einer räumlichen Auflösung, die hoch genug ist, um die physikalischen Phänomene, die in das simulierte Modell einfließen, vollständig aufzulösen, nach wie vor rechnerisch schwer zu bewältigen. Daher bleibt den Ingenieuren nichts anderes übrig, als sich auf Modelle zu verlassen, die zu vereinfachende Annahmen treffen. So verwenden sie in der Regel Modelle, die die Schmelzkonvektion völlig außer Acht lassen oder sie nur durch eine Erhöhung der Wärmeleitfähigkeit berücksichtigen. Ein weiteres Beispiel ist die dynamische Kopplung von Erstarrungsberechnungen mit thermodynamischen Datenbanken, die für eine realistische Simulation von Mehrkomponentenlegierungen erforderlich ist, und die in einer industriellen Simulation nicht erreicht werden kann. Selbst die stark vereinfachten Modelle können nur auf Netzen simuliert werden, die in der Regel nicht fein genug sind, so dass die Simulationsergebnisse in der Regel nicht vollständig aufgelöst sind. Trotz all dieser Einschränkungen dauert die Durchführung von Simulationen immer noch einige Stunden bis einige Tage und erfordert teure Hardware.

Der Grund für all diese Unzulänglichkeiten ist überraschend einfach: Die derzeitigen Simulationen verwenden die numerische Differenzierung, um die Ableitungen in einer Gleichung zu berechnen, und die numerische Differenzierung leidet unter Diskretisierungsfehlern. Diese Fehler sind proportional zur Größe des Differenzierungsschritts (Maschenweite oder Zeitschritt), und um sie klein zu halten, ist eine relativ kleine Schrittweite erforderlich. Dies erhöht die Rechenkosten der Simulationen und begrenzt die Größe des Simulationsbereichs.

Zusätzlich zu den Problemen im Zusammenhang mit den Rechenkosten sind die derzeitigen Gießsimulationen in den letzten Jahrzehnten ausgereift, und es ist unwahrscheinlich, dass eine radikal neue Technik entwickelt werden kann, um Probleme zu lösen, die bei Erstarrungssimulationen bekanntermaßen sehr schwierig sind. Mit anderen Worten: Wenn wir in der Gemeinschaft der Gießsimulationen nur die Methoden verwenden, die in den letzten Jahrzehnten erprobt wurden, sind revolutionäre Fortschritte auf diesem Gebiet unwahrscheinlich.

Die Durchführung schneller, vollständig aufgelöster und groß angelegter Gießsimulationen ist ein einschüchterndes Ziel. Im Folgenden erörtere ich, warum wir vernünftigerweise erwarten können, dieses Ziel zu erreichen, indem wir Modellierungskonzepte übernehmen, die ursprünglich im Bereich des ML entwickelt wurden, genauer gesagt, eine Methode, die als tiefe neuronale Netze bekannt ist.

 

Theorie-trainierte neuronale Netze (TTNs)

Das maschinelle Lernen verdankt seine derzeitige Popularität vor allem den tiefen neuronalen Netzen. Bei diesen Netzen handelt es sich um Computersysteme, die aus mehreren einfachen, aber stark miteinander verbundenen Verarbeitungselementen, den so genannten Neuronen, bestehen, die ein Eingabefeld auf einen oder mehrere Ausgänge abbilden. Jedes Neuron hat eine Vorspannung und Verbindungsgewichte, deren Werte in einem als Training bezeichneten Prozess ermittelt werden. Nachdem ein Netzwerk trainiert wurde, kann es Vorhersagen für neue Eingabedaten treffen.

Tiefe neuronale Netze verändern derzeit Bereiche wie Spracherkennung, Computer Vision und Computermedizin. Der Autor hat ihre Anwendung kürzlich auf den Bereich der Modellierung der Erstarrung von Legierungen ausgedehnt. In einem Verfahren, das als Theorie-Training bezeichnet wird, habe ich ein theoretisches (d. h. mathematisches) Erstarrungsmodell verwendet, um neuronale Netze für ein Erstarrungs-Benchmark-Problem zu trainieren. Theoretisch trainierte neuronale Netze (TTNs) benötigen keine Vorkenntnisse über die Lösung der maßgeblichen Gleichungen oder externe Daten für das Training. Sie trainieren sich selbst, indem sie sich auf die Fähigkeit eines neuronalen Netzes verlassen, die Lösung von partiellen Differentialgleichungen (PDEs) zu erlernen. In der Deep-Learning-Literatur wird diese Fähigkeit manchmal mit dem Begriff "Lösen von PDEs" bezeichnet; ich bevorzuge und verwende stattdessen den Begriff "Lernen der Lösung von PDEs". Der Grund dafür ist, dass TTNs die Lösung einer PDE vorhersagen können, ohne sie tatsächlich zu lösen; der Begriff "Lösen von PDEs" vernachlässigt einfach diese leistungsstarke Fähigkeit. Paul Dirac, einer der bedeutendsten theoretischen Physiker des 20. Jahrhunderts, sagte einmal: "Ich denke, dass ich eine Gleichung verstehe, wenn ich die Eigenschaften ihrer Lösungen vorhersagen kann, ohne sie tatsächlich zu lösen." Da TTNs die Lösung einer Gleichung vorhersagen können, ohne sie tatsächlich zu lösen, kann man mit Fug und Recht behaupten, dass TTNs die Gleichungen, auf die sie trainiert wurden, gelernt haben, und der Begriff "Lernen der Lösung" unterstreicht dies zu Recht.

Bevor ich auf die Vorteile eingehe, die TTNs für die Gießereisimulation bieten können, möchte ich ihre beiden Hauptvorteile gegenüber einer netzbasierten Methode erläutern. Nehmen wir an, dass wir mit einer Finite-Differenzen-Methode eine d-dimensionale Simulation in einem Gebiet mit der Länge L in jeder Raumrichtung und vom Zeitpunkt Null bis t1 durchführen wollen. Um die CPU-Zeit für diese Simulation abzuschätzen, möchte ich eine Analyse erster Ordnung durchführen. Da alle Knoten des Netzes in allen Zeitschritten abgetastet werden müssen, ist die Rechenzeit tcpu proportional zur Gesamtzahl der Zeitschritte Nt und der Anzahl der Gitterpunkte in der Simulation Nx: tcpu~NtNx~t1/∆t (L/∆x)d~t1Ld (∆x)-(2+d). Die letzte Beziehung ergibt sich aus der Stabilitätsgrenze eines expliziten Zeitmarschschemas in einem diffusionsgesteuerten System. Die Tatsache, dass d im Exponenten der Beziehung auftaucht, verursacht zwei Probleme, die im Folgenden diskutiert werden.

Das erste Problem besteht darin, dass das Auftreten von d im Exponenten voll aufgelöste Simulationen (d. h. Simulationen auf einem ausreichend feinen Netz) sehr rechenintensiv macht. Stellen Sie sich d = 3 vor (d. h. dreidimensionale Simulationen). Eine Verfeinerung des Netzes um den Faktor zwei erhöht die Rechenzeit um den Faktor zweiunddreißig. Mit anderen Worten: Eine Simulation, die bisher einen Tag dauerte, wird nun einen Monat in Anspruch nehmen. Das zweite Problem besteht darin, dass das Auftreten von d im Exponenten große Simulationen stark einschränkt (Simulationen in der Größenordnung von industriell gefertigten Gussteilen). Eine Vergrößerung des Bereichs um einen Faktor von nur zwei in jeder Richtung erhöht die CPU-Zeit um den Faktor acht. Aufgrund dieser beiden Probleme ist eine groß angelegte, vollständig aufgelöste Simulation in der Praxis in der Regel unmöglich und niemals schnell. Auch diese Probleme sind darauf zurückzuführen, dass die Anzahl der Dimensionen d im Exponenten auftaucht, und sie sind mit einem Problem verbunden, das in Bereichen wie dem Finanzwesen als Fluch der Dimensionalität bezeichnet wird.

In unserer Analyse erster Ordnung zur Schätzung der Rechenzeit tauchte d im Exponenten auf (und verursachte die oben beschriebenen Probleme), weil die Gleichungen diskretisiert wurden. Da TTNs die Gleichungen nicht diskretisieren, kann man davon ausgehen, dass sie diese Probleme nicht haben. Mit anderen Worten: Man kann davon ausgehen, dass man Netze trainieren kann, die ein Phänomen mit voller Auflösung und in großem Maßstab simulieren können. Dies scheint der erste Hauptvorteil von TTNs im Vergleich zu einer netzbasierten Methode zu sein. Diese Erwartung wird auch durch die Tatsache gestützt, dass in Bereichen wie der Finanzmathematik der Fluch der Dimensionalität durch den Einsatz tiefer neuronaler Netze (anstelle von maschenbasierten Methoden) erfolgreich überwunden wurde.

Der zweite Vorteil von TTNs gegenüber einer gitterbasierten Methode ergibt sich aus der Tatsache, dass TTNs, wie bereits erwähnt, die Lösung einer Gleichung vorhersagen können, ohne sie tatsächlich zu lösen. Dadurch werden die mit den Vorhersagen verbundenen Rechenkosten auf nahezu Null reduziert. Mit anderen Worten: Unabhängig von den Rechenkosten, die mit dem Training der TTNs verbunden sind, und die, wie oben erläutert, selbst bei einer vollständig aufgelösten und groß angelegten Simulation durchaus überschaubar sein dürften, sind ihre Vorhersagen nahezu sofort verfügbar. Dies eröffnet die Möglichkeit, schnelle, vollständig aufgelöste, groß angelegte Simulationen durchzuführen.

Zukünftige Richtungen

Wenn die beiden oben genannten Vorteile (Überwindung der Probleme im Zusammenhang mit dem Fluch der Dimensionalität und sofortige Vorhersagen) richtig genutzt werden, können Gießereisimulationen möglicherweise neu erfunden werden, indem sie uns in die Lage versetzen, schnelle (fast sofortige), vollständig aufgelöste (d. h. einer netzunabhängigen Simulation in den derzeitigen netzbasierten Methoden entsprechende) und großmaßstäbliche (d. h. im Maßstab des tatsächlichen Teils und nicht kleiner) Gießereisimulationen durchzuführen. In der Praxis kann dies zu einem Netzwerk führen, das z. B. schwer auflösbare Defekte wie Kanalseigerungen (d. h. Sommersprossen oder A-Segregate beim Stahlguss) oder Porosität unabhängig von der Größe des Simulationsbereichs sofort vorhersagen kann.

Obwohl die Nutzung der oben genannten Vorteile von TTNs in der Praxis sehr vielversprechend zu sein scheint, ist die tatsächliche Erreichung dieser Ziele eine schwierige Aufgabe, hauptsächlich wegen der Schwierigkeiten beim Training von TTNs. Wie ich in [1] gezeigt habe, ist es zum Beispiel eine nicht-triviale Aufgabe, etwas so Grundlegendes wie nicht-negative vorhergesagte Festkörperanteile zu gewährleisten. Einige der offenen Forschungsfragen sind:

  • der Vergleich der Leistung verschiedener Optimierer
  • Verständnis der Rolle von Netztiefe und -breite sowie der Größe des Trainingsdatensatzes für die Leistung eines TTN
  • Theorie-Training unter Verwendung von Erstarrungsmodellen, die die Schmelzkonvektion einbeziehen

 

Referenz

[1] Torabi Rad, M., Viardin, A., Schmitz, G. J., and Apel, M. “Theory-training deep neural networks for an alloy solidification benchmark problem.” Computational Materials Science 180 (2020) 109687