Teilgebiet des maschinellen Lernens, in dem ein Agent durch Interaktion mit einer Umgebung eine Politik erlernt, die langfristige kumulative Belohnung maximiert. In den Materialwissenschaften wird es zur autonomen Optimierung von Prozessparametern, Versuchsplanung, Navigierung in hochdimensionalen Struktur‑Eigenschafts-Räumen und Steuerung adaptiver Fertigungsanlagen eingesetzt. Zentral sind Zustandsrepräsentation, Belohnungsdesign, Exploration und Stichprobeneffizienz.
© 2026