Schwankende Nachfrage, unzuverlässige Lieferanten, globale Disruptions-Events – statische Wiederbeschaffungsmodelle stoßen in der modernen Supply Chain schnell an ihre Grenzen. Reinforcement Learning (RL) bietet einen fundamentalen Paradigmenwechsel: KI-Agenten, die Bestandsentscheidungen in Echtzeit treffen, aus jedem Ergebnis lernen und sich kontinuierlich verbessern.
Warum klassische Bestandsplanung an ihre Grenzen stößt
Lieferketten sind ständig in Bewegung – Produkte wandern über Kontinente, die Nachfrage schwankt unvorhersehbar, und unerwartete Störungen können sich durch das gesamte Netzwerk ausbreiten. Dennoch verlassen sich viele Unternehmen weiterhin auf statische Prognosemodelle und starre Wiederbeschaffungsregeln.
Klassische Ansätze wie das Economic Order Quantity (EOQ)-Modell, (s, S)-Bestandsrichtlinien oder regelbasierte Nachbestellpunkte funktionieren gut in stabilen, vorhersehbaren Umgebungen. In der Realität sind Lieferketten jedoch selten stabil. Die typischen Folgen sind:
- Starre Annahmen, die mit tatsächlichen Lieferzeiten und Nachfragemustern nicht mithalten können
- Geringe Anpassungsfähigkeit bei Lieferverzögerungen oder Nachfragespitzen
- Übervereinfachung, bei der wichtige Faktoren wie Lieferantenzuverlässigkeit oder mehrstufige Lieferketten ignoriert werden
Was wäre, wenn Lieferkettenentscheidungen sich in Echtzeit anpassen, aus vergangenen Ergebnissen lernen und sich kontinuierlich verbessern? Genau das ermöglicht Reinforcement Learning für die Bestandsoptimierung in der Supply Chain.
Was ist Reinforcement Learning und warum ist es relevant für die Lieferkette?
Reinforcement Learning (RL) ist ein Bereich des Machine Learning, der sich auf die Entscheidungsfindung in dynamischen Umgebungen konzentriert. Im Gegensatz zum traditionellen Supervised Learning, das auf gelabelten Daten basiert, nutzt RL einen Agenten, der mit seiner Umgebung interagiert, aus Feedback lernt und seine Handlungen im Laufe der Zeit optimiert, um langfristige Belohnungen zu maximieren.
Das System besteht aus vier zentralen Komponenten: dem Agenten (z. B. ein Bestandsagent, der Lagermengen verwaltet), der Umgebung (das Lieferkettennetzwerk), den Handlungsoptionen (z. B. Bestellmengen) und dem Feedback (z. B. Kosten minimieren und Lieferengpässe vermeiden).

Was RL von klassischen Methoden unterscheidet: Es benötigt keine vorgefertigten Regeln – der Algorithmus lernt durch Interaktion mit dem realen oder simulierten System, adaptiv und auf langfristige Effizienz ausgerichtet.
Anwendungsfälle von KI in der Supply Chain: Wo Reinforcement Learning einen echten Vorteil bietet
RL ist keine universelle Lösung, aber in bestimmten Supply-Chain-Szenarien ist es anderen Methoden deutlich überlegen. Vier wichtige Anwendungsfelder:
Automatische Wiederbeschaffung
RL-Agenten lernen, Lagermengen zu balancieren und Bestellmengen dynamisch anzupassen – ohne feste Schwellenwerte. Erkennt das System, dass Lieferzeiten eines Lieferanten unzuverlässiger werden, passt es proaktiv Bestellzeitpunkte an oder wechselt zu einem alternativen Lieferanten.
Produktionsplanung unter Unsicherheit
RL ermöglicht es Produktionsanlagen, Fertigungspläne flexibel an Maschinenausfälle oder Materialengpässe anzupassen – in Echtzeit und ohne manuelle Eingriffe.
Transport- und Logistikplanung
RL-basierte Routing-Algorithmen optimieren Lieferpläne kontinuierlich und minimieren Kraftstoffkosten, Verzögerungen und Ineffizienzen – in Echtzeit, angepasst an Wetter, Verkehr und Kapazitätsänderungen.
Auftragsbestätigung und Available-to-Promise (ATP)
RL-Agenten lernen, realistische Lieferzusagen zu berechnen, indem sie verfügbare Bestände, offene Bestellungen und prognostizierte Lieferzeiten dynamisch abgleichen. Statt statischer ATP-Logik passt das System Auftragsbestätigungen in Echtzeit an aktuelle Lager- und Liefersituationen an – und reduziert so negative Überraschungen für den Kunden.
RL vs. klassische Wiederbeschaffung: Ein ehrlicher Vergleich
Trotz seiner Vorteile hat Reinforcement Learning auch klare Grenzen:
- Hohe Rechenkomplexität – RL benötigt große Datenmengen und erhebliche Rechenleistung
- Trainingsphase – Das System muss erst aus Erfahrungen lernen, bevor es optimale Ergebnisse erzielt
- Geringe Interpretierbarkeit – RL-Entscheidungen sind oft weniger transparent als regelbasierte Methoden

Aus diesem Grund profitieren viele Unternehmen von einem hybriden Ansatz: Klassische Prognosemodelle liefern die Planungsbasis, RL-Agenten übernehmen die dynamische Anpassung in Echtzeit. So entsteht ein System, das sowohl interpretierbar als auch adaptiv ist.
Ein Beispiel: Erkennt ein RL-basiertes Wiederbeschaffungssystem, dass die Lieferzeiten eines Lieferanten zunehmend unzuverlässig werden, kann es proaktiv die Bestellzeitpunkte anpassen oder auf einen alternativen Lieferanten umschwenken – und so Risiken reduzieren, ohne dass manuelle Eingriffe erforderlich sind.
Wie numi solutions Reinforcement Learning in die Praxis bringt
Bei numi solutions haben wir Reinforcement Learning als zusätzliches Entscheidungswerkzeug in unsere Supply-Chain-Software integriert – nicht als Ersatz für bewährte Methoden, sondern als leistungsstarke Ergänzung für volatile, komplexe Umgebungen. RL dient insbesondere in Umgebungen mit schwankender Nachfrage, variabler Lieferantenzuverlässigkeit oder häufigen externen Störungen als Vorteil.
Eine der größten Herausforderungen bei der Implementierung war das Design eines Reward-Systems, das mögliche Zielkonflikte zwischen Service Level, Lagerhaltungskosten und Lieferresilienz intelligent balanciert. Die Implementierung erfolgte in drei Schritten:
- Datenaggregation – Historische Verkaufsdaten, Lieferzeiten und Nachfrageschwankungen aus ERP-Systemen
- Modelltraining – Mittels fortschrittlicher Simulationsalgorithmen, die reale Lieferketten-Dynamiken nachbilden
- Deployment & kontinuierliches Lernen – Das System optimiert seine Entscheidungen fortlaufend auf Basis neuer Marktbedingungen

Das Ergebnis: Unternehmen können Service Level, Lagerkosten und Lieferresilienz gleichzeitig optimieren – mit einem intelligenten, datengetriebenen Ansatz, der sich ständig weiterentwickelt.
Fazit: Die Zukunft der Supply Chain Planung ist adaptiv
In einer Zeit, in der Lieferketten von Disruptions-Events, Nachfrageschwankungen und Lieferantenausfällen geprägt sind, kann die alleinige Nutzung statischer Wiederbeschaffungsmodelle Unternehmen anfällig für Ineffizienzen und Lieferengpässe machen. Reinforcement Learning bietet eine leistungsstarke Alternative: Echtzeit-Anpassungsfähigkeit, selbstoptimierende Entscheidungsfindung und dynamische Reaktion auf Marktveränderungen.
Bei numi solutions haben wir RL erfolgreich in unsere Supply-Chain-Software integriert, sodass Unternehmen Service Level, Kosten und Resilienz gleichzeitig optimieren können. RL ist zwar kein vollständiger Ersatz für traditionelle Modelle, aber es ist ein entscheidendes Werkzeug für Unternehmen, die ihre Lieferketten in volatilen Umgebungen zukunftssicher machen wollen.






