Zum Hauptinhalt springen
FHEDEEN
Infomaterial anfordern

Bachelor Flyer Master Flyer

Kontakt

Sekretariat Angewandte Informatik
Tel.: 0361 6700-642
Fax: 0361 6700-643 sekretariat-ai@fh-erfurt.de

Besucheranschrift:

Fachhochschule Erfurt
Fakultät Gebäudetechnik und Informatik
Fachrichtung Angewandte Informatik
Altonaer Straße 25
99085 Erfurt

Reinforcement Learning - Schaffung einer Beobachtungsumgebung anhand von Tic-Tac-Toe

GUI der Beobachtungsumgebung

Kurzfassung:

Die Bachelorarbeit zum Thema „Reinforcement Learning – Schaffung einer Beobachtungsumgebung anhand von Tic-Tac-Toe“ befasst sich mit der Entwicklung einer interaktiven Nutzerumgebung, um sich explorativ mit den Ansätzen und Wirkmechanismen zum Reinforcement Learning auseinandersetzen zu können. Es wird ein KI-Agent entwickelt, welcher mit der integrierten Tic-Tac-Toe-Spiel-Umgebung nteragiert. Als Reinforcement Learning Ansatz wurde das QLearning aus der Vielzahl der Ansätze ausgewählt, im Detail dargestellt und als Lernstrategie für die Bewertung von Spielzügen implementiert. Der eingesetzte KI-Agent greift auf die in der QTable hinterlegte Bewertung zurück, um seinen Zug je nach Spielstand zu wählen. Nach Abschluss jedes Spiels fließt das Ergebnis als Reward in die Aktualisierung der hinterlegten Bewertung ein, solange sich der KI-Agent noch in der Lernphase befindet. Die gewonnenen Erkenntnisse werden genutzt, um einen Ausblick auf verschiedene Einsatzszenarios des Reinforcement Learnings zu geben.

Abstract:

The bachelor thesis with the topic "Reinforcement Learning - Creation of an Observation Environment based on Tic Tac Toe" deals with the development of an interactive user environment, in oder to provide the opportunity for exploration of reinforcement learning approaches. An AI agent is presented, which interacts with a Tic Tac Toe game environment. As the implemented Reinforcement Learning approach QLearning was chosen. The deployed AI agent takes the values stored in the QTable to compute the next move in the considered game state. After each game, the game result is used as reward to update the values in the QTable. This update process is continuing until the learning phase will end. The insights gained are used to give an outlook to different deployment scenarios for reinforcement learning.

 

Webex-Link zur öffentlichen Verteidigung: