22. November (Reuters) – Vor den vier Tagen im Exil von OpenAI-CEO Sam Altman schrieben mehrere leitende Forscher einen Brief an den Vorstand, in dem sie vor einer mächtigen Entdeckung künstlicher Intelligenz warnten, die ihrer Meinung nach die Menschheit bedrohen könnte, sagten zwei mit der Angelegenheit vertraute Personen gegenüber Reuters .
22. NOVEMBER 2023 – Sam Altman kehrt zu OpenAI zurück , nachdem er letzte Woche entlassen wurde, gab das Unternehmen am späten Dienstag bekannt . Die vier Tage seines Exils waren geradezu ein Schleudertrauma: aus mysteriösen Gründen als CEO abgesetzt , am Wochenende beinahe wieder eingestellt und dann von Microsoft abgeworben, um ein neues Projekt für künstliche Intelligenz durchzuführen , nachdem bei OpenAI ein zweiter Führungswechsel den Weg frei gemacht hatte damit er zurückkehrt. https://nymag.com/
28. November 2023 – Letzte Woche schien es, als sei OpenAI – die geheime Firma hinter ChatGPT – aufgebrochen worden. Der Vorstand des Unternehmens hatte plötzlich CEO Sam Altman entlassen, Hunderte von Mitarbeitern protestierten, Altman wurde wieder eingestellt und die Medien analysierten die Geschichte aus allen möglichen Blickwinkeln. https://www.theatlantic.com/
01. Dezember 2023 – Sowohl Reuters als auch The Information hatten berichtet, dass OpenAI zuvor einen neuen Weg gefunden haben soll, leistungsstarke KI-Systeme zu entwickeln. Ein neues Modell namens Q* (ausgesprochen “Q-Star”) soll in der Lage sein, Mathematikaufgaben auf Grundschulniveau zu lösen. Das wiederum soll ein Meilenstein im Bestreben des Unternehmens gewesen sein, eine künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) zu schaffen – ein viel gepriesenes Konzept, das sich auf KI-Systeme bezieht, die dem Menschen ebenbürdig oder überlegen sind. Noch immer wird Q* von OpenAI nicht kommentiert. https://www.heise.de/
Was ist Q-Learning?
Es gibt viele verschiedene Reinforcement-Learning-Algorithmen, die in mehrere Unterfamilien kategorisiert werden. Q-Learning ist sowohl relativ einfach und ermöglicht gleichzeitig das Verständnis von Lernmechanismen, die vielen anderen Modellen gemeinsam sind.
Zur einleitenden Veranschaulichung: Ein Q-Learning-Algorithmus arbeitet, um ein grundlegendes Problem zu lösen. Beim Labyrinth-Spiel z. B. besteht das Ziel des Spiels darin, dem Roboter beizubringen, das Labyrinth so schnell wie möglich zu verlassen, während er zufällig auf einem der weißen Felder platziert wird. Um dies zu erreichen, gibt es drei zentrale Schritte im Lernprozess:
- Kenntnis: Definition einer Aktien-Wert-Funktion Q ;
- Wissen erweitern: Q-Funktion aktualisieren ;
- Handeln: eine Strategie für PI-Aktionen beschließen
Q-Learning ist also ein verstärkender Lernalgorithmus, der versucht, die beste Handlung unter Berücksichtigung des aktuellen Zustands zu finden.