Wie virtuelle Welten intelligenter werden

Künstliche Intelligenz Wie virtuelle Welten intelligenter werden

27.08.2024 Quelle: DFKI 3 min Lesedauer

Anbieter zum Thema

Deutsches Forschungszentrum für Künstliche Intelligenz (GmbH)

Metrofunk Kabel-Union GmbH

SAB Bröckskes GmbH & Co KG

FAULHABER Antriebssysteme

Wissenschaftler arbeiten an der nächsten Generation der sogenannten erweiterten Realität. Large Language Models spielen dabei eine wichtige Rolle.

Eine neue Technologie sammelt unzählige Eindrücke, interpretiert sie und kann mittels generativen und multimodalen Sprachmodellen (MLLM) eine adäquate Handlung vorschlagen.(Bild: DFKI) — Eine neue Technologie sammelt unzählige Eindrücke, interpretiert sie und kann mittels generativen und multimodalen Sprachmodellen (MLLM) eine adäquate Handlung vorschlagen.
(Bild: DFKI)

Oftmals prasseln im Alltag eine Vielzahl von Eindrücken auf uns ein – da kann es bisweilen schwerfallen, den Überblick zu behalten. Schließlich müssen sämtliche Eindrücke nicht nur wahrgenommen, sondern auch interpretiert werden, was schlussendlich eine breite Palette von Handlungsoptionen eröffnet. An diesem Punkt kommt das System von Luminous (Language Augmentation for Humanverse), entwickelt im Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), ins Spiel. Die Technologie sammelt die unzähligen Eindrücke, interpretiert sie und kann mittels generativen und multimodalen Sprachmodellen (MLLM) eine adäquate Handlung vorschlagen.

Durch die von uns entwickelte Technologie werden virtuelle Welten intelligenter.

Didier Stricker

Didier Stricker, Leiter des Forschungsbereichs Erweiterte Realität am DFKI: „Durch die von uns entwickelte Technologie werden virtuelle Welten intelligenter. Die intuitive Interaktion per Text mit dem System und automatische Generierung komplexer Verhaltensweisen und Abläufe durch generative KI oder sogenannte Multi-Modal Large Language Models ermöglichen uns, diese nicht nur zu erleben, sondern auch zu testen. Um das zu erreichen, arbeiten wir in Luminous parallel an mehreren Ansätzen wie automatische Code-Generierung, dem schnellen Einpflegen von neue Daten, und weiteren Lösungen."

System beobachtet, interpretiert – und gibt Handlungsempfehlungen

Im Projekt Luminous arbeitet das DFKI an Systemen der Erweiterten Realität (XR) der nächsten Generation. So sollen sich MLLM in Zukunft den bisherigen technischen Erweiterungen unserer visuell wahrgenommenen Realität, wie etwa in Form von Texten, Animationen oder der Einblendung von virtuellen Objekten, anschließen und die Interaktion mit XR-Technologie neu definieren.

Wie das in der Praxis aussehen kann, erklärt Muhammad Zeshan Afzal, Forscher aus dem Bereich Erweiterte Realität am Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI), anhand eines Szenarios: „Ein Feuer entsteht in einem Raum. Unser System ermittelt in diesem Fall zunächst, wo sich die Person – welche mit unserer Technologie ausgestattet ist – gerade befindet. Dann werden relevante Daten aus ihrem unmittelbaren Umfeld gesammelt, wie beispielsweise die Anwesenheit eines Feuerlöschers oder eines Notausgangs, um diese wiederum an das generative und multimodale Sprachmodell weiterzugeben. Dieses ermittelt dann eine passende Handlungsempfehlung, wie beispielsweise den Löschvorgang mittels Feuerlöscher einzuleiten, Fenster zu schließen oder sich in Sicherheit zu bringen.“

Luminous baut dank KI flexibles Bild- und Textvokabular auf

Bisher waren Forschungs- und Entwicklungsbestrebungen weitestgehend auf die räumliche Nachverfolgung der Nutzer und ihrer Umgebung beschränkt. Die Folge: Sehr spezifische, eingeschränkte und nicht generalisierbare Repräsentationen, sowie vordefinierte grafische Visualisierungen und Animationen. Das soll sich durch „Language Augmentation for Humanverse“ künftig ändern.

Um das zu erreichen, entwickeln die Forschenden am DFKI eine Plattform mit Sprachunterstützung, die sich an individuelle, nicht vordefinierte Nutzerbedürfnisse und bisher unbekannte Umgebungen der erweiterten Realität anpasst. Das anpassungsfähige Konzept entstammt dem Zero-Shot Learning (ZSL), einem KI-System, das darauf trainiert ist, Objekte und Szenarien zu erkennen und zu kategorisieren – ohne exemplarisches Referenzmaterial vorab gesehen zu haben. In der Umsetzung soll Luminous mit seiner Datenbank von Bildbeschreibungen ein flexibles Bild- und Textvokabular aufbauen, das es ermöglicht, auch unbekannte Objekte oder Szenen in Bildern und Videos zu erkennen.

Plattform unterstützt in Echtzeit

Das LLM aus dem Projekt Luminous soll als eine Art Übersetzer dazu in der Lage sein, Alltagstätigkeiten auf Befehl zu beschreiben und mittels Sprachinterface oder Avatar an die Nutzer auszuspielen. Durch die so bereitgestellten visuellen Hilfestellungen und Handlungsempfehlungen werden dann Alltagsaktivitäten in Echtzeit unterstützend begleitet. Nutzer dieser neuen XR-Systeme werden künftig in der Lage sein, nahtlos mit ihrer Umgebung zu interagieren, indem sie Sprachmodelle verwenden und gleichzeitig Zugang zu ständig aktualisierten globalen und domänenspezifischen Wissensquellen haben.

(ID:50141977)

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.