KI-Tool Gemini, KI-generierte Suche und KI-Tools für Google-Dienste
Google-CEO Sundar Pichai stellte auf der Google I/O 2024 jede Menge KI-Neuheiten vor.
Foto: Google
Uhr
Rainer Schuldt
Gefühlt im Minutentakt präsentierte Google auf der Entwicklerkonferenz Google I/O 2024 KI-Innovationen – eine beeindruckende Reaktion auf Konkurrenten wie ChatGPT & Co. Die Highlights.
Die Google I/O 2024 begann eigentlich schon am 13. Mai 2024. Allerdings gab es nichts Neues vom Suchmaschinen-Riesen, sondern vom Konkurrenten OpenAI: Mit
GPT-4ostellte man eine in vielen Belangen klar verbesserte Version von ChatGPT vor, die nun in der Lage ist, in Echtzeit und ohne Verzögerungen Konversation zu betreiben und dabei sogar emotional zu reagieren oder zu singen. Umso gespannter war man, ob Google auf diese wirklich beeindruckende KI eine adäquate Antwort geben würde. Die Antwort: Ja – und wie. Gefühlt im Minutentakt stellte Google eine KI-Innovation oder zumindest ein Update zu einer bereits bekannten KI vor. COMPUTER BILD präsentiert die Highlights der Google I/O 2024. Hier kommt der "AI Overview" von Google.
Die besten Android-Handys
Google schafft die traditionelle Suche ab
Google erneuert seine
Suchfunktionendurch die Integration von KI-Technologien, um über die reine Webseitensuche hinauszugehen und zum Beispiel direkte Antworten, Hilfen etwa bei einer Eventplanung und Ideenfindung zu ermöglichen. Die Innovationen sind auch dringend erforderlich und sind eine Reaktion auf den Erfolg von KI-Modellen wie OpenAIs ChatGPT. Vorerst nur in den USA werden nun KI-generierte Antworten direkt in den Suchergebnissen angezeigt. Diese Funktion war zuvor nur für Nutzer der Search Labs-Plattform verfügbar, wird aber nun für hunderte Millionen Amerikaner ausgerollt und soll bis Jahresende global über eine Milliarde Nutzer erreichen. – Google plant, mit dem Einsatz von KI die Suchergebnisseiten zu reorganisieren und benutzerfreundlicher zu gestalten, insbesondere in den Bereichen Essen, Unterhaltung und Einkauf. Die neuen KI-Funktionen umfassen auch die detailliertere Erklärung komplexer Themen und die Beantwortung komplexer Anfragen in einer einzigen Suchanfrage.
Gemini 1.5 fester Bestandteil von Android 15
Google setzt mit KI-Integration im
Android-Betriebssystemnach eigener Aussage "neue Maßstäbe für die Nutzung von Mobilgeräten". So ermögliche etwa die Funktion "Circle to Search" Benutzern, direkt auf dem Handy nach Inhalten zu suchen und unterstützt so zum Beispiel Schüler mit Lösungsanleitungen für Hausaufgaben. Der KI-Assistent "Gemini" erhält ein Update, das es ihm ermöglicht, Kontexte besser zu verstehen und Benutzer beim Erledigen von Aufgaben zu unterstützen. Bald können Nutzer Gemini-Funktionen direkt in anderen Apps verwenden, wie etwa Inhalte direkt in E-Mails einzufügen oder spezifische Informationen aus Videos und PDFs zu extrahieren. "Gemini Nano" bringt Multimodalität in Android, indem es neben Text auch Bilder, Geräusche und gesprochene Sprache versteht. Dies wird auch in "TalkBack" integriert, um Nutzern mit Sehbehinderungen detailliertere Bildbeschreibungen zu bieten. Und eine neue Sicherheitsfunktion zur Betrugserkennung bei Telefonanrufen wird getestet, die verdächtige Muster erkennt und Warnungen ausgibt. Diese Updates sollen die Smartphone-Nutzung revolutionieren und werden Entwicklern zur Verfügung gestellt, um auf diesen KI-Modellen aufzubauen. Weitere Ankündigungen zu Android und dessen Ökosystemupdates stehen bevor.
Project Astra: Googles Kamera-Antwort auf GPT-4o
ist eine KI-Technik, die in Echtzeit visuelle und akustische Informationen verarbeitet und Antworten auf Fragen zur unmittelbaren Umgebung gibt. Die App kann zum Beispiel Objekte erkennen, benennen und sich an bereits gesehene Gegenstände erinnern, selbst wenn diese nicht mehr im Bild sind. Das System arbeitet mit einer Kombination aus Video- und Spracheingabe, um Informationen effizient zu speichern und abzurufen. Google hat auch Verbesserungen an der natürlichen Sprachausgabe seiner KI vorgenommen. Projekt Astra befindet sich noch in der Entwicklungsphase, es gibt keine genauen Angaben zum Start, aber einige Funktionen sollen noch in diesem Jahr in Google-Dienste integriert werden.
Ask Photos: Frag' Deine Fotosammlung, Gemini macht den Rest
Google fügt seine Gemini-KI immer stärker in seine Produkte ein, unter anderem in die Fotos-App. Auf der I/O-Entwicklerkonferenz wurde die Funktion "Ask Photos" vorgestellt, die es ermöglicht, durch Gespräche mit der KI spezifische Bilder in der Galerie zu finden. Diese Funktion wird zuerst für One-Abonnenten in US-Englisch verfügbar sein und als neuer Tab in der Google Fotos-App erscheinen. Nutzer können die KI beispielsweise nach den besten Fotos von Nationalparkbesuchen fragen oder um Hilfe bitten, die Top-Fotos von Urlauben zu finden und zu beschreiben. Anfragen werden vorerst getippt, nicht gesprochen, und die Suchfunktion wird durch "Ask Photos" erweitert, wobei wichtige Suchfunktionen erhalten bleiben. Die Verarbeitung erfolgt in der Cloud, persönliche Daten werden jedoch nicht gespeichert oder für das Training anderer Modelle genutzt. "Ask Photos" ist momentan ein experimentelles Feature und könnte zunächst als Premium-Funktion starten, bevor es für alle Nutzer verfügbar wird.
Gemini Flash: Wenn es mal schneller gehen soll
Neben Ask Photos stellte Google auf der I/O-Konferenz das neue KI-Modell Gemini 1.5 Flash vor, das laut Anbieter besonders schnell und effizient arbeitet und für Entwickler erschwinglicher als die Pro-Version sein wird. Dieses Modell kann umfangreiche Dokumente und Code analysieren und liegt leistungsmäßig zwischen dem Gemini 1.5 Pro und dem kleinsten Modell, dem Gemini 1.5 Nano. Die neuen Modelle sind für Entwickler gedacht, die auf Googles Plattformen eigene KI-Anwendungen bauen möchten.
Veo und Imagen 3: Das KI-Bällebad für Video- und Fotofans
Im Rahmen der Google I/O stellte Google außerdem zwei neue
KI-gestützte Tools für Video- und Fotofansvor: Die KI Veo dient der Erstellung von "hochwertigen" (O-Ton Google) 1080p-Videos. Imagen 3 wiederum erstellt aus Texteingaben aufwendige Bilder. Beide Werkzeuge sind Googles Antwort auf Konkurrenzprodukte wie OpenAIs Sora-Videomodell und DALL-E 3 und sollen laut Anbieter Videos und Bilder "mit einem noch tiefergehenden Verständnis für Sprache und visuelle Semantik" erzeugen. Veo soll auch filmische Techniken wie Zeitraffer nachahmen können und eine bessere Physiksimulation für HD-Renderings als frühere Modelle bieten.