Spannende Einblicke in die Zukunft der digitalen Kommunikation auf Alphabets Entwicklerkonferenz I/O

Google stellt auf seiner Entwicklerkonferenz eine ganze Reihe von technologischen Weiterentwicklungen vor. Einige betreffen bereits bekannte Produkte, andere sind völlig neue Ansätze. Im Fokus steht dabei natürlich die KI. Aber auch seine Cloud-Lösungen, die Google-Suche und sogar Hardware lässt Alphabet nicht außen vor.

Die beeindruckendsten Neuerungen haben wir uns einmal näher angeschaut:

Inhaltsverzeichnis:

Gemini
Projekt Astra
KI-Assistenzsysteme
Google Suche
Veo und Imagen
Google hat noch einiges auf Lager

Gemini – multimodale KI für Ihre Daten

Gemini versteht Anfragen aus verschiedenen Quellen: Sprache, Text, Video, Bild.
Die KI arbeitet mit den Daten, die Sie ihr zur Verfügung stellen.
Strukturieren, Zusammenfassen, Durchsuchen und Vergleich – mit Gemini auch bei größeren Datenmengen kein Problem mehr.

Viel von all dem, was Google neu vorstellt, fußt auf den Erfahrungen, die das Unternehmen mit Projekt Gemini sammelt und den Technologien, die es hierfür entwickelt. Im Rahmen der I/O wurden eine ganze Reihe an Neuerungen präsentiert, die Gemini leistungsfähiger, anwendungsfreundlicher und klüger machen. Die KI ist jetzt in der Lage, umfassende Datenmengen aus den verschiedensten Quellen zu analysieren, zu verstehen, zu ordnen und auf Fragen und Aufgaben zu reagieren. Was das bedeutet und wie es im Einzelnen eingesetzt werden kann, wird im Video von Google deutlich:

Gemini kann beispielsweise eine Aufnahme des eigenen Bücherregals auswerten und eine Liste der vorhandenen Werke nebst Autor und weiterer Meta-Angaben erstellen. Das Ausgabeformat lässt sich beliebig festlegen. Von Text über Code bis Sprache ist alles möglich.

Für jeden Anwendungsbereich die passende Version

Auch komplexere Aufgaben löst Gemini zuverlässig. Entwickler können beispielsweise ihren aktuellen Programmcode hochladen und analysieren lassen. Gemini ist in der Lage, auf Fehler hinzuweisen, Beiträge, Kommentare oder Blogs zu ähnlichen Problemen im Netz zu finden und konkrete Verbesserungsvorschläge zu machen. Und das nicht allgemein, sondern konkret auf den eingegebenen Code zugeschnitten.

Dazu gibt es verschiedene Versionen des Programms, die jeweils einen anderen Anwendungsschwerpunkt haben:

Gemini 1.5 Pro: Die Variante für Entwickler und quasi das Original. Gemini pro hat eine ganze Reihe von Updates bekommen, unter anderem die Erweiterung der Token-Anzahl auf zwei Millionen (mehr Daten, die eingegeben werden können), eine verbesserte Leistungsfähigkeit und ein umfassenderes Verständnis von Code, Logik und Bilddaten.
Gemini Live: Nutzer können in Echtzeit mit Gemini sprechen. Und zwar so, wie mit einem echten Menschen. Auch Diskussionen und Beratungen in den verschiedensten Lebenslagen und Situationen sind möglich – von einer Frage nach dem richtigen Weg zur U-Bahn bis hin zu psychologischer Beratung.
Gemini 1.5 Flash: Die schnelle Version des KI-Zwillings. Wer nicht den maximalen Funktionsumfang benötigt, aber zügig Ergebnisse will, findet hier alles, was er braucht.

Project Astra – die Zukunft von Google

Multimodale KI-Anwendung für interaktive Aufgaben.
Dateneingabe über die Handy-Kamera, per Sprache, Wisch-Geste und Text.
Beeindruckender Leistungsumfang, der von der Gegenstands- und Standorterkennung über Bildinterpretation bis zur Assoziation zahlreiche Einsatzbereiche abdeckt.

Anwendungsorientiert ist wohl das beste Wort, um die Möglichkeiten von Projekt Astra zu beschreiben. Was erstmal ziemlich langweilig klingt, ist in Wirklichkeit absolut beeindruckend:

Denn Projekt Astra erklärt die Welt. Handy in die Hand, Video-Stream einschalten und einfach Fragen stellen oder Aufgaben geben. Projekt Astra sucht in Echtzeit nach Antworten und verrät dir alles, was du wissen willst. Dabei verknüpft es problemlos Daten unterschiedlicher Medienplattformen miteinander und kann auch komplexe Probleme mühelos lösen.

Astra wechselt zwischen mathematische Gleichungen, Programmiercode, Assoziativaufgaben, Gegenstandserkennung und Kreativarbeiten ohne Übergangszeit. Zusätzlich zu der Spracheingabe lässt sich der Bildschirm als Interaktionsfläche nutzen, um beispielsweise bestimmte Bereiche hervorzuheben oder den Suchbereich einzuschränken. In der Präsentation ist die Software bereits in einer Brille verbaut. Google zeigt uns hier, wie die Verwendung von KI, Internet und Suche in der Zukunft aussehen kann.

KI-Assistenzsystem

Praktische Unterstützungssoftware mit zahlreichen Assistenzfunktionen.
Verknüpft die Daten unterschiedlicher Google-Anwendungen.
Erledigt Routineaufgabe zuverlässig.

Organisation und Struktur in den eigenen Alltag bringen, ist oft aufwendig. Googles KI-Assistenzsystem soll hier eine helfende Hand reichen. Das Programm greift auf die verschiedensten Informationen zurück, die in den unterschiedlichen Google-Produkte zur Verfügung stehen. So kann es personalisierte Pläne, Lösungen und Vorschläge für alle Arten von Anfragen erstellen.

Das System ist beispielsweise in der Lage, die Rücksendung von Paket zu vereinfachen. Dazu sucht es nach entsprechender Aufforderung eigenständig die Bestellbestätigung aus den Mails heraus, findet das Rücksendeformular, füllt es aus und versorgt uns mit einer entsprechenden Rückmeldung. Sogar die Buchung eines Abholtermins für die Ware übernimmt das Programm.

Das Tool ist in der Lage, Daten aus verschiedensten Quellen zu verarbeiten und zusammenzuführen. Es greift unter anderem auf E-Mails, Meeting-Videos, Kalendereinträge und die Suche zurück, um seine Aufgaben auszuführen.

Google Suche

Weitere und verbesserte Eingabemöglichkeiten für die Google Suche (bspw. Video)
SERPs werden immer mehr für den einzelnen Nutzer personalisiert.
Der Nutzer erhält weitere Vorschläge zu interessanten Themen, über den eigentlichen Suchgegenstand hinaus.

Das älteste Pferd im Stall wird weiter verbessert. Der Fokus liegt dabei auf komplexeren Suchanfragen, individualisierten Antworten sowie einer angepassten Darstellung der SERPs. Die Anfragen lassen sich zudem neben Text und Sprache auch per Video stellen.

Um die Ergebnisse weiter auf die Anforderungen der Nutzer hin auszurichten, versetzt Google seine Suche in die Lage, über den Tellerrand hinaus zu schauen und Hilfestellung in Bereichen zu geben, an die der Suchende selbst vielleicht noch gar nicht gedacht hat.

Buchen Sie beispielsweise eine Reise, schaut sich die Suche nicht nur nach den besten Flügen und günstigsten Hotels um, sondern gibt ihnen auch Tipps zu Ihrem Aufenthalt, die es aus einem Vlog oder einem Blogpost extrahiert.

Veo und Imagen 3

Wo OpenAi vorlegt, kann Google natürlich nicht hintenanstehen. Veo ist in der Lage, aus Text, Bildern oder Video-Prompts komplette Videos zu erstellen. Imagen 3 funktioniert ähnlich, mit dem Fokus auf Bildern. Beide Tools sind beeindruckend in ihrem Leistungsumfang. Sie gehen allerdings nicht über das hinaus, was Dall-e und Co. bereits können. Und sie kämpfen auch noch mit denselben Problemen. Hier ist Google zwar auf Augenhöhe, mehr aber auch nicht.

Google hat noch einiges auf Lager

Neben der Software hat Alphabet auch die für KI nötige Hardware im Blick. Die speziell für den Einsatz im KI-Bereich entwickelten Chips (TPUs) mit dem Namen Trillion kommen in einer deutlich leistungsfähigeren Version auf den Markt. Und durch die Kooperation mit Nvidia können Cloud-Kunden auch auf die neuste GPU-Generation zugreifen.

Und natürlich wird auch Android nicht vernachlässigt. Ohnehin sind viele der neuen KI-Tools und -Erweiterung für den mobilen Einsatz vorgesehen und finden früher oder später ihren Weg in das Betriebssystem. Auf der Feature Liste für Android 15 stehen zudem noch Performance-Updates, Sicherheitsfeatures und ein verbesserter Datenschutz.

Alphabet hat auf der I/O eindrucksvoll unter Beweis gestellt, dass die Abgesänge, die schon mancherorts auf das Unternehmen gesungen wurden, etwas verfrüht kamen. Google ist auf dem Weg von einer Suchmaschine zu einem vollumfänglichen Assistenten mit weitreichenden und beeindruckenden Fähigkeiten. Wenn dieser Weg so konsequent weiter beschritten wird wie bisher, und daran gibt es eigentlich keinen Zweifel, dann wird die Zukunft des Internets auch weiterhin maßgeblich in Mountain View geformt.

Einzig eine Antwort auf die Frage nach der Monetisierung der neuen Funktionen bleibt Google noch schuldig.

Quellen:

https://blog.google/intl/de-de/unternehmen/inside-google/sundar-pichai-google-io-2024/

https://blog.google/intl/de-de/produkte/suchen-entdecken/google-suche-generative-ki-io-2024/

https://blog.google/intl/de-de/produkte/android-chrome-mehr/android-google-ai-io-2024/