• Das AI Café
  • Posts
  • Google vs. Midjourney, KI Transparenz, Audio KI & 3D Modellierung

Google vs. Midjourney, KI Transparenz, Audio KI & 3D Modellierung

Google führt Bildgenerierung in der Suche ein, KI-Transparenz als Kern-Problem, bahnbrechende Audio AI und 3D-Modellierung

Lesedauer: 3.5 Minuten

Willkommen zurück im AI Café,

wir erleben weiterhin eine Welle an neuen KI Applikationen, doch diese Woche haben wir etwas besonderes entdeckt.

Spannend ist auch die neuste Google-Entwicklung im Bereich KI, welche sogar Midjourney Konkurrenz machen könnte.

Diese Woche servieren wir: eine neue Generation von KI Tools welche komplexe 3D Welten erstellen und die stärksten Akzenten entschlüsseln können, wie transparent sind Fundation Modelle wirklich und bekommt Midjourney nun Konkurrenz von Google?

Heutiges Menü:

  • Bekommt Midjourney nun von Google Konkurrenz?

  • So transparent sind die großen Basismodelle.

  • Audio AI = Speech Intelligence?

  • Von Bildgenerierung zu 3D Modellierung - Next step in Generative AI.

LATEST IN AI
AI News:

  • Tech-Giganten wie Microsoft und Google investieren in ein $10-Millionen-Projekt für KI-Sicherheit.

  • Microsoft präsentiert "LeMa", eine KI-Technik, die aus Fehlern lernt und Mathematikprobleme verbessert.

  • YouTube kündigt an, härter gegen Ad-Blocker vorzugehen und Nutzern mit Ad-Blockern das Ansehen von Videos zu verwehren.

MIDJOURNEY KONKURRENZ?
Google führt Bilderzeugung in der Suche ein

Mit der Such-Generative Experience von Google, kurz SGE, können jetzt nicht nur Informationen gesucht werden, sondern auch individuell generierte Bilder direkt basierend auf einer Eingabe erstellt werden. Passend zu einer Beschreibung präsentiert SGE deshalb nun generierte Bilder zu zu deinem Suchbegriff und das ist nur der Anfang: SGE ermöglicht es Benutzern ebenfalls, Textentwürfe zu erstellen – ideal, um auf Anhieb den perfekten Text für E-Mails oder Berichte zu finden.

Aber Sicherheit geht vor: Google hat strenge Maßnahmen eingeführt, um sicherzustellen, dass diese KI-gesteuerte Bildgenerierung verantwortungsbewusst genutzt wird. Das bedeutet, dass ausschließlich Nutzer über 18 Jahren die Bildgenerierung verwenden können und schädliche oder irreführende Inhalte gefiltert werden.

Diese neuen Funktionen der SGE sind aktuell nur auf Englisch und in den USA verfügbar, werden aber bald weiteren Nutzern zugänglich gemacht.

Ein spannender Blick in die Zukunft der (Google)Suche.

Quelle: Google Blog

VERTRAUEN IN KI?
So transparent sind die großen Basismodelle

Das Stanford HAI hat einen neuen Index vorgestellt, der die Transparenz von zehn Unternehmen, die sogenannte "Foundation Models" entwickeln, bewertet – mit ernüchternden Ergebnissen. Viele dieser Unternehmen, einschließlich solcher mit dem Wort "open" im Namen, wie OpenAI, sind weniger transparent als je zuvor. Dies könnte ein Risiko für Unternehmen, Akademiker und Endverbraucher darstellen, die sich auf diese Modelle in ihrer Arbeit und in der Informationsbeschaffung verlassen.

Um die Transparenz zu messen, hat ein multidisziplinäres Team einen Bewertungssystem namens Foundation Model Transparency Index (FMTI) entwickelt, der 100 verschiedene Transparenzaspekte bewertet. Die Ergebnisse? Selbst die höchstbewerteten Unternehmen erreichten nur Scores zwischen 47 bis 54 von 100 möglichen Punkten.

Das Fehlen von Transparenz in digitalen Technologien ist nicht neu, aber es hat weitreichende Auswirkungen, insbesondere bei KI-Modellen.

Quelle: Stanford

KI HAT NUN EINE STIMME
Audio AI = Speech Intelligence?

Das Unternehmen Speechmatics hat sich einen Ruf für hochpräzise Spracherkennung mit seinen KI-Modellen erarbeitet und offenbart der Welt nun einen bahnbrechenden KI-Zweig, den es "Speech Intelligence" nennt.

Diese KI hebt die Leistung von KI im Audio Bereich auf ein neues Level:

  1. Sie ist in der Lage, Text von jeder gesprochenen Sprache äußerst präzise in Echtzeit umzusetzen, einschließlich starker Dialekte und Akzente.

  2. Die KI kann aufgenommene Texte transkribieren, Sentimentanalysen durchführen, Themen extrahieren und sogar relevante Audioausschnitte verknüpfen.

  3. Sie bietet Echtzeit-Sprachübersetzungen, die nicht nur Kommunikation erleichtern, sondern auch globale Verständigung fördern.

  4. Durch die Echtzeitanalyse von Audiomaterial kann die KI Informationen zu den behandelten Themen liefern, beispielsweise in einem Verkaufsgespräch, und dabei unterstützendes Material in der eigenen Datenbank finden.

Diese Form der KI ermöglicht nicht nur präzise und barrierefreie Kommunikation, sondern eröffnet auch neue Dimensionen für die Datenanalyse und Wissensgewinnung in Audiomaterial.

VON 2D ZU 3D
Von Bildgenerierung zu 3D Modellierung - Next step in Generative AI.

Aus (generierten) Bilder 3D Objekte zu erstellen war lange ein Traum von Web-, 3D- und Produkt-Entwicklern. Doch dies ist nun unter Zuhilfenahme von Algorithmen wie Generative Adversarial Networks, möglich. Einer der führenden Anbieter: cms.ai.

Allerdings gibt es auch bei der Lösung von cms.ai Einschränkungen, insbesondere im Bezug auf die Auflösung der Texturen.

Um diese Einschränkung zu vermeiden, gibt es die Möglichkeit auf die KI der NVIDIA Omniverse Umgebung auszuweichen, um 3D-Objekte in beeindruckender Auflösung und Detailtreue zu erstellen. Jedoch unter Zuhilfenahme der umfangreichen Omniverse Asset Library.

Alle diese Entwicklungen zeigen erneut, dass KI als Assistent immer relevanter werden wird. Dabei ist der Anwendungs-Scope praktisch grenzenlos und folgt mit der NVIDIA hauseigenen Physics-Engine, sogar physikalischen Gesetzen, um komplexe Simulationen im 3D-Raum zu ermöglichen.

Und damit nicht genug:

Auch Lumalabs.ai arbeitet an einer Lösung. Jedoch werden in ihrem Ansatz Videos in 3D-Szenen umgewandelt. Für lediglich einen Dollar kann ein Objekt in einem Video in ein 3D-Modell umgewandelt werden, natürlich im passenden Dateiformat um anschließend heruntergeladen und in einer 3D-Grafiksoftware wie Blender animiert und in 3D-Szenen integriert werden zu können.

Dies ermöglicht neue Workflows für 3D-Künstler und eröffnet völlig neue Möglichkeiten zur Schaffung von 3D-Welten im Bereich Gaming, Websites und Augmented Reality (AR).

Weitere Informationen findest du hier:

Top KI Tools der Woche

  • Deine Videos in YouTube Shorts Verwandeln: 2short.ai

  • Deine Audio Aufnahmen Verbessern: Adobe Podcast

  • Ein Besserer Leader am Arbeitsplatz werden: Kona.ai

KI Humor

Wir hoffen der heutige extra Schuss KI gibt dir Energie ⚡️, um diese Woche mit Erfolg zu meistern!

Bis nächste Woche,

Benito & Niko

p.s. wenn dir dieser Newsletter gefällt, teile in hier mit deinen Freunden und Kollegen.