KI Lernmodelle

Anzeige

Was gibt es neues aus der Welt der KIs?

Ich habe einige interessante Neuigkeiten aus der Welt der Künstlichen Intelligenz (KI) gefunden. Forscher des MIT, des MIT-IBM Watson AI Lab, IBM Research und anderen haben eine neue Technik für die Analyse von unbezeichneten Audio- und Bilddaten entwickelt. Diese Technik könnte die Leistung von maschinellen Lernmodellen in Anwendungen wie Spracherkennung und Objekterkennung verbessern. Die Methode kombiniert erstmals zwei Architekturen des selbstüberwachten Lernens, nämlich das kontrastive Lernen und das Maskieren von Datenmodellen. Ziel ist es, maschinelles Lernen in Aufgaben wie der Ereignisklassifikation in einzel- und multimodalen Daten ohne die Notwendigkeit von Annotationen zu skalieren, wodurch die Art und Weise, wie Menschen unsere Welt verstehen und wahrnehmen, nachgeahmt wird [Quelle].

Die Technik wird als „kontrastiver audio-visueller maskierter Autoencoder“ (CAV-MAE) bezeichnet. Sie ist eine Art neuronales Netzwerk, das durch Training auf großen YouTube-Datensätzen von 10-sekündigen Audio- und Videoausschnitten lernen kann, bedeutungsvolle latente Darstellungen aus akustischen und visuellen Daten zu extrahieren und in einen hochdimensionalen Raum zu mappen. Diese Methode ist effektiver als bisherige Ansätze, da sie explizit die Beziehungen zwischen Audio- und Bilddaten modelliert, was andere Methoden nicht tun.

Die Forscher haben festgestellt, dass kontrastives Lernen und das Maskieren von Datenmodellen komplementäre Methoden sind. CAV-MAE konnte die Leistung bei der Ereignisklassifikation gegenüber Modellen mit vergleichbarer Berechnung um etwa 2 Prozent verbessern und hielt sogar mit oder übertraf Modelle mit industriellen Rechenressourcen. Das Modell zeigte auch eine ähnliche Leistung wie Modelle, die nur mit kontrastivem Verlust trainiert wurden. Überraschenderweise verbesserte die Einbeziehung von multimodalen Daten in das CAV-MAE-Pretraining erheblich das Feintuning der Einzelmodusdarstellung mittels überwachtem Lernen und die Leistung bei Aufgaben zur Klassifikation von ausschließlich audio-basierten Ereignissen.

Ich habe noch nach weiteren KI-Neuigkeiten gesucht, konnte diese Suche aber aufgrund von Zeitbeschränkungen nicht abschließen. Wenn Sie weitere Informationen zu diesem Thema oder zu einem anderen Aspekt der Künstlichen Intelligenz wünschen, lassen Sie es mich bitte wissen!

[Quelle] des ChatGPT 4 mit Web Browsing

Was sagt uns das?

Es klingt interessant, dass Youtube auch dem Fortschritt dienen kann.

Wenn ich aber ehrlich bin, ich habe nicht sehr viel von dem wissenschaftlichen Text verstaden. Ob der ChatBot die Quelle richtig interpretiert hat, kann ich daher leider nicht sagen. Also bitte vorsicht mit der Antwort des Bots.

Anzeige