Mark Zuckerberg intensyfikuje rozwój AI głosowego w Meta, koncentrując się na udoskonalaniu funkcji głosowych w nadchodzącej aktualizacji Llama 4. Organizacja dąży do tego, aby jej AI ułatwiało naturalne konwersacje, umożliwiając płynne interakcje między użytkownikami a systemem. Ponieważ Meta dąży do dominacji w sektorze AI, rozważa również wprowadzenie płatnych subskrypcji i reklam, aby monetyzować postęp tej technologii.
Według źródeł z Financial Times organizacja zamierza udoskonalić funkcje głosowe w swoim najnowszym modelu języka open source, Llama 4, który ma zostać uruchomiony w niedalekiej przyszłości. Firma stawia na agentów sterowanych przez AI, którzy priorytetowo traktują konwersację nad tekstem.
Meta kładzie nacisk na wymianę zdań w formie konwersacji, a nie na sztywne odpowiedzi
Organizacja dąży do tego, aby interakcje między użytkownikami a modelem głosowym były bardziej autentyczne i przypominały dwustronną rozmowę. Użytkownicy nie muszą przerywać rozmowy, a zamiast tego należy stosować sztywne formaty pytań i odpowiedzi.
Ta zmiana w kierunku AI głosowej jest zgodna z ambitną wizją Zuckerberga, aby umieścić Meta jako lidera w krajobrazie AI, a rok 2025 jest znaczący dla gamy produktów firmy opartych na AI. Meta ściga się z rywalami, takimi jak OpenAI, Microsoft i Google, aby wykorzystać tę technologię.
W związku z tym firma bada możliwość przeprowadzenia pilotażu płatnych subskrypcji swojego asystenta AI, Meta AI, który oferowałby usługi związane z zadaniami sterowanymi przez agentów, takimi jak rezerwacje lub produkcja wideo, zgodnie z Financial Times. Ponadto Meta rozważa wprowadzenie płatnych reklam lub sponsorowanych treści w wynikach wyszukiwania swojego asystenta AI.
Zuckerberg ujawnił zamiar stworzenia agenta AI wyposażonego w umiejętności programowania i rozwiązywania problemów równoważne umiejętnościom inżyniera średniego szczebla, co jego zdaniem mogłoby stworzyć „znaczny rynek”.
Meta nie udzieliła komentarza Financial Times.
Mowa natywna kontra konwersja tekstu
Chris Cox, dyrektor ds. produktów w grupie, 5 marca przedstawił kilka planów dotyczących Llama 4, stwierdzając, że będzie ona funkcjonować jako „model wszechobecny”, w którym mowa będzie „rodzima… zamiast konwertować głos na tekst, przetwarzać tekst za pomocą LLM, a następnie tłumaczyć go z powrotem na mowę”.
Na konferencji technologicznej Morgan Stanley zauważył: „Uważam, że jest to znaczący postęp dla produktów interfejsowych —