Десятиліття просування найсучаснішого ШІ за допомогою відкритих досліджень

Сьогодні ми святкуємо 10-річчя команди Meta з фундаментальних досліджень штучного інтелекту (FAIR). За останнє десятиліття FAIR був джерелом багатьох проривів у сфері штучного інтелекту та маяком для відкритих і відповідальних досліджень. Ми прагнемо відкритої науки та ділимося своєю роботою, будь то документи, код, моделі, демонстрації чи посібники з відповідального використання.

За останні 10 років ми досягли вражаючих успіхів у виявленні об’єктів за допомогою Segment Anything , який розпізнає об’єкти на зображеннях. Крім того, ми були одними з перших, хто запровадив технології неконтрольованого машинного перекладу, що дозволило нам створити модель, яка може перекладати 100 мовами, не покладаючись на англійську. Це призвело до нашого прориву No Language Left Behind , який нещодавно розширив технології перетворення тексту в мовлення та мовлення в текст на понад 1000 мов .

На початку цього року ми випустили Llama , відкриту, попередньо навчену велику мовну модель, а потім Llama 2 , яка є безкоштовною для досліджень і комерційного використання. А на Connect ми оприлюднили нові продукти штучного інтелекту та можливості , якими зараз користуються мільйони людей — це кульмінація перших дослідницьких робіт, на основі яких створювалися Generative AI та команди продуктів Meta.

Хронологічна шкала, яка показує випуски команди Meta Fundamental AI Research протягом 2023 року

Сьогодні ми ділимося нашими останніми досягненнями в Ego-Exo4D, Audiobox і Seamless Communication

Надання моделям ШІ як егоцентричних, так і екзоцентричних поглядів

Прагнучи навчити ШІ сприймати світ нашими очима, ми оновили Ego-Exo . Останній Ego-Exo4D одночасно фіксує види від першої особи (егоцентричні) з носимої камери, а також зовнішні (екзоцентричні) види з камер, які оточують людину. Разом ці перспективи дають моделям ШІ вікно в те, що люди бачать і чують, у поєднанні з більшим контекстом про навколишнє середовище.

У майбутньому ці досягнення в області штучного інтелекту дозволять людині в розумних окулярах швидко оволодіти новими навичками за допомогою віртуального тренера штучного інтелекту, який буде вести його за відео з інструкціями. Наприклад, уявіть, що ви спостерігаєте, як експерт ремонтує велосипедну шину, жонглює футбольним м’ячем або складає орігамі-лебедя, а потім можете зіставити їхні кроки з вашими власними діями.

Відеоролики, що показують Ego-Exo4D від першої особи та зовні того, хто ремонтує велосипед

Створення голосів і звукових ефектів за допомогою Audiobox

На початку цього року ми представили Voicebox , генеративну модель штучного інтелекту, яка може допомогти з редагуванням аудіо, вибіркою та стилем. Тепер Audiobox , його наступник, ще більше просуває генеративний ШІ для аудіо. За допомогою Audiobox ви можете використовувати голосові підказки або текстові описи для опису звуків або типів мови, які ви хочете створити. Наприклад, ви можете створити звукову доріжку з підказкою на кшталт «річка, що біжить, і пташки щебетають». Ви навіть можете створити голос, сказавши: «молода жінка говорить високо та швидко». Audiobox дозволяє легко створювати власне аудіо для всіх ваших проектів.

Розблокування плавного мовного перекладу

Спираючись на нашу роботу з SeamlessM4T , ми зараз представляємо Seamless Communication : набір моделей перекладу штучного інтелекту, які краще зберігають висловлювання різними мовами та перекладають, поки той, хто говорить, покращує швидкість.

Попередні версії служб мовного перекладу часто не вловлюють тон голосу, паузи та акценти, пропускаючи важливі сигнали, які допомагають нам поділитися емоціями та намірами. SeamlessExpressive — це перша загальнодоступна система, яка відкриває виразне міжмовне спілкування. Він використовує модель, яка зберігає емоції та стиль мовця, а також звертається до темпу та ритму мови. Зараз модель працює для англійської, іспанської, німецької, французької, італійської та китайської мов.

SeamlessStreaming відкриває розмови в реальному часі з кимось, хто розмовляє іншою мовою. На відміну від звичайних систем, які перекладають, коли мовець закінчує своє речення, SeamlessStreaming перекладає, поки той говорить, що дозволяє людині, яка слухає, швидше почути переклад.

Meta унікально готова вирішити найбільші виклики ШІ. Наші інвестиції в програмне забезпечення, апаратне забезпечення та інфраструктуру дозволяють нам втілювати знання з наших досліджень у продукти, які можуть принести користь мільярдам людей.

FAIR є важливою складовою успіху Meta, і це одна з небагатьох груп у світі, яка має всі вимоги для здійснення справжніх проривів: одні з найяскравіших умів у галузі, культура відкритості та, що найважливіше, свобода проводити дослідження дослідження. Ця свобода допомогла нам залишатися гнучкими та зробити внесок у розбудову майбутнього соціальних зв’язків.

Відповідальний за дослідження ШІ

Ми цінуємо відповідальні дослідження штучного інтелекту та відкритість, тому що обмін вдумливою роботою через перевірку колег підштовхує нас до досконалості та зміцнює довіру до наших досягнень. Це також дозволяє нам співпрацювати з ширшою спільнотою, що забезпечує швидший прогрес і більш різноманітний набір учасників. Дізнайтеся більше про те, як ми відповідально проводимо дослідження ШІ .