Представляємо Purple Llama для безпечної та відповідальної розробки ШІ

З більш ніж 100 мільйонами завантажень моделей Llama на сьогоднішній день багато з цих інновацій підживлюються відкритими моделями. Щоб зміцнити довіру до розробників, які ведуть цю нову хвилю інновацій, ми запускаємо Purple Llama , комплексний проект, який об’єднає інструменти та оцінки, щоб допомогти розробникам відповідально будувати за допомогою відкритих генеративних моделей ШІ.

Чому фіолетовий? Запозичивши концепцію зі світу кібербезпеки, ми вважаємо, що для справжнього пом’якшення викликів, які створює генеративний штучний інтелект, нам потрібно зайняти як атакуючу (червона команда), так і оборонну (синя команда) позиції. Фіолетове об’єднання, що складається з обов’язків червоної та синьої команди, є спільним підходом до оцінки та пом’якшення потенційних ризиків.

Для початку Purple Llama включатиме інструменти та оцінки для кібербезпеки та засобів захисту вводу/виводу, а найближчим часом буде більше. Компоненти в рамках проекту Purple Llama будуть ліцензовані з дозволом, що дозволить використовувати як дослідження, так і комерційне використання. Ми вважаємо, що це важливий крок у забезпеченні співпраці між розробниками та стандартизації інструментів довіри та безпеки для генеративного ШІ.

Кібербезпека

Ми ділимося тим, що, на нашу думку, є першим загальногалузевим набором оцінок безпеки кібербезпеки для великих мовних моделей (LLM). Ці тести базуються на галузевих вказівках і стандартах і розроблені у співпраці з нашими експертами з безпеки. У цьому початковому випуску ми прагнемо надати інструменти, які допоможуть усунути ризики, зазначені в зобов’язаннях Білого дому, зокрема:

Метрики для кількісної оцінки ризику кібербезпеки LLM
Інструменти для оцінки частоти пропозицій небезпечного коду
Інструменти для оцінки LLM, щоб ускладнити генерацію шкідливого коду або допомогти у здійсненні кібератак

Ми вважаємо, що ці інструменти зменшать частоту використання незахищеного коду, створеного штучним інтелектом, запропонованого LLM, і зменшать корисність LLM для кіберсупротивників.

Захист вводу/виводу

Як ми зазначали в Посібнику з відповідального використання Llama 2 , ми рекомендуємо перевіряти та фільтрувати всі вхідні та вихідні дані для LLM відповідно до вказівок щодо вмісту, які відповідають програмі .

Щоб підтримати це, ми випускаємо Llama Guard, відкрито доступну базову модель, яка допоможе розробникам уникнути створення потенційно ризикованих результатів. У рамках нашого постійного прагнення до відкритої та прозорої науки ми публікуємо нашу методологію та розширене обговорення наших результатів у нашій статті. Цю модель було навчено на сукупності загальнодоступних наборів даних, щоб дозволити виявити поширені типи потенційно небезпечного або порушливого вмісту. Зрештою, наше бачення полягає в тому, щоб дозволити розробникам налаштовувати майбутні версії для підтримки релевантних варіантів використання на основі їхніх власних вимог і полегшити впровадження найкращих практик і вдосконалення відкритої екосистеми.

Відкрита екосистема

Відкритий підхід до ШІ не є новим для Meta. Дослідницькі дослідження, відкрита наука та перехресна співпраця є основою наших зусиль у сфері штучного інтелекту , і ми вважаємо, що є важлива можливість створити відкриту екосистему. Цей настрій на співпрацю був основним під час запуску Llama 2 у липні з понад 100 партнерами, і ми раді повідомити, що багато з тих самих партнерів працюють з нами над відкритою довірою та безпекою, зокрема: AI Alliance, AMD, Anyscale, AWS, Bain, CloudFlare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI та багато інших.

Ми раді співпрацювати з нашими партнерами та іншими, хто поділяє те саме бачення відкритої екосистеми відповідально розробленого генеративного ШІ.