Сайт The Atlantic дослідив набір даних, який використовувався для навчання моделей ШІ, що належать Apple, Anthropic та Nvidia зокрема, і виявив, що побоювання працівників кіногалузі щодо нової технології далеко небезпідставні.
У набір були включені елементи з щонайменше 53 000 фільмів та 85 000 серіалів: зокрема усі стрічки, номіновані на «найкращий фільм» протягом 1950-2016 років, близько 600 епізодів «Сімпсонів», 170 епізодів «Сайнфелда», 45 епізодів «Твін Пікс» та усі серії «Пуститися берега» і «Клану Сопрано». Так само набір даних містив «живі» діалоги з трансляцій «Золотого глобуса» і «Оскару».
The Atlantic зазначає, що тексти, представлені у наборі даних — не оригінальні сценарії, а субтитри, взяті з сайту OpenSubtitles.org. Користувачі зазвичай їх витягують з DVD, Blu-ray та стримінгів за допомогою програмного забезпечення оптичного розпізнавання символів, а далі завантажують на сайт (наразі там розміщено понад 9 мільйонів файлів із субтитрами на понад 100 мовах та діалектах).
Причому деякі компанії згадують використання субтитрів у своїх дослідницьких статтях: Anthropic навчала на них чатбота Claude, Meta — групу великих мовних моделей під назвою Open Pre-trained Transformer (OPT), Apple — LLM, які можуть працювати на iPhone, а Nvidia — NeMo Megatron LLM. Так само активно OpenSubtitles.org «юзали» Salesforce, Bloomberg, EleutherAI, Databricks, Cerebras та інші розробники ШІ.
Apple зазначила у коментарі, що її LLM призначені «виключно для досліджень», тоді як Salesforce наголосила, що набір даних «ніколи не використовувався для інформування чи покращення будь-яких пропозицій продуктів компанії». Решта згаданих у статті компаній, або відмовились від коментарів, або не відповіли на запити.
Питання щодо легальності використання даних для навчання штучного інтелекту залишається відкритим — з моменту «буму» текстових ботів після запуску ChatGPT. Прозорість компаній все ще досить низька і змусити їх розкрити дані, зможе хіба що суд — але, випадок з OpenAI, показав, що і ця інформація може раптово зникнути.
СпецпроєктиOukitel випускає смартфон C58 Pro: камера 50 МП, батарея 5150 мАг і ціна $99,99 на честь Дня подякиЯк вибрати супутникову автосигналізацію на авто? Поради, нюанси та посилання на системи
Здається, сценарист «Пуститися берега» Вінс Ґілліґан щось знав, коли торік назвав генеративний штучний інтелект «надзвичайно складною та енергомісткою формою плагіату» — цікаво, як би він відреагував на те, що технологія вже на всю розпоряджається написаними ним діалогами?