Ви ще не бачили справжніх фейків. Невдовзі з'являться повністю фейкові відео (ВІДЕО)
В останньому випуску The Economist розповідається про нове покоління технологій, що дозволяють генерувати переконливе фейкове відео за допомогою нейронних мереж.
Переказ статті The economist
Цього року в мережі Youtube з’явилось відео з французькою співачкою Франсуазою Арді. Ведучий за кадром у неї запитав, чому президент Дональд Трамп змусив свого прес-секретаря Шона Спайсера брехати про кількість людей, які прийшли на його інавгурацію. Арді відповідає, що Спайсер дав «альтернативні факти». Це дещо дивно, оскільки насправді Франазі Арді зараз 73 роки, на відео вона виглядає 20-річною і говорить голосом радниці Трампа Колін Конвей.
Відео під назвою “Alternative Face v1.1” створив німецький художник Маріо Клінгеманн. Для цього він використав інтерв’ю Конвей каналу NBC і вклав її голос в уста Арді. Саме зображення на відео розмазане і пікселізоване. Тямущий майстер візуальних ефектів зробив би його набагато краще. Але Клінгеманн не задумувався над цим.
Для створення відео він використав домашній комп’ютер та генеративні змагальні мережі (generative adversarial network, GAN), тип алгоритмів штучного інтелекту, що використовується у машинному навчанні. Клігенманн «нагодував» свій комп’ютер старими кліпами Арді, і машина видала це відео, якого не існувало в реальності.
Воно породило чергову дискусію про те, де проходить межа між брехнею і правдою. Якщо тексти активно перевіряють на брехню, то зображення і звук для багатьох все ще залишаються достовірним джерелом інформації. Однак GAN вирішив кинути виклик і їхньому авторитету.
Звук фальшувати набагато простіше. Зазвичай комп'ютери створюють мову, об'єднуючи багато фрагментів коротких фраз для створення речення. Таким способом генерується і голос Siri, цифрового помічника Apple. Проте такі цифрові голоси обмежені діапазоном фраз, які вони запам'ятовують. Але звучать цілком реалістично, коли говорять конкретний набір виразів.
Для створення штучного звуку використовуються нейронні мережі. Вони вивчають статистичні властивості джерела звуку, про який йде мова. Після цього моделюють, як за секунду або за мілісекунду може змінюватись контекст фрази. Для цього достатньо завантажити промови Дональда Трампа або будь-якого іншого публічного діяча до спеціальної програми, попередньо склавши алгоритм, що ви хочете сказати устами цієї людини.
Минулого року Alphabet's DeepMind у Великобританії, Інститут машинного навчання Baidu в Силіконовій долині та Інститут вивчення алгоритмів Монреаля (MILA) опублікували цілком реалістичні алгоритми текстового мовлення. Щоправда, вони вимагають рівнів обчислювальної потужності, яка доступна лише для великих компаній, але це буде змінюватися.
Однак генерувати зображення набагато важче. GAN була створена у 2014 році Ієном Гудфеллоном, тоді студентом Інституту вивчення алгоритмів Монреаля (MILA) на чолі з Джошуа Беньо. Він ще відомий як один з батьків-засновників техніки машинного навчання, відомої також, як глибоке навчання.
Гудфеллон зазначив, що, хоча глибоке вивчення дозволило машинам чудово розрізняти різноманітні дані (наприклад, відрізнити кішку від собаки), програмне забезпечення, яке намагалося генерувати фотографії собак або котів, виявилось слабкуватим. Технологія працює так: у комп’ютер завантажується величезна база зображень котів, програма їх сканує і намагається намалювати власного кота. Але нормальне зображення так і не вийшло.
Гудфеллон повернувся до знайомої концепції змагальності. Замість того, щоб змушувати програму створювати картинки у вакуумі, він додав до програмного коду супротивника. Він і визначатиме, чи схожі генеровані зображення на «реальні», що знаходяться у базі даних програми. Таким чином, програма поступово навчиться генерувати зображення, дуже схожі на справжні, але які такими не будуть.
Нині GAN генерує невеликі зображення птахів розміром з поштову марку. Достатньо сказати, що птах «білий, але з чорними цятками на голові та на крилах, і має довгий помаранчевий дзьоб», як машина намалює те, що ви хочете. Це не ідеально, але на перший погляд ці зображення виглядають, як справжні.
Хоча зображення птахів розміром з поштову марку ніяк не загрожують суспільству, проте прогрес відбувається дуже швидко. За останні п'ять років програмне забезпечення, що працює на подібних алгоритмах, зменшило кількість помилок при класифікації фотографій з 25% до лише декількох відсотків. Очікується, що створення зображень досягне подібного прогресу. Майк Така, машинознавець з Google, уже створив зображення уявних облич із роздільною здатністю 768 пікселів. Це майже удвічі більше, ніж було раніше.
Творець GAN Гудфеллон працює зараз в дослідницькому відділі штучного інтелекту корпорації Google. На його думку, вже через три роки можна буде створювати штучні ролики на Youtube. Інші вчені вважають, що на це потрібно буде більше часу. Однак вже ні в кого не виникає сумніву, що рано чи пізно це запрацює. «Таким чином, штучний інтелект цілком може змінити докази, яким ми можемо довіряти», - стверджує Гудфеллон.
Проте, навіть якщо технологія запускає нові форми штучного життя, вона також пропонує нові способи боротьби з нею. Однією з форм перевірки є вимога, щоб записи містили їхні метадані, які показують, коли, де і як вони були зроблені. Знаючи це, фотографію можна перевірити, чи відповідає вона умовам часу і місця, коли вона була зроблена.
Amnesty International вже бореться з деякими з цих проблем. Їхня лабораторія доказів перевіряє фото та відео можливих порушень прав людини. Для цього вони використовують Google Earth для вивчення фонових ландшафтів на тестування того, коли і де було зроблене відео. Також вони використовують пошукову систему Wolfram Alpha для перевірки погодних умов, заявлених на відео.
Поки Amnesty переважно відсіює старі відеоролики, позначені як запис нового правопорушення. Крім того, з’ясувати правдивість інформації може допомогти і криптографія. Для цього ЗМІ мають створити унікальний ключ, яким будуть володіти лише вони.
Хоча дехто розумів крихкість фото- та відеоматеріалів ще раніше. "Незважаючи на презумпцію достовірності, яка властива фотографії, робота фотографа не є не є загальним винятком зі звичайної тіньової торгівлі між мистецтвом та істиною", - пише Сьюзен Зонтаг у книзі "Про фотографії". Однак генеровані засоби масової інформації пішли набагато далі, оскільки їм вдалось обійти традиційну журналістику з камерами і мікрофонами.