Чому штучний інтелект англоцентричний і чому це велика проблема?

Стислий варіант цієї статті дуже простий: усі гучно презентовані інструменти ШІ, з якими ви можете чатитися і спілкуватися, жахливо працюють з усіма неанглійськими мовами.

Texty.org.ua публікують переклад статті Артура Кюльяна — IT-підприємця, дослідника ШІ та засновника компанії OpenBabylon, що створює інфраструктуру для адаптації відкритих великих мовних моделей (LLMs) під малоресурсні мови (включно з українською). Це розширює доступ до ШІ (штучного інтелекту) для 3,9 млрд людей.

Почну з того, що в мене було кілька назв для цієї статті, звісно, згенерованих штучним інтелектом. Але я вирішив зупинитися на цій.

Чому? Бо, сподіваюся, цього разу мені не знадобиться клікбейт, щоб привернути увагу до такої серйозної проблеми, і ми зможемо поширювати меседж природно, тому що він важливий, а не просто тому, що привертає увагу. Але я маю сказати, що в мене було кілька справді хороших варіантів клікбейтного заголовка. Завдяки ChatGPT, звісно!

Чи зміг би я створити такі яскраві заголовки рідною українською мовою? Не зовсім. Чому? У цьому, власне, вся суть моєї статті, і я пропоную прочитати її, щоб зрозуміти, чому існує така велика різниця. І ще...

Чому, запитуючи рецепти десертів арабською, ви отримуєте описи хвороб.
Чому запити про японський фестиваль родючості, також відомий як фестиваль фалоса, не відповідає політиці використання OpenAI і може призвести до бану.
І головне, чому 5 мільйонів носіїв грузинської мови отримують лише 99 токенів (визначення терміна наведено нижче. — Ред.) у найбільш багатомовній моделі — так, лише 99 із 256 000 слів (0,03%), а в Mistral виявилося менше токенів, ніж у грузинському алфавіті.

Нинішні тенденції нічим не відрізняються від етноциду, спричиненого гонитвою за ШІ. Можливо, ШІ не вб’є людство, але він точно вб’є те, що робить нас людьми, — нашу культуру, якщо ми не приділимо увагу цій проблемі.

(Своєчасна) передмова

Ми всі були свідками ажіотажу довкола нещодавнього релізу Llama 405B (ШІ від компанії Meta, що володіє фейсбуком). Як зазначив Ґері Маркус, «ось і бізнес-модель OpenAI». Поки блискучі уми святкують, я тут, щоб запропонувати більш тверезий погляд, який потрібно озвучити.

Від «священної битви» Meta до «шокуючої нас» Mistral і Цукерберга, який стає новим творцем Linux епохи ШІ, ландшафт справді швидко змінюється...

Я не можу нічого особливого додати до нинішнього галасу, окрім того, що щиро вірю у відкритий код і визнаю, що ці зусилля надзвичайно корисні для індустрії. Втім, мені хотілося б, щоб ці компанії не робили заяв поза межами їх можливостей.

Це створює хибне уявлення про реальність, що призводить до розчарування серед компаній, урядів та інженерів, які намагаються побудувати щось за допомогою пропонованих моделей. А іноді від цього залежить екзистенційне виживання цілої країни. Так, Україна нині є однією з таких країн.

Перш ніж ви заглибитесь у статтю і відчуєте мою нетерпимість до культу «однієї моделі, яка врятує всіх», я дам вам можливість втекти просто зараз.

Стислий варіант цієї статті дуже простий: згадані моделі жахливо працюють із неанглійськими мовами.

Довга версія для тих, хто справді хоче зрозуміти, чому ми виявилися в такій сумній ситуації і чому це велика проблема, яку потрібно вирішувати.

Вступ

3,9 мільярда людей мають обмежений доступ до технологій штучного інтелекту або взагалі не мають його з однієї простої причини: мова. Сучасні моделі ШІ побудовані переважно на англомовних джерелах, що створює значний бар’єр.

Однак мова — це лише частина проблеми. Інша частина полягає в тому, що ШІ приймає культурні рамки й світогляд тих джерел, на яких навчається. Це не тільки виключає пів світу з одного з найважливіших технологічних трендів нашого часу, а й змушує тих, хто має доступ до ШІ, дивитися на світ крізь західну призму.

Тож як штучний інтелект став таким англоцентричним?

Домінування англійської мови в інтернеті й датасетах ШІ

Частково це пов’язано з очевидним — «батьківщиною» ШІ є США. Англомовний ухил, вочевидь, походить від рідної мови розробників ШІ.

Ще одна складова — дані, які використовуються для навчання моделей штучного інтелекту. Станом на 2024 рік англійська — найпопулярніша мова для вебконтенту, на неї припадає майже 52,1% сайтів. Іспанська посідає друге місце з 5,5% вебконтенту, за нею йде німецька з 4,8%. На індійську, перську, китайську та індонезійську, — мови, якими розмовляє близько 2,7 мільярда людей, — припадає приблизно по 1,5%.

Диспропорцію створює не лише загальне представлення контенту. Бракує також високоякісних оцифрованих текстів, які можуть слугувати навчальними матеріалами для великих мовних моделей і генеративних рішень для ШІ. А саме наукових статей, новин, технічної інформації та літературних творів.

Оскільки понад 90% навчальних даних GPT-3 англійською мовою, це суттєво впливає на мовну упередженість ШІ. Чат-боти, системи модерації контенту та пошукові системи на основі ШІ найкраще працюють англійською мовою.

Через надання англомовним користувачам якісніших послуг, інформації про продукти й відповідно наявність у них більшого користувацького досвіду в інтернеті розрив між різними частинами світу лише зростає.

Навчальні дані для великих мовних моделей та їх наслідки

Більшість людей, думаючи про штучний інтелект на кшталт ChatGPT, не усвідомлює, що в його основі лежить реальна модель машинного навчання. Що це означає? По суті, те, що ШІ прогнозує наступне найбільш відповідне слово в послідовності слів на основі величезних обсягів даних, на яких він навчався.

Інакше кажучи, ШІ схожий на папугу, який навчився говорити, не розуміючи значення слів.

Що більше даних ви надаєте ШІ, то краще він може передбачати результати майбутніх запитів. Це сягає такого рівня, що людині здається, ніби вона веде розумну розмову.

Ключовими тут є дані. Якщо для навчання моделі недостатньо якісного контенту, штучний інтелект не зможе давати зв’язні та релевантні відповіді. Він просто не знатиме, яким має бути наступне слово в послідовності.

Це може вплинути на точність, якість і навіть фактичне представлення відповідей штучного інтелекту. ШІ, який не має достатньої кількості даних, просто не зможе створити однакові якість і результат для всіх мов.

Спробуйте запитати ШІ, що таке смачний десерт «намура» (традиційна ліванська та сирійська страва. — Ред.), і ви отримаєте відповідь, що це хвороба або тигр.

Або спробуйте запитати, що таке «Аль-Бакі» (одне з найсвятіших кладовищ в ісламській культурі, що міститься в Саудівській Аравії) — LLMs скаже вам, що це просто якась долина, і неправильно пояснить походження назви.

Іноді ШІ все робить правильно, а іноді переходить на інші мови й використовує слово «кабристан» (قبرستان), що мовою урду означає «кладовище». А іноді відповідає, що це місто в Сирії...

ШІ не тільки не зможе забезпечити таку саму якість відповідей іноземними мовами, а й потребуватиме більше обчислювальних ресурсів, коштуватиме дорожче і працюватиме повільніше.

Це пов’язано з тим, що принцип роботи великих мовних моделей полягає в перетворенні тексту, який ми вводимо, на токени. Токен — це мінімальна одиниця даних у великих мовних моделях. Той самий текстовий запит різними мовами потребує різної кількості токенів для обробки через брак навчальних матеріалів цими мовами й свідоме рішення про упередженість на користь того, де більше грошей.

Кількість токенів на однакову фразу різними мовами

Розбіжність у наборі даних між англійською та іншими мовами величезна. Наприклад, LLaMA 3 від Meta має 500 англійських токенів на кожен токен іншої мови!

Ситуація не краща, якщо перейти від тексту до генерації голосу ШІ. Типовий приклад — голосовий чат ChatGPT японською мовою. Вибір слів у бота нормальний, але стиль розмови змодельований під типовий каліфорнійський акцент. Це пов’язано з тим, що голосові дані, на яких навчався бот, були переважно від англомовних людей і система просто не може відтворити мову носія японської.

Крім того, використання моделей штучного інтелекту, таких як GPT-4, для японської мови може бути значно дорожчим і повільнішим: витрати можуть бути втричі більшими, а швидкість обробки вдвічі меншою через неефективну токенізацію.

І річ не лише в японській мові. Щоб ШІ сказав «як справи?» українською, потрібно буквально вчетверо більше токенів, що в результаті обходиться втричі дорожче.

Окрім згаданих вище є ще одна суттєва проблема, що стосується точності та безпеки. У разі застосування до мов із меншою кількістю ресурсів моделі ШІ, що навчалися переважно на англомовних даних, створюють значні ризики для безпеки. Шкідливі відповіді цими мовами зростають на 35%, а точність виконання інструкцій знижується до 80%.

Для незахідного світу все це робить ШІ лише новинкою для експериментів, а не надійним партнером у роботі чи достовірним джерелом інформації.

Дивує також те, що тонкі культурні відмінності, такі як сексуальність і ритуали, можуть піддаватися цензурі. Вам навіть можуть заборонити користуватися ChatGPT, як це сталося зі мною, коли я запитав про японську легенду, що стоїть за фестивалем «Канамара-мацурі».

І так, на жаль, отримана відповідь також виявилася некоректною.

Узгодження ШІ

Однак розбіжності насправді ще глибші. Мовні проблеми в моделях часто призводять до проблеми узгодження, які у великих мовних моделях зазвичай проявляються в неможливості зрозуміти семантичне значення виразів, ігноруванні культурного контексту в комунікації, ігноруванні місцевої історичної та світоглядної перспективи, а також використанні відверто образливих або токсичних висловлювань.

Наприклад, ідіоматичні вирази з недостатньо представлених мов сучасні моделі ШІ часто трактують неправильно. Особливо коли різні за змістом фрази, написані тим самим шрифтом, містять однакові слова чи словосполучення, як це відбувається з арабською абеткою, що використовується в багатьох мовах світу (перській, малайській, урду, пенджабі тощо).

Отже, коли ви запитуєте ChatGPT арабською, якою версією арабської мови він відповідає? Важко сказати, оскільки модель, по суті, є усередненням даних з усього інтернету, які були поглинуті для побудови утопічного AGI (загальний штучний інтелект. — Ред.).

Усе це весело, доки GPT-4o не скаже вам, що перекладена автоперекладачем на українську мову російська пропагандистська фраза «нема сечі терпіти ці пекельні борошна» є ідіоматичним виразом, «глибоко вкоріненим в українській мові та культурі з елементами, які можна простежити до старослов’янських виразів». Це настільки погано, що в мене відняло мову, коли я вперше це побачив...

Ще більше проблем виникає, коли ШІ намагається інтерпретувати або генерувати певний тон голосу, відповідаючи місцевими мовами. Наприклад, в арабській культурі високо цінується гостинність, а відмова часто висловлюється непрямо. Схожа ситуація і в японській культурі, де сказати «ні» не так легко, як, наприклад, для українців чи інших східноєвропейців.

Великі мовні моделі часто спілкуються арабською чи японською прямолінійно, у західному стилі, що може сприйматися образливо

Великі мовні моделі часто ігнорують це різноманіття і спілкуються прямолінійно, у західному стилі, що може сприйматися образливо. У корейській мові ШІ часто не вдається вловити нюанси ієрархії за віком чи статусом.

Усі ці проблеми ШІ, попри низьку якість комунікації, можуть бути не такими критичними для іноземців, які розуміють усю незрілість технології. Тоді як ігнорування історії та політичного контексту здатне викликати значне незадоволення.

Наприклад, під час обговорення суперечливих історичних чи політичних тем ШІ найчастіше за умовчанням використовує західний контекст. Туркові може не сподобатися висвітлення курдської теми, китаєць може не сприйняти погляд ШІ на Тайвань, а африканським користувачам узагалі важко вести з ШІ змістовні розмови про свій історичний чи культурний контекст.

Такі проблеми виникають, коли місцевий контекст гомогенізується в щось «середнє» з усього, що є в інтернеті. Спробуйте запитати Llama 405B чи навіть всемогутній GPT-4o, що таке хрест Лашарі.

LLM каже, що це «церква», але це не так, і вона навіть не в Аджарії, а в іншому кінці країни, і це язичницьке священне місце в грузинських горах. Але, звісно, якщо узагальнити до західноцентричного концепту параметричних знань, то найближча концепція до цього — «церква». І ChatGPT не знає про все це взагалі...

І так, ця інформація є в інтернеті англійською мовою, тож це не якесь нішеве, вузькопрофільне знання.

Ці, здавалося б, технічні недоліки призводять до виникнення значно більшої проблеми — до загальної культурної та контекстуальної невідповідності. ШІ часто бачить світ крізь призму інтерпретацій, які враховують лише одну, переважно західну, лінію мислення.

Завдання полягає в тому, щоб створити системи штучного інтелекту, які враховували б людські цінності й наміри та були адаптовані й персоналізовані відповідно до контексту, тобто місцевої культури та індивідуального рівня.

Це потрібно змінити

Я вважаю, що нинішня ситуація має змінитися. Нам потрібно подолати мовний бар’єр, адаптувавши моделі штучного інтелекту для недостатньо представлених мов. Це відкриє різноманітні культурні контексти, демократизує ціну й забезпечить кращі послуги та користувацький досвід для тих, хто живе не на Заході.

Крім того, AI-компанії та Кремнієва долина мають включати відгуки місцевих експертів у цикл навчання моделей із людським підкріпленням, щоб відповіді ШІ не лише природно звучали, а й органічно вписувалися в місцевий культурний контекст. Недостатньо найняти кенійських робітників за 2 долари за годину, потрібно залучати лінгвістів, етнографів, істориків, науковців та інших фахівців з інших країн.

Люди, які навчають модель, мають бути носіями мови

Люди, які навчають модель, мають бути носіями мови, це важливо для досягнення точних результатів. Зрештою, саме українці, а не група етичних дослідників із Кремнієвої долини мають визначати, якою повинна бути українська модель, оскільки саме вони нею користуватимуться.

Ще один важливий аспект — перспектива державних установ і бізнесу, які потребують більшого контролю за своїми даними та комунікаціями. Зрозуміло, що український уряд не хоче, щоб конфіденційні дані передавалися технологічним гігантам, таким як Google, OpenAI та Microsoft. Як і уряди в усьому світі.

І водночас це можливість створювати великі вузькоспеціалізовані LLMs, що розгортатимуться локально в національних освітніх, медичних та урядових установах для забезпечення цілісності взаємодії з ШІ та контролю за конфіденційними даними.

Ось чому я вважаю, що ШІ має бути адаптований до культурних, історичних, ідеологічних та інших місцевих контекстів, із якими історично пов’язані місцеві мови. Це означає, що кожен регіон світу має право на доступ до фактів і мовної репрезентації в культурно прийнятний спосіб.

Очевидно, що це створює культурний виклик для західного світу, який часто вважає, що його світогляд не має альтернатив — переконання, яке завжди було в основі західного суспільства.

Але, даючи змогу ШІ розмовляти іншими мовами та розуміти різні культурні контексти, ми забезпечуємо решту світу кращими послугами й технологіями, водночас надаючи західному світові різноманітніші перспективи. Я глибоко переконаний, що саме це зробить наш світ справді кращим.

майбутнє мова технології LLMs ШІ