Фрагменти

Наскільки точні огляди ШІ від Google, — дослідження

Функція AI Overviews від Google, яка формує згенеровані штучним інтелектом відповіді у пошуку, демонструє точність на рівні 85-91%.

Про це свідчить аналіз стартапу Oumi та The New York Times, проведений на основі понад 4000 запитів із використанням тесту SimpleQA.

Як зазначається, у жовтні, коли AI Overviews працювали на базі Gemini 2, точність становила 85%. Після переходу на Gemini 3 у лютому цей показник зріс до 91%.

Аналіз AI Overviews показав, що відповіді були точними приблизно у дев’яти випадках з десяти. Проте, оскільки Google обробляє понад п’ять трильйонів пошукових запитів на рік, це означає, що він надає десятки мільйонів помилкових відповідей щогодини (або сотні тисяч неточностей щохвилини).

Понад половину точних відповідей були «необґрунтованими». Це означає, що вони містили посилання на вебсайти, які не повністю підтверджували надану інформацію. Це створює труднощі для перевірки точності AI Overviews, зазначають дослідники.

Чи варто схвалювати такий рівень відповідей — майже, але не зовсім точний — є частиною широкої дискусії в Кремнієвій долині щодо продуктивності систем штучного інтелекту. Це питання торкається фундаментальної основи того, чому люди можуть довіряти в мережі.

Приклади помилок

Згідно з аналізом 5 380 джерел, процитованих Google AI Overviews, компанія Oumi виявила, що Facebook і Reddit посіли друге та четверте місця за частотою згадувань. Коли відповіді AI Overviews були точними, вони цитували Facebook у 5% випадків. Коли вони були неточними, частка цитувань Facebook зростала до 7%.

AI Overviews важко оцінити, оскільки система Google може генерувати нову відповідь на кожен запит. Якщо пошукова система Google отримує той самий запит у різний час — навіть з інтервалом у кілька секунд — вона може видати одну точну відповідь, а іншу — ні.

Як йдеться у дослідженні, приклади помилок включають неправильні дати або суперечливі твердження навіть за наявності надійних джерел. У деяких випадках система некоректно інтерпретує інформацію з сайтів або додає помилковий контекст до правильних фактів.

AI Overviews стикаються з ще одним викликом: ними можна маніпулювати. За словами Лілі Рей, віцепрезидентки з питань ШІ-пошуку маркетингової агенції Amsive, якщо хтось хоче стати відомим як світовий експерт у чомусь, йому достатньо просто написати допис у блозі, проголосивши себе таким.

Реакція Google

Google визнає, що функція AI Overviews може припускатися помилок. Дрібним шрифтом під кожним оглядом ШІ зазначено: «ШІ може припускатися помилок, тому перевіряйте відповіді».

Водночас у Google заявили, що аналіз компанії Oumi був недосконалим, оскільки він спирався на бенчмарк-тест, розроблений OpenAI, який сам містив неправильну інформацію.

Google ШІ дослідження тенденції