Твітер як джерело новин: як визначити їх правдивість?

Група індійських науковців зробила крок до того, щоб автоматично розпізнавати правдиві та неправдиві повідомлення щодо важливих подій у Твітері. Очевидно, що такий результат може бути корисний для початкового отримання достовірної інформації з місць, куди ЗМІ ще не встигли добратися.

Вчені створили модель у стандартний спосіб: спочатку зробили аналіз великої кількості реальних твітів щодо різних новинних подій, і класифікували їх на предмет правдивості. Потім застосували один із алгоритмів "машинного навчання" для класифікації нових твітер-повідомлень.

Згідно моделі дослідників, для визначення правдивості найбільш важливими є наступні фактори:
- кількість унікальних символів у повідомленні, чим їх більше, тим більше достовірність
- особові займенники та лайливі слова зменшують ймовірність того, що повідомлення достовірне
- Низка кількість щасливих "смайлів" [:-), :)] і висока кількість "сумних" [:-(, :(] є сильним індикатором об'єктивності
- інші важливі прикмети достовірності - наявність у повідомленні URL, велика кількість фоловерів у автора повідомлення, та наявність слів, що вказують на негативні емоції

Модель, як і завжди, є дійсною до того моменту, поки автори фальшивих повідомлень не візьмуть до уваги її рекомендації.

Повністю статтю з дослідженням можна побачити тут: http://precog.iiitd.edu.in/Publications_files/a2-gupta.pdf