Журналістика даних: Посібник



Як Datablog використав колективний збір інформації для висвітлення теми квитків на Олімпіаду

  • 1661 Перегляди
  • 0 Коментарі
  • 14/01/2013Дата публікації

Як на мене, проект із краудсорсингу, що отримав найбільшу кількість відгуків, - це проект, присвячений темі квитків на Олімпіаду. Тисячі людей у Великобританії намагалися роздобути квитки на Олімпійські ігри-2012 і були дуже обурені тим, що не отримали нічого. Люди зробили замовлення вартістю в кількасот фунтів, а їм сказали, що вони нічого не матимуть. Але насправді ніхто не знав, чи це просто кілька осіб голосно висловлювали невдоволення, а насправді більшість була цілком щаслива. Тож ми спробували знайти спосіб дізнатися про це.

Ілюстрація 66. Скільки квитків на Олімпіаду ви отримали?: дані читачів (Guardian)

Ми вирішили, що найкраще з того, що ми можемо зробити за відсутності будь-яких надійних даних з цієї теми, - це запитати людей. І ми подумали, що до цього треба підійти легко, бо це не буде збалансована вибірка.

Ми створили форму в Google і поставили в ній дуже конкретні запитання. Це насправді була довга форма, в ній запитувалося, на яку суму люди замовили квитки, скільки списали з їхніх карток, на які події вони ходили, і далі в такому ж сенсі.

Ми виставили результат як маленьку картинку на першій сторінці сайту, і її почали поширювати справді дуже швидко. Я вважаю, що це одна з найважливіших речей, ти не можеш просто думати «що мені потрібно знати для моєї статті», слід думати «про що люди хочуть мені розповісти просто зараз». І тільки коли ви усвідомите, про що саме люди хочуть розповісти, краудсорсинг буде успішним. Обсяг відгуків у цьому проекті, який був однією з наших перших спроб колективного збору даних, був просто гігантським. У нас була тисяча відповідей менше ніж за годину, і сім тисяч до кінця першого дня.

Тож, зрозуміло, тоді ми вирішили представити ці результати трохи серйозніше. Початково в нас не було гадки про те, чи добре все пройде. Тож ми додали кілька роз’яснень: читачі Guardian можуть бути заможнішими за інших людей, люди, які отримали менше, ніж сподівалися, можуть охочіше спілкуватися з нами і таке інше.

Ми не знали, наскільки вартісними будуть результати. Коли ми завершили, в нас було добрих сім тисяч записів як підґрунтя для статті, і ми виявили, що десь половина людей, які звернулися по квитки, не отримала нічого. Ми використали цю інформацію, і через те, що так багато людей взяли участь у опитуванні попереднього дня, результати викликали значний інтерес.

Через кілька тижнів вийшов офіційний підсумковий звіт, і наші цифрі були приголомшливо близькі до його цифр. Ми майже точно влучили в ціль. Я гадаю, певною мірою нам пощастило, але це ще й тому, що так багато людей взяли участь у опитуванні.

Якщо подібне питання ставити у коментарях до статті, ви будете обмежені в тому, що можна зробити з результатами. Тож починати слід з таких міркувань: «Який найкращий засіб для того, що я хочу взнати?» Чи це стрічка коментарів? Чи треба написати програму? І якщо ви пишете програму, то вам треба подумати: «А чи варто це того, щоб чекати? І чи це варто тих ресурсів, які потрібні на це?».

У нашому випадку ми використали сервіс Google Forms. Якщо хтось заповнює форму, ви бачите результат у вигляді рядка в таблиці. Це означає, що навіть коли таблиця доповнювалася, навіть коли результати ще надходили, можна було відкрити таблицю й відразу побачити всі результати.

Я міг б спробувати виконати роботу в Google, але я завантажив таблицю в Microsoft Excel і тоді виконував операції на зразок сортування від меншого до більшого, пошуку людей, які вирішили ввести текстом, а не цифрами суму того, скільки грошей вони потратили, і виправляв це все. Я вирішив виключати з таблиці якомога менше. Тож замість того, щоб приймати лише правильно введені відповіді, я намагався виправити інші. Люди наводили дані в іноземній валюті, тож я конвертував їх у фунти стерлінгів, і це було досить-таки марудно.

Але загальний аналіз було виконано за кілька годин, і я викинув очевидно безглузді відповіді. Багато людей вирішили заповнити форму і при цьому вказати, що вони нічого не витратили на квитки. Це трохи комічно, але нехай. Загалом таких відповідей було менше сотні з понад семи тисяч.

Було кількадесят людей, які ввели очевидно фальшиві, дуже завищені суми, намагаючись спотворити результати. Такі, як десять мільйонів фунтів. Тож це змусило мене застосувати ті ж принципи роботи з даними, які ми застосовуємо щодня. Я зробив те, що називається «зведена таблиця». Я застосував усереднення даних. Щось таке.

Ми не мали гадки, яку динаміку продемонструє цей проект, тож над ним працював лише я разом із редактором блогу «Спорт». Ми взялися до справи спільно і думали, що це може бути цікавий задум. Ми зробили це, від початку до кінця, за 24 години. У нас виникла ідея, ми обговорили її за ланчем, ми поставили форму на першу сторінку сайту, ми побачили, що це виявилося популярним, ми протримали її на першій сторінці протягом решти дня, і представили результат в онлайні наступного раку.

Ми вирішили використати сервіс Google Docs, бо він забезпечує повний контроль над результатом. Мені не потрібно було використовувати сторонні аналітичні інструменти. Я міг легко ввести дані до бази даних чи електронної таблиці. Коли ви починаєте використовувати спеціалізоване програмне забезпечення для опитувань, ви зазвичай будете змушені використовувати лише цей інструментарій. Якби інформація, про яку ми запитували, була б особливо делікатного характеру, можливо, ми б подумали, чи використовувати Google, і придумали б щось «своє». Але загалом було дуже легко поставити форму Google на стартову сторінку Guardian, і користувач фактично не помічав, що ми її використовуємо. Тож це дуже зручно.

Що можна порадити журналістам даних, які хочуть застосувати краудсорсинг: вам потрібно дуже чітко визначити те, про що хочете довідатися. Запитуйте про ті речі, на які може бути багато варіантів відповідей. Спробуйте встановити загальну демографічну картину щодо тих людей, з ким ви спілкуєтеся, щоб зрозуміти, чи не є ваша вибірка нерепрезентативною. Якщо ви запитуєте про кількісні дані, то спробуйте вказати в інструкції, що їх треба подавати в цифрах, що слід використовувати одну валюту тощо. Багато хто цього не зробить, але чим більше людей ви проінструктуєте, тим краще. І завжди, завжди додавайте поле для коментарів, бо багато людей стануть вводити інші дані лише тому, що насправді їм хочеться поділитися своєю точкою зору з цієї теми. Особливо коли йдеться про досвід чи обурення споживачів.

Маріанн Бучар, блог «Журналістика даних», інтерв’ю із Джеймсом Боллом (Guardian)

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!