Журналістика даних: Посібник



За лаштунками The Guardian Datablog

  • 1859 Перегляди
  • 0 Коментарі
  • 16/10/2012Дата публікації

Коли ми запускали Datablog, ми не мали уявлення про те, кого можуть зацікавити «сирі» дані, статистика та візуалізації. Як сказав один із босів у нашій організації: «А навіщо це комусь буде потрібно?»

Ілюстрація 17. Візуалізація процесу створення The Guardian Datablog

Проект The Guardian Datablog  — редактором якого я є  —  свого часу був маленьким блогом, що містив повні масиви даних, пов’язаних із нашими публікаціями. Зараз він складається з головної сторінки (guardian.co.uk/data); пошукових механізмів, пов’язаних із даними про світове урядування та глобальний розвиток; візуалізації даних з Інтернету та графічні роботи від Guardian, та інструменти для дослідження даних із державних витрат. Кожного дня ми використовуємо електронні таблиці Google, щоб поширювати повний набір даних, на основі якого виконані наші роботи; ми візуалізуємо та аналізуємо ці дані, а тоді використовуємо їх як джерело тем публікацій для газети й сайту.

Оскільки я - редактор та журналіст, що працює з графікою, для мене це було логічним продовженням роботи, яку я вже виконував, - збирати нові масиви даних та возитися з ними, намагаючись знайти сенс у поточних новинах дня.

Запитання, поставлене мені, отримало відповідь. Це були неймовірні кілька років для оприлюднення урядових даних. Обама відкрив дані уряду США в якості свого першого президентського указу, цьому прикладу наслідували інші урядові сайти цілого світу – Австралія, Нова Зеландя, уряд Британії на сайті Data.gov.uk.

У нас був скандал із витратами парламентарів – найбільш неочікуваний приклад британської журналістики даних – і його наслідками стало те, що Вестмінстер зараз зобов’язаний щорічно публікувати колосальні обсяги даних.

У нас пройшли загальні вибори, де кожна з провідних політичних сил заявляла про підтримку прозорості даних, відкриваючи перед світом власні бази даних. Наші газети присвячували дорогоцінні площі своїх колонок оприлюдненню бази даних Мінфіну COINS.

У той самий час, коли Інтернет постачає все більші й більші обсяги даних, читачі з усього світу більше ніж будь-коли цікавляться сирими фактами, на яких базуються новини. Коли ми запускали Datablog, то думали, що нашою аудиторією будуть програмісти. Насправді не програмісти, а звичайні люди хочуть більше знати про викиди оксиду вуглецю, чи еміграцію зі Східної Європи, чи спалах смертності в Афганістані – чи просто кількість вживань слова «love» у текстах пісень «Бітлз» (613 разів).

Поступово Datablog став відображати та доповнювати наші сюжети. Ми спільно роздобули 458 тисяч документів, пов’язаних із витратами парламентарів, і проаналізували детальні дані, подані депутатами. Ми допомогли нашим користувачам детально дослідити базу даних витрат Міністерства фінансів, і публікували дані, на яких базувалися наші новини.

Але радикальний поворот у журналістиці даних відбувся навесні 2010 року з однієї таблиці: 92201 рядок даних, кожен із яких описував у деталях певну військову подію в Афганістані. Це були бази даних війни, оприлюднені WikiLeaks. Це – частина перша. Далі були ще два епізоди – Ірак та дипломатичні телеграми. Офіційна назва двох перших частин – SIGACTS, база даних важливих бойових подій у армії США.

У ЗМІ найважливіше – це географія та близькість до відділу новин. Якщо ви поруч, то неважко пропонувати сюжети та стати частиною процесу; і навпаки, якщо, їхнє око вас не бачить в буквальному сенсі – то й серце в них не болить. До появи Wikileaks ми сиділи на різних поверхах, із художниками. Після Wikileaks ми сидимо на одному поверсі, поруч із відділом новин. Це означає, що для нас стало легше пропонувати новинарям ідеї, а журналісти з ньюсруму розраховують на нашу допомогу при підготовці своїх публікацій.

Не так давно журналісти контролювали доступ до офіційних даних. Ми писали статті на основі цифр та пропонували їх вдячній публіці, яка не цікавилася сирою статистикою. Ідея допуску сирої інформації в газети була анафемою.

Зараз ця динаміка змінилася до непізнаваності. Ми виконуємо нову роль - інтерпретаторів, які допомагають людям зрозуміти дані – і навіть просто публікують ці дані, бо вони цікаві самі по собі.

Але цифри без аналізу – це лише цифри, і тут ми починаємо діяти. Коли британський прем’єр заявив, що заворушення в серпні 2011 року не були пов’язані з бідністю, ми змогли додати до звернень протестувальників індикатори бідності, щоб показати, наскільки правдивим було твердження влади.

За всіма нашими публікаціями в сфері журналістики даних перебуває певний процес. Він постійно змінюється, застосовуються нові інструменти та техніки. Дехто каже, що вихід – це стати таким собі суперхакером, писати код та занурюватися в систему управління базами даних SQL. Ви можете вирішити піти цим шляхом. Але багато з того, що ми робимо, це простий Excel.

Для початку, ми знаходимо дані або отримуємо їх із різних джерел: найсвіжіших новин, урядових даних, журналістських розслідувань тощо. Після цього ми дивимося, що можна зробити з цими даними – чи потрібно скомбінувати їх з іншим масивом даних? Як відобразити зміни даних у часі? Ці таблиці часто потребують серйозного очищення – всі ці «зовнішні» колонки та хитромудро пов’язані клітини насправді створюють клопіт. І це якщо мова йде не про PDF – найгірший формат даних, відомий людству.

Офіційні дані часто містять власні коди: кожна школа, лікарня, виборчий округ чи орган місцевої влади мають унікальний код-ідентифікатор.

У країн вони теж є (до речі, код Великобританії – це GB). Ці коди корисні, бо дають змогу поєднувати різні набори даних, і просто вражає, скільки різноманітних відмінностей у правописі чи слововживанні ви помічаєте в процесі. Наприклад, є Бірма та М’янма, або округ Фаєтт у США – їх аж одинадцять у штатах у проміжку від Джорджії до Західної Вірджинії. За допомогою кодів можна порівнювати порівнюване.

Наприкінці цього процесу ви обираєте спосіб кінцевого представлення: це буде стаття чи інфографіка або візуалізація, і які для цього будуть застосовані інструменти? Наші головні інструменти – це безкоштовні засоби, за допомогою яких можна швидко щось зробити. Більш складну графіку створює наша команда розробників.

Це означає, що зазвичай ми використовуємо таблиці Google charts для невеликих лінійних графіків та секторних діаграм, або Google Fusion Tables, щоб легко та швидко створити карти.

Комусь може здатися, що це новий підхід. Насправді ж ні.

У найпершому числі Manchester Guardian, що вийшла в неділю, 5 травня 1821 року, новини були на звороті сторінки, як в усіх тогочасних газетах. Головним елементом на першій сторінці була реклама про розшук пса-лабрадора.

І посеред статей та поетичних уривків третину тієї сторінки на звороті займають, гм, факти. Таблиця повної вартості навчання в місцевих школах, яку «ніколи не бачила публіка», пише якийсь “NH”.

“NH” хотів, щоб його дані були опубліковані, бо інакше ці факти лишилися б на поталу недосвідчених клерків. Його мотиви: «Ця інформація та її зміст є цінною тому, що без знань про рівень вартості освіти навіть найкращі уявлення про умови та майбутній прогрес суспільства обов’язково будуть некоректними». Інакше кажучи, якщо люди не знають, що відбувається навколо, як суспільство може стати кращим?

Я не можу навести кращого пояснення тому, заради чого ми намагаємося робити нашу справу. І те повідомлення, що колись знаходилося на останніх сторінках газети, зараз може стати новиною на першій шпальті.

Саймон Роджерс, The Guardian

Переклад здійснено за підтримки фонду "Відродження"

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!