Журналістика даних: Посібник



Дані у новинах: Вікілікс

  • 1860 Перегляди
  • 0 Коментарі
  • 30/10/2012Дата публікації

Все почалося з того, що одна команда журналістів-розслідувальників запитала нас: «Ви ж розбираєтеся в електронних таблицях, чи не так?» І це була нічогенька таблиця: 92201 рядок даних, кожен з яких містив детальний виклад військової події в Афганістані. Це були воєнні досьє Вікілікс. Частина перша, еге ж. Потім будуть ще два епізоди: Ірак та дипломатичні телеграми. Офіційна назва цих документів – SIGACTS, база даних суттєвих подій у армії США.

Ілюстрація 40. Воєнні досьє Вікілікс (The Guardian)

Афганські воєнні записи – отримані також New York Times та Der Spiegel – являли собою журналістику даних у дії. Те, що ми хотіли – це дати можливість нашим фахівцям-репортерам отримати з цієї інформації високоякісні «людяні» сюжети для статей – і ми хотіли проаналізувати ці дані, щоб отримати велику картину, показати, як насправді йде війна.

На початковому етапі для нас мало суттєве значення те, що ми не публікуватимемо повну базу даних. Вікілікс вже мала намір це робити, і ми хотіли бути певні, що не розкриємо імена інформантів чи без потреби не наражатимемо на небезпеку війська НАТО. У той же час нам треба було полегшити роботу з цими даними нашої команди журналістів-розслідувальників, очолюваної Девідом Леєм та Ніком Девісом (вони обговорювали оприлюднення даних із Джуліаном Ассанжем). Ми також хотіли спростити доступ до ключової інформації, по-справжньому, настільки прозоро та відкрито, наскільки ми могли це зробити.

Дані надійшли до нас у формі велетенського файлу в форматі Excel - понад 92201 рядок даних, деякі з них порожні або погано відформатовані. Це не сприяло намаганням репортерів «виловити» з цих даних інформацію для статей, і файл був занадто великим, щоб писати на його основі зрозумілі статті.

Наша команда створила просту внутрішню базу даних, застосувавши SQL. Тепер репортери могли вести в ній пошук інформації для своїх статей за ключовими словами чи подіями. Несподівано базою даних стало можливо користуватися, і генерування сюжетів спростилося.

Дані були гарно структуровані: в кожної події були такі ключові дані: час, дата, опис, чисельність утрат та – що мало критичне значення – точна широта й довгота місця події.

Ми також почали фільтрувати дані, щоб у такий спосіб посприяти журналістському висвітленню одного з ключових сюжетів війни: зростання нападів із застосуванням саморобних вибухових пристроїв (СВП) – виготовлених у домашніх умовах та встановлених обабіч дороги фугасів, які неможливо виявити заздалегідь і з якими важко боротися. У період 2004 по 2009 рік було близько 7500 вибухів СВП або засідок з їх використанням (засідка – це коли атака поєднується із, скажімо, обстрілом із стрілецької зброї або реактивних гранатометів). Коли ми очистили дані, то виявили ще 8 тисяч випадків, пов’язаних із СВП. Ми хотіли побачити, як ситуація змінювалася з часом – і мати змогу робити порівняння. Ці дані дали нам змогу виявити, що на півдні, де були розташовані британські та канадські війська, ситуація була найгіршою – що підтвердили наші репортери, які висвітлювали цю війну.

Іракські воєнні досьє, оприлюднені в жовтні 2010 року, вкинули в публічний простір ще 391000 записів.

Ці записи були в іншій ваговій категорії, ніж витік інформації по Афганістану – є підстави заявляти, що завдяки цьому війна в Іраку стала найбільш задокументованою в історії. Кожна незначна деталь потрапила в наше розпорядження, її можна було аналізувати та робити розбір. Але один фактор вирізняється на загальному фоні: це загальна кількість жертв, більшість із яких – цивільні.

Так само як і з Афганістаном, Guardian вирішив не публікувати повну базу даних, головним чином тому, що ми не могли бути певні, що підсумкові записи не містять конфіденційних подробиць про інформантів, і таке інше.

Але ми надали нашим користувачам можливість завантажити електронну таблицю з записами кожного інциденту, що супроводжувався загибеллю людей, загалом близько 60 тисяч рядків. Ми вилучили колонку з полем «підсумки», тож це були лише основні дані: суть бойової сутички, кількість загиблих та географічні деталі.

Ми також розмістили всі інциденти, у яких хтось загинув, на карті за допомогою Google Fusion tables. Результат був не ідеальним, але це була перша спроба картографування тих моделей руйнації, які спустошували Ірак.

У грудні 2010 року були оприлюднені дипломатичні депеші. Це знову була інша вагова категорія, велетенська база даних офіційних документів: 251287 депеш з понад 250 посольств та консульств США з усього світу. Це унікальна картина американської дипломатичної мови – вона включає понад 50 тисяч документів, створених за чинної адміністрації Обами. Але що входить до цих даних?

Самі депеші передавалися через гігантську секретну мережу інтернет-маршрутизації, або SIPRNet. SIPRNet – це глобальна військова американська інтернет-система, відокремлена від цивільного інтернету та підпорядкована міноборони США у Вашингтоні. Після терактів у вересні 2001 року в США розпочалися дії з поєднання архівів урядової інформації, з розрахунком, щоб важливі розвідувальні повідомлення більше не «застрягали» в вузлах інформаційного накопичення, або «трубопроводах». За минулі десять років все більше американських посольств було під’єднано до SIPRNet, з тим, щоб забезпечити обмін військовою та дипломатичною інформацією. До 2002 року в SIPRNet були 125 посольств, до 2005 їх кількість зросла до 180, і зараз переважна більшість дипломатичних місій США з усього світу під’єднана до цієї системи – ось чому більшість депеш датовані 2008 та 2009 роками. Як писав Девід Лей:

"Депеша з посольства, що має помітку SIPDIS, автоматично завантажується на засекречений веб-сайт посольства. Звідти до неї може отримати доступ не тільки будь-хто з держдепартаменту, але й будь-хто з армії США, у кого є відповідний доступ до цього рівня секретності, пароль та комп’ютер, під’єднаний до SIPRNet"

А це вражаюча кількість людей – понад три мільйони. В системі є кілька рівнів даних; аж до поданих з грифом SECRET NOFORN, що означає, що ці дані ніколи не мають бути показані негромадянам США. Натомість вони призначені для прочитання посадовцями у Вашингтоні, аж до рівня держсекретаря Хілларі Клінтон. Депеші зазвичай складають місцеві посли або їхні підлеглі. Документи від закордонних розвідувальних служб під грифом “Top Secret” та вище не доступні через SIPRNet.

На відміну від попередніх релізів, це був головним чином текст, без цифрових чи ідентичних даних. Ось що туди входило:

Джерело
Посольства чи установа, яка надіслала депешу

Список адресатів
Зазвичай депеші відправляли певній кількості інших посольств чи установ

Поле теми
Зазвичай короткий підсумок депеші

Ключові слова
Кожна депеша була позначена певною кількістю ключових слів-абревіатур

Тіло повідомлення
Сама депеша. Ми намагалися не публікувати їх через очевидні причини збереження безпеки.

Ще один цікавий нюанс у цій історії: ці депеші майже спричинили витік інформації за замовленням. Коли їх оприлюднили, вони протягом кількох тижнів перебували в топ-новинах, але зараз, як тільки з’являється публікація про якийсь корумпований режим чи міжнародний скандал, доступ до депеш означає доступ до нових сюжетів.

Аналіз депеш є величезним завданням, яке, можливо, ніколи не вдасться остаточно завершити.

Це відредагована версія розділу, вперше опублікованого в книзі «Факти-священна річ: сила даних» Саймона Роджерса, The Guardian

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!