Журналістика даних: Посібник

Як журналістам використовувати дані задля покращення своїх публікацій.

Переклад на українську: Сергій ЛУК'ЯНЧУК

Переклад виконано за підтримки фонду «Відродження»

Зміст

Чому журналісти повинні використовувати дані

Чому журналістика даних – це важливо

Журналістика даних: погляд у перспективі

Як журналістика даних спрацювала в ABC

Як працює команда журналістів-програмістів у Chicago Tribune

За лаштунками The Guardian Datablog

Журналістика даних у Zeit Online

Як залучити зовнішніх експертів під час хакатонів (хакерських марафонів)

Дивися, де гроші: транскордонна співпраця

Kaas & Mulvad: інформаційні напівфабрикати для груп впливу

Бізнесова модель для журналістики даних

9-місячне розслідування на тему використання структурних фондів Євросоюзу

На що йдуть гроші з гаманця громади: OpenSpending.org

Вибори до фінського парламенту та фінансування кампаній

Electoral Hack: виборча журналістика в режимі реального часу

Як Guardian Datablog висвітлював бунти в Британії

Рейтинг надійності автомобілів

Автобусні субсидії в Аргентині

Громадянська журналістика даних

Виборче табло: як подавати результати голосування

Ціна води: колективний збір інформації

П’ятихвилинний «курс молодого бійця»

Борітеся – поборете! Закон про доступ до інформації працює

Краудсорсинг даних у Guardian Datablog

Як Datablog використав колективний збір інформації для висвітлення теми квитків на Олімпіаду

Використання та поширення даних: старі закони, приховані доповнення та реальність

Дані для чайників: лікнеп за три прості кроки

Як працювати з цифрами в журналістиці: корисні поради

Хлібина за 32 фунти стерлінгів

Починайте з даних, завершуйте статтею

Журналісти даних розповідають про свої улюблені інструменти

Візуалізація як спосіб розуміння даних

Як написати програму з журналістики даних

Журналістські програми в ProPublica

Візуалізація як «робоча конячка» журналістики даних

Як вести розповідь за допомогою візуалізацій

Різні діаграми – різні оповіді

Саморобна візуалізація: Наші улюблені інструменти

Як працює "кухня даних" у Verdens Gang

Громадські дані стають соціальними

Як згуртувати людей навколо ваших даних

Посібник «Журналістика даних» народився під час 48-годинного семінару на MozFest у 2011 році в Лондоні. Він зрештою розширився, перетворившись на міжнародну спільну ініціативу, в якій узяли участь десятки провідних ентузіастів та фахівців із журналістики даних.

За шість місяців, що проминули від початку роботи над цією книгою до її першого видання, до неї в різноманітний спосіб долучилися сотні людей. І хоч ми робили все можливе, щоб згадати їх усіх, значна кількість редагувань є анонімними, створеними під псевдонімами або ж такими, чиє авторство неможливо простежити.

Усім цим людям, які доклали свою працю, але не згадані нижче, ми хочемо сказати дві речі. По-перше, спасибі вам. По-друге, повідомте нас, будь ласка, про себе, щоб ми могли вказати ваше авторство там, де ви цього заслуговуєте.

Список учасників

Грегор Айш, фундація Open Knowledge

Бріджіт Алфтер, Journalismfund.eu

Девід Андертон, журналіст-фрілансер

Джеймс Болл, газета The Guardian

Келейн Барр, Citywire

Маріана Берруезо, Hacks/Hackers Буенос-Айрес

Майкл Бластленд, журналіст-фрилансер

Маріано Блейман, Hacks/Hackers Буенос-Айрес

Джон Боунз, Verdens Gang

Маріанна Бучар, Bloomberg News

Ліліана Бунегру, Європейський центр журналістики

Брайян Боєр, газета Chicago Tribune

Пол Бредшоу, університет Birmingham City

Венді Карлайл, Australian Broadcasting Corporation

Люсі Чемберс, фундація Open Knowledge

Сара Коен, Duke University

Аластер Дент, газета The Guardian

Хелен Дербішир, Access Info Europe

Чейз Девіс, Center for Investigative Reporting

Стів Дойг, Школа журналістики ім. Уолтера Кронкайта при університеті штату Аризони

Ліза Еванс, газета The Guardian

Том Фрайс, Bertelsmann Stiftung

Дункан Гір, Wired Великобританія

Джек Гіллум, агенція Associated Press

Джонатан Грей, фундація Open Knowledge

Алекс Говард, O’Reilly Media

Белла Харрелл, BBC

Ніколас Кайзер-Бріл, Journalism++

Джон Кіф, WNYC

Скотт Клейн, ProPublica

Александр Лешене, Le Monde

Марк Лі Хантер, INSEAD

Ендрю Леімдорфер, BBC

Фридрих Лінденберг, фундація Open Knowledge

Майк Лінксвейєр, Creative Commons

Мірко Лоренц, Deutsche Welle

Еса Мякінен, Helsingin Sanomat

Педро Маркун, Transparência Hacker

Ісао Мацунамі, Tokyo Shimbun

Лоренц Мацат, OpenDataCity

Джоф МакГі, Стенфордський університет

Філіп Мейєр, Professor , заслужений професор університету Північної Кароліни у Чепел Хілл

Клер Міллер, WalesOnline

Синтія О’Мурчу, Financial Times

Олусен Онігбінде, BudgIT

Дьордь Падейскі, дослідник у Knight Journalism, Стенфордський університет

Джейн Парк, Creative Commons

Анжеліка Перальта Рамос, La Nacion (Аргентина)

Шерил Філіпс, The Seattle Times

Арон Пілхофер, New York Times

Лулу Пінні, фрилансер-дизайнер інфографіки

Пол Раду, проект «Журналістика про організовану злочинність та корупцію»

Саймон Роджерс, The Guardian

Мартін Розенбаум, BBC

Аманда Россі, Friends of Januária

Мартін Сарсале, Hacks/Hackers Буенос-Айрес.

Фабриціо Скролліні, Лондонська школа економіки та політичнх наук

Сара Слобін, Wall Street Journal

Серджо Сорін, Hacks/Hackers Буенос-Айрес

Джонатан Стрей, проект The Overview

Брайан Суда, (optional.is)

Кріс Таггарт, OpenCorporates

Джер Торп, група дослідників з The New York Times

Енді Тоу, Hacks/Hackers Буенос-Айрес

Лук Н. Ван Вассенхове, INSEAD

Саша Венор, Zeit Online

Джеррі Верманен, NU.nl

Цезар Віана, університет Гояс

Фаріда Віс, університет Лейчестера

Піт Уорден, незалежний аналітик даних та розробник

Крис Ву, Hacks/Hackers

Що є в цій книзі (і чого в ній нема)

Мета цієї книги - стати корисним ресурсом для будь-кого, хто вважає, що хоче бути журналістом даних або ж цікавиться журналістикою даних.

До написання книги долучилися багато людей, і ми, редакція, намагалися зробити так, щоб розмаїття їхніх голосів та поглядів було помітним. Ми сподіваємося, що це сприйматиметься як насичене та інформативне спілкування про те, що таке журналістика даних, чому вона є важливою і як слід її створювати.

На жаль, саме тільки читання цієї книги не надасть вам вичерпного арсеналу усіх знань та навичок, потрібних для того, щоб стати журналістом даних. Для цього знадобиться розлога бібліотека, укладена сотнями експертів, спроможних допомогти в пошуку відповідей на сотні запитань. На щастя, така бібліотека існує – вона має назву «Інтернет». Ми, натомість, сподіваємося, що ця книга дасть вам відчуття того, з чого слід починати й де вести пошук, якщо ви хочете просунутися далі. Приклади та вправи мають радше ілюстративний, аніж всеохопний характер.

Ми вважаємо, що нам дуже пощастило отримати стільки часу, енергії та терпіння від усіх наших співтворців, і ми робили все для того, щоб мудро використати ці ресурси. Ми сподіваємося, що окрім того, що ця книга стане корисним довідником, вона також певним чином задокументує пристрасть та ентузіазм, візії та енергію цього новонародженого руху. Книга робить спробу передати відчуття того, що відбувається за лаштунками, розповісти історії, що стоять за історіями.

Робота над посібником «Журналістика даних» триває. Якщо ви вважаєте, що він потребує певних виправлень або щось у ньому очевидно відсутнє, будь ласка, повідомте про це задля включення до наступної версії. Підручник надано у вільний доступ під ліцензією Creative Commons Attribution-ShareAlike, і ми рішуче заохочуємо вас до поширення його серед усіх, хто може зацікавитися цим читанням.

Джонатан Грей (@jwyg)
Ліліана Бунегру (@bb_liliana)
Люсі Чемберс (@lucyfedia)
Березень 2012

Підручник одним поглядом

Фахівець з інфографіки Лулу Пінні створила цей чудовий постер, який дає загальну уяву про зміст підручника «Журналістика даних».

Ілюстрація 2. Підручник одним поглядом

Вступ

Що таке «журналістика даних»? Який вона має потенціал? Де її межі? Звідки вона походить? У цьому розділі ми розглянемо, що таке журналістика даних і що вона означає для ЗМІ. Пол Бродшоу (університет Бірмінгем Сіті) та Мірко Лоренц (Дойче Велле) розкажуть про те, у чому специфіка журналістики даних. Провідні журналісти даних пояснять нам, чому вони вважають її важливою і якими є їхні найулюбленіші зразки. Насамкінець Ліліана Бонегру (Європейський центр журналістики) представить журналістику даних у ширшому історичному контексті.

Що таке журналістика даних?

Що таке журналістика даних? Можна відповісти просто: це журналістика, яку роблять за допомогою даних. Але ця відповідь не дуже корисна.

Ілюстрація 3. Дослідіть витрати вашого депутата (The Guardian)

І «дані», й «журналістика» є проблемними термінами. Деякі люди вважають, що дані – це будь-який набір цифр, найчастіше оформлений як таблиця. Двадцять років тому це був чи не єдиний вид даних, з якими мали справу журналісти. Але ми зараз живемо в цифровому світі, у світі, де майже все може – і майже все є – виражене через цифри.

Історія вашої кар’єри, стоп’ятсот тисяч секретних документів, взаємні контакти між вашими друзями в соціальній мережі – все це може бути (і є) описане за допомогою лише двох цифр – одиниці та нуля. Фото, відео, аудіо, все це передане тими ж двома цифрами – нулями та одиницями. Вбивства, хвороби, голосування за політиків, корупція та брехня: нулі та одиниці.

Що робить журналістику даних відмінною від інших видів журналістики? Мабуть, це нові можливості, що відкриваються завдяки поєднанню традиційного «чуття на новини» та здатності розповісти переконливу історію за допомогою самого лише масштабу та діапазону цифрових даних, які зараз є в нашому розпорядженні.

І ці можливості можуть постати на будь-якому етапі журналістського процесу: використовувати програмування задля автоматизації процесу збору та комбінування інформації від місцевої влади, поліції та інших державних установ, як це зробив Адріан Головатий (Adrian Holovaty) в проекті ChicagoCrime , а згодом у EveryBlock.

Можна використовувати програмне забезпечення для пошуку зв’язків між тисячами тисяч документів, як зробила газета The Telegraph, аналізуючи витрати депутатів.

Журналістика даних може допомогти журналістові розповісти складну історію завдяки використанню інфографіки. Вражаюча розповідь Ганса Рослінга (Hans Rosling) про візуалізацію бідності у світі на сайті Gapminder привернула мільйони переглядів з усього світу. А відома робота Девіда МакКендлеса з опрацювання великих числових масивів – таких, як показ суспільних витрат у певному контексті або забруднення довкілля, яке було спричинене, або, навпаки, якого вдалося уникнути внаслідок виверження вулкану в Ісландії – демонструє важливість чіткого зрозумілого дизайну на сайті Information is Beautiful.

Або ж завдяки їй можна пояснити, як журналістська історія пов’язана з конкретною особою – як це регулярно роблять BBC та Financial Times у інтерактивних представленнях бюджету (де ви можете дізнатися, як бюджетні зміни впливають на саме на вас, а не на узагальненого Васю Пупкіна). Чи можна розкрити сам процес збирання даних, як це з успіхом робить Guardian, ділячися даними, контекстом та запитаннями на своєму ресурсі Datablog.

Дані можуть бути джерелом інформації для журналістики даних, або інструментом, за допомогою якого журналіст розповідає історію – або і тим, і іншим водночас. Як і до будь-якого джерела інформації, до нього слід ставитися із скептицизмом; і як це буває з будь-яким інструментом, ми маємо бути свідомими того, як він може оформлювати та обмежувати ті повідомлення, які створюються з його допомогою.

Пол Бредшоу, університет Birmingham City

Переклад здійснено за підтримки фонду "Відродження"

Чому журналісти повинні використовувати дані

Журналістика перебуває в облозі. У минулому ми як галузь опиралися на те, що були єдиними, хто володів технологією отримання та розповсюдження повідомлень про те, що сталося за добу. Друкарський верстат був воротами, і якщо хтось хотів, щоб наступного ранку його почуло населення міста чи регіону, він мав звернутися до газет. Такого більше немає.

Зараз новини розповсюджуються в ту ж мить, коли вони відбуваються, шляхом різноманітних джерел, свідків, блогів, і те, що сталося, проходить фільтрацію в розлогій мережі соціальних зв’язків, отримує рейтинг, коментарі, а у більшості випадків це просто ігнорують.

Ось чому журналістика даних є настільки важливою. Збір, фільтрація та візуалізація того, що перебуває за межами «неозброєного» погляду, набуває все більшої вартості. Апельсиновий сік, який ви п’єте зранку, кава, яку ви варите, - в сучасній глобальній економіці існують невидимі зв’язки між цими продуктами, між іншими людьми та вами. Мова, на якій передаються ці зв’язки, - це дані: маленькі часточки інформації, які часто не мають особливого значення самі по собі, але вкрай важливі, якщо подивитися на них під правильним кутом.

Зараз нечисленні журналісти-новатори вже показали, як використовувати дані, аби створити глибше бачення того, що відбувається навколо нас і що може вплинути на наші життя.

Аналіз даних може проявити «форму повідомлення» (Сара Коен), або надати нам «нову камеру» (Девід МакКендлесс). Завдяки використанню даних змінюється головний фокус журналістської роботи: не повідомити першим про те, що сталося, а бути тим, хто пояснить, що насправді означає той чи інший розвиток подій. Діапазон тем може бути вельми розлогим. Наближення наступної фінансової кризи. Економіка, що стоїть за продуктами, які ми вживаємо. Неправильне використання бюджетних коштів або політичні помилки, представлені у формі переконливої візуалізації даних, залишають небагато простору для оскарження цієї інформації.

Ось чому журналісти мають убачати в даних свій шанс. Вони можуть, наприклад, виявляти, як якась абстрактна загроза, наприклад, безробіття, впливає на людей залежно від їхнього віку, статі, освіти. Використання даних перетворює абстракцію на те, що кожен може зрозуміти і пов’язати з собою.

Вони можуть створювати персоналізовані калькулятори, які допоможуть людям приймати рішення – чи то купівля автівки або будинку, обрання освіти чи професії, або ж ретельний контроль за витратами, щоб не потрапити в борги.

Вони можуть аналізувати динаміку складних ситуацій, таких як масові заворушення чи політичні дебати, показувати хибні оцінки та допомагати всім побачити можливі рішення складних проблем.

Обізнаність у методах пошуку, очистки та візуалізації даних змінює також і суть професії, пов’язаної зі збором інформації. Журналісти, які працюють у цій сфері, відчують, що побудова статей на базі фактів та аналітики – це полегкість. Менше вгадувань, менше пошуків цитат – натомість журналіст може збудувати вагому позицію, підкріплену даними, і це може значно вплинути на роль журналістики.

На додачу, звернення до журналістики даних обіцяє перспективи в майбутньому. Сьогодні, коли скорочують редакційні штати, більшість журналістів розраховують переключитися на роботу в сфері зв’язків із громадськістю. Журналісти чи науковці даних вже зараз є затребуваними фахівцями, і не тільки в ЗМІ. Компанії та установи по всьому світові шукають «творців смислів» та фахівців, які знають, як «копати» дані та трансформувати їх у щось осяжне.

Дані – це перспектива, і саме це викликає інтерес редакцій, змушує їх вести пошук репортерів нового типу. Для журналістів-фрилансерів вміння працювати з даними відкриває шлях до нових пропозицій роботи та стабільної зарплатні. Гляньте на це ось із якого ракурсу: замість найму журналістів, які швидко наповнятимуть сторінки та веб-сайти низькоякісним контентом, використання даних створює попит на інтерактивні пакети, де витрата тижня часу задля пошуку відповіді на одне питання – це єдино можливий спосіб. Це бажана зміна у багатьох складових частинах ЗМІ.

Є бар’єр, який перешкоджає журналістам використовувати цей потенціал: навчання, як саме працювати з даними на всіх етапах, – від першого запитання до великої сенсації, заснованої на аналізі даних.

Робота з даними – це як крок на велику незнайому територію. На перший погляд, «сирі» дані – це головоломка для очей та мозку. Дані самі по собі є громіздкими. Їх дуже складно коректно оформити для візуалізації. Треба бути досвідченим журналістом, у якого є хист, кинувши погляд на часто заплутані, часто нудні «сирі» дані, «побачити» історію, яка в них прихована.

Ілюстрація 4. Опитування Центру європейської журналістики на тему потреб у навчанні

Європейський центр журналістики провів опитування, щоб дізнатися більше про потреби в журналістських тренінгах. Ми виявили, що існує велике бажання вийти за межі «зони комфорту» традиційної журналістики та витратити час на здобуття нових навиків. Результати опитування показали, що журналісти бачать цей шанс, але їм потрібна певна підтримка, аби «прорватися» через початкові проблеми, що перешкоджають їхній роботі з даними. Є впевненість, що після того, як журналістика даних здобуде більшого поширення, виробничі процеси, інструментарій та результати дуже швидко прогресуватимуть. Першопрохідці, такі як Guardian, New York Times, Texas Tribune та Die Zeit продовжують усувати ці перешкоди завдяки своїм публікаціям, заснованим на даних.

Чи залишиться журналістика даних в користуванні жменьки першопочатківців, чи скоро в кожній медійній організації з’явиться власна виокремлена команда із журналістики даних? Ми сподіваємося, що цей посібник допоможе новим журналістам та редакціям скористатися перевагами цієї новопосталої галузі.

Мірко Лоренц, Deutsche Welle

Переклад здійснено за підтримки фонду "Відродження"

Чому журналістика даних – це важливо

Ми запитали декого з провідних фахівців та ентузіастів журналістики даних, чому, на їх думку, вона є важливим етапом розвитку. Ось що вони сказали.

Фільтрація потоку даних

Коли інформація була в дефіциті, більшість наших зусиль докладалася до збирання та полювання за даними. Тепер, коли інформації вдосталь, більш важлива її обробка. Ми здійснюємо обробку на двох рівнях: (1) аналіз, який робить змістовним та структурованим нескінченний потік даних, та (2) представлення, яке доносить те, що є важливим і релевантним, до свідомості споживача. Подібно до науки, журналістика даних розкриває свої методи та представляє результати в такій формі, що їх можна перевірити шляхом відтворення.

Філіп Мейєр, заслужений професор університету Північної Кароліни у Чепел Хілл

Новий підхід до розповіді

Журналістика даних – це «термін-парасолька», який, на мою думку, включає в себе постійно зростаючий набір інструментів, технік та підходів до викладу повідомлення. Він може включати все що завгодно – від традиційної журналістики, «виготовленої на комп’ютері» (де дані використовуються як джерело інформації), до найбільш передових візуалізацій даних та програмного забезпечення із поширення новин. Але спільна мета є суто журналістською: надавати інформацію та аналіз, допомагаючи інформувати нас усіх про важливі події дня.

Арон Пілхофер, New York Times

Це як фотожурналістика, тільки з лептопом

«Журналістика даних» відрізняється від «журналістики слів» лише тім, що ми використовуємо інший інструментарій. Ми всі «винюхуємо» інформацію, повідомляємо про неї та пишемо статті, щоб заробити на життя. Це як «фотожурналістика», тільки замість камери тут лептоп.

Браян Бойєр, Chicago Tribune

Журналістика даних – це майбутнє

Журналістика, що базується на обробці даних, - це майбутнє. Журналістам потрібно бути кмітливими в роботі з даними. Колись можна було знайти тему для статті, спілкуючись із людьми в барах, і все ще може статися, що вам доведеться робити щось подібне. Але зараз ідеться також про детальний перегляд даних та вміння користуватися інструментарієм для їх аналізу й відбору того, що є цікавим. І в перспективі – допомагати людям, справді помічати, де це все поєднується, і що відбувається в країні.

Тім Бернерс-Лі, винахідник World Wide Web

"Колоти" цифри – це те ж, що й кувати слово

Журналістика даних будує міст над прірвою між техніками-статистиками та майстрами слова. Визначення аномальних відхилень у даних та встановлення тенденцій є не тільки статистично значущим – воно важливе для декомпіляції сучасного світу, з притаманною йому складністю.

Девід Андертон, журналіст-фрілансер

Доповнити ваш набір умінь

Журналістика даних – це новий набір навиків із пошуку, розуміння та візуалізації цифрових джерел інформації, - у час, коли базових умінь традиційної журналістики вже не вистачає. Це не заміна традиційної журналістики, а доповнення до неї.

У час, коли джерела інформації стають цифровими, журналісти мають перебувати ближче до цих джерел. Інтернет відкрив нам можливості, що перевершують наше нинішнє розуміння. Журналістика даних – це початок еволюції наших попередніх практик, які адаптуються до онлайну.

Журналістика даних служить двом важливим завданням редакційних організацій: пошук унікальних історій (не з агенцій новин) та виконання функції «сторожових псів». Це важливі завдання для газет – особливо в часи фінансових загроз.

З погляду регіональної газети, журналістика даних має критичне значення. У нас кажуть: зіпсована тротуарна плитка перед вашими дверима вважається більш важливою, ніж повстання в якійсь далекій країні. Це потрапляє вам просто в очі й безпосередніше впливає на ваше життя. У той самий час, усе стає цифровим. Через те, що місцеві газети мають прямий вплив на навколишнє оточення, а джерела інформації стають цифровими, журналіст повинен знати, як знаходити, аналізувати та візуалізувати повідомлення, отримане з даних.

Джеррі Верманен

Ліки від інформаційної асиметрії

Інформаційна асиметрія – це не брак інформації, але неспроможність сприймати й обробляти її з тією ж швидкістю та в тих же обсягах, у яких вона до нас надходить, - є однією з найважливіших проблем, що постають перед громадянами у процесі прийняття ними рішень, що стосуються їхнього життя. Інформація, отримана від друкованих, візуальних та аудіо ЗМІ впливає на вибір та дії громадян. Якісна журналістика даних допомагає боротися з інформаційною асиметрією.

Том Фрайс, Bertelsmann Foundation

Відповідь на піар, заснований на даних

Доступність засобів вимірювання та зниження ціни на них, у поєднанні з зосередженням на продуктивності та ефективності в усіх аспектах суспільного життя, привела осіб, що приймають рішення, до практики кількісного оцінювання успішності їхньої політики, моніторингу трендів та визначення нових можливостей. Цифри зазвичай трактують за їхнім номінальним значенням, на відміну від інших фактів, так, неначе вони самі по собі оточені аурою серйозності, - навіть якщо вони повністю сфабриковані.
Компанії продовжують представляти нові способи вимірювання їхньої продуктивності. Політики люблять вихвалятися зменшенням показників безробіття та росту ВВП. Відсутність журналістської проникливості у справах Енрона, Ворлдком, Медоффа чи Солундри є доказом неспроможності багатьох журналістів виразно бачити, що приховано за цифрами.

Освіченість в роботі з даними допоможе журналістам загострити їхні критичні відчуття під час оцінки цифр, і, сподіваюся, допоможе їм відібрати назад територію, втрачену під час взаємодії з піар-департаментами.
Ніколя Кайзер-Бріл, Journalism++

Надання офіційній інформації незалежної інтерпретації

Після руйнівного землетрусу та спричиненої ним аварії на АЕС Фукушіма в 2011 році важливість журналістики даних була усвідомлена медійниками Японії – країни, яка загалом відстає у сфері цифрової журналістики.

Ми розгубилися, коли урядовці та експерти не надали вартих довіри даних про пошкодження. Коли офіційні особи приховали від публіки дані про імовірне розповсюдження радіоактивних матеріалів, ми були не готові до розшифровки цих даних навіть у разі їхнього витоку. Добровольці почали збір даних про радіоактивність, використовуючи власні прилади, але ми не володіли знаннями із статистики, інтерполяції, візуалізації тощо. Журналістам слід мати доступ до «сирих» даних і навчитися, як не залежати від офіційної інтерпретації цих даних.

Ісао Мацунамі, Chunichi/Tokyo Shimbun

Упоратися з інформаційною повінню

Виклики та можливості, які породила цифрова революція, продовжують руйнувати журналістику. У еру інформаційного перенасичення як журналісти, так і громадяни потребують кращих інструментів – чи коли ми оцінюємо самвидав 21 століття на Середньому Сході, чи коли обробляємо набір даних, що надійшов пізно ввечері, а чи коли шукаємо найкращий спосіб візуалізації якості води для нашої нації споживачів. У той час, коли ми змагаємося з проблемами споживання, породженими цією повінню даних, нові платформи для оприлюднення інформації дають будь-кому змогу збирати та поширювати дані в цифровій формі, перетворюючи їх на інформацію. І тоді як репортери та редактори є традиційними векторами збору та розповсюдження інформації, інформаційне оточення 2012 році в спрощеному вигляді зводиться до того, що новини спочатку з’являються в онлайні, а вже потім у агенції новин.

Фактично, всюди у світі зв’язки між даними та журналістикою стають міцнішими. У еру «великих даних» зростання значення журналістики даних полягає у спроможності тих, хто її застосовує, надавати контекст, чіткість, і, що найважливіше, знаходити правду у все більших обсягах цифрового контенту з усього світу. Це не означає, що сучасні інтегровані ЗМІ втрачають своє головне значення. Зовсім ні. У інформаційну добу журналісти потрібні більше, ніж будь-коли, щоб обробляти, перевіряти, аналізувати та синтезувати потік даних. У цьому контексті журналістика даних має величезне значення для суспільства.

Сьогодні пошук змісту у «великих даних», особливо в неструктурованих даних, стає центральним завданням для науковців, що досліджують дані, в усьому світі – чи вони працюють в редакціях, на Уолл-стрит чи в Кремнієвій долині. Прикметно, що цієї мети буде досягнуто з використанням все більшого арсеналу доступних інструментів – чи їх використовуватимуть фахівці, що працюють на владу, фахівці з охорони здоров’я чи фахівці з медіа.

Алекс Говард, O’Reilly Media

Наше життя – це дані

Якісна журналістика даних – це складно, бо якісна журналістика – це складно. Це означає встановити, як отримати дані, як їх зрозуміти і як знайти у них тему статті. Часом це заводить у глухі кути, а часом там не знаходиться гарної теми. Зрештою, якби все зводилося до того, щоб натиснути правильну кнопку, журналістики не існувало б як такої. Але саме це робить цю справу вартісною, і – в світі, де наше життя все більше пов’язане з даними, – необхідною умовою існування вільного та справедливого суспільства.

Кріс Таггарт, OpenCorporates

Спосіб зекономити час

Журналісти не мають часу на те, щоб переписувати дані вручну або поратися з копіюванням даних із PDF-документів, тому певні вміння програмувати, або знання, де шукати людей, що можуть допомогти, є вкрай цінними.

Наш репортер з Folha de São Paulo працював із місцевим бюджетом і зателефонував мені, щоб подякувати нам за те, що ми виклали бухгалтерію Сан-Пауло в онлайн (два дні роботи для одного хакера!). Він сказав, що вносив ці дані вручну протягом трьох останніх місяців, намагаючись побудувати з цього тему статті. Я також пам’ятаю розв'язання «проблеми PDF» для ‘Contas Abertas’, медійної організації, що моніторить діяльність парламенту: 15 хвилин та 15 рядків коду вирішили питання, на яке пішли б місяці праці.

Педро Маркун, Transparência Hacker

Важлива частина журналістського інструментарію

Я вважаю, що в терміні «журналістика даних» треба зробити наголос на «журналістиці», тобто, на репортерському аспекті. Справа має бути не в тому, що б просто аналізувати дані чи візуалізувати їх заради візуалізації, але використовувати їх як інструмент наближення до правди про те, що відбувається в світі. Я бачу здатність аналізувати й інтерпретувати дані невід’ємною частиною сучасного інструментарію журналіста, а не окремою дисципліною. Зрештою, йдеться про якісну журналістику та про те, як розповідати історії у найкращий спосіб.

Журналістика даних – це ще один спосіб пильно вдивлятися в світ і помічати сили, які слід узяти до уваги. І коли сьогодні все більші обсяги даних стають доступними, як ніколи важливим є те, щоб журналісти розумілися на техніці журналістики даних. Це має бути інструмент в інструментарії кожного журналіста: чи то він сам навчиться, як безпосередньо працювати з даними, чи співпрацюватиме з тим, хто вміє це робити.

Її справжня сила полягає в тому, щоб допомогти вам здобути інформацію, яку без цього буде дуже важко знайти чи довести. Гарним прикладом цього є стаття Стіва Дойга, яка аналізувала закономірності ушкоджень від урагану «Ендрю». Він об’єднав два різні набори даних: один показував рівень руйнувань, спричинених ураганом, а інший показував швидкості вітру. Це дало йому змогу визначити території, де послаблені будівельні норми та неякісне будування призвели до посилення впливу стихії. За цю публікацію він отримав Пулітцерівську премію 1993 року, і це дуже обнадійливий приклад того, що тут можна досягти.

В ідеалі ви використовуєте дані для виокремлення аномальних відхилень, зон інтересу чи речей, які дивують. У цьому сенсі дані можуть виконувати роль підказки чи інформаційного «зливу». Але попри те, що самі цифри можуть бути цікавими, писати про самі лише цифри недостатньо. Вам все одно треба буде провести журналістську роботу й пояснити, що вони означають.

Синтія О’Марчу, Financial Times

Пристосування до змін у нашому інформаційному середовищі

Нові цифрові технології відкривають нові шляхи створення та розповсюдження знань у суспільстві. Журналістику даних можна уявляти як спробу ЗМІ пристосуватися та відповісти на зміни в нашому інформаційному довкіллі – включно з більш інтерактивним, багатовимірним процесом розповіді, дати читачам змогу досліджувати джерела, що стоять за новинами, та заохочувати їх до участі в процесах створення та оцінки статей.

Цезар Віана, університет Гояс

Спосіб побачити те, що інакше не помітиш

Деякі сюжети можна зрозуміти та пояснити лише шляхом аналізу – і часом візуалізації – даних. Зв’язки між можновладцями чи владними організаціями залишаться непомітними, смерті, спричинені політикою щодо наркотиків, залишаться прихованими, політика у сфері довкілля, що шкодить навколишньому середовищу, і далі не матиме протидії. Але все вищезгадане змінилося завдяки тим даним, які були отримані журналістами, проаналізовані та представлені читачам. Ці дані можуть бути простими, як звичайна таблиця чи список телефонних дзвінків, або складними, як результати шкільних тестів чи дані про інфекції в лікарнях, але всередині кожного перебуває історія, яку варто розповісти.

Шерил Філліпс, The Seattle Times

Спосіб розповісти яскравішу історію

Ми можемо намалювати картину всього нашого життя на основі наших цифрових слідів. Починаючи від того, що ми споживаємо чи переглядаємо в Інтернеті, до того, куди і коли ми подорожуємо, наших музичних смаків, нашого першого кохання, етапів у житті наших дітей, навіть наших передсмертних бажань – усе це можна відстежити, оцифрувати, зберегти в «хмарі» та поширити. У цей всесвіт даних можна зануритися, щоб розповісти історію, відповісти на запитання та поділитися розумінням світу - у такий спосіб, який наразі перевершує найбільш скрупульозне та ретельне відтворення ситуацій із життя.

Сара Слобін, Wall Street Journal

Переклад здійснено за підтримки фонду "Відродження"

Кілька показових прикладів

Ми попросили наших співрозмовників надати їхні улюблені приклади журналістики даних та пояснити, що саме їм у них подобається. Ось вони.

«Не зашкодь» у Las Vegas Sun

Ілюстрація 5. Не зашкодь (The Las Vegas Sun)

Мій улюблений приклад – це серія «Не зашкодь» у Las Vegas Sun за 2010 рік, присвячена лікарняному доглядові (див. ілюстрацію 5). Las Vegas Sun проаналізувала понад 2,9 мільйони лікарняних рахунків, і виявила понад 3600 випадків ушкоджень, інфекцій та хірургічних помилок, яких можна було б уникнути. Дані були отримані шляхом публічних запитів про інформацію, і в них було виявлено понад 300 випадків, коли пацієнти померли внаслідок помилок, яких можна було б запобігти. Візуалізація містить різні елементи, включаючи: інтерактивний графік, який дає змогу читачу побачити щодо кожного госпіталю дані про те, які хірургічні ушкодження траплялися частіше, ніж цього слід було очікувати; карту з лінійкою часу, яка показує розповсюдження інфекції в госпіталях; та інтерактивний графік, що дозволяє користувачеві відсортувати дані за типом ушкоджень, яких можна було уникнути, та за госпіталями і побачити, де людям завдавали шкоди. Мені вона подобається через легкість розуміння та навігації. Користувачі можуть досліджувати дані у цілком інтуїтивний спосіб. І вона дійсно вплинула на ситуацію: законодавчі органи Невади відреагували шістьома юридичними актами.

Журналісти, залучені до проекту, дуже ретельно працювали над збором та очищенням даних. Один з журналістів, Алекс Річардс, відправляв дані назад до лікарень та штату як мінімум десять разів, щоб ті виправили помилки.

Анжеліка Перальта Рамос, La Nación, Аргентина

База даних зарплатні урядових чиновників

Ілюстрація 6. Зарплатня урядових службовців (The Texas Tribune)

Мені подобається робота, яку здійснюють невеликі незалежні організації на щоденній основі, такі, як ProPublica або Texas Tribune, у якій працює чудовий журналіст даних Райян Мерфі. Якби я робив вибір, я б обрав проект «База даних зарплатні урядових чиновників», створений у Texas Tribune (ілюстрація 6). Цей проект зібрав дані 660 тисяч зарплат, що отримують урядові працівники, у базу даних, користувачі якої можуть здійснювати пошук та генерувати журналістські сюжети. Шукати можна за установою, ім’ям чи зарплатнею. База даних проста, змістовна, вона робить публічною недоступну раніше інформацію. Її легко використовувати та з її допомогою можна автоматично генерувати сюжети. Це чудовий приклад того, чому Texas Tribune отримує більшість трафіку від сторінок із даними.

Саймон Роджерс, The Guardian

Повнотекстова візуалізація документів про війну в Іраку, Associated Press

Ілюстрація 7. Аналізуючи документи війни (Associated Press)

Джонатан Стрей та Джуліан Барджесс опрацювали докумети з війни в Іраку, і це є проривом у сфері аналізу та візуалізації тексту, де використання експериментальних технік обробки великого текстового масиву даних дало змогу висвітлити теми, які варті подальших досліджень (див. ілюстрацію 7).

За допомогою технік та алгоритмів текстового аналізу Джонатан та Джуліан створили метод, який показав кластери ключових слів, що містилися в тисячах документів уряду США, присвячених війні в Іраку, які були опубліковані на Wikileaks у візуальній формі.

Хоча цьому методу властиві обмеження, а сам підхід - експериментальний, він є інноваційним. Замість того, щоб намагатися перечитати всі документи або переглядати військові записи, маючи визначений заздалегідь намір щось знайти, тобто, вводячи певні ключові слова та переглядаючи результат, ця техніка вираховує та візуалізує теми/ключові слова, які мають особливе значення.

Зі зростанням обсягів даних – як текстових (електронні листи, звіти тощо), так і числових – які стають надбанням громадськості, пошук шляхів точного встановлення ключових зон інтересу ставатиме все більш і більш важливим – це захоплива підгалузь журналістики даних.

Синтія О’Мурчу, Financial Times

Нерозкриті вбивства

Ілюстрація 8. Нерозкриті вбивства (Scripps Howard News Service)

Один з моїх улюблених прикладів журналістики даних – це проект «Нерозкриті вбивства», виконаний Томом Хагроувом з Scripps Howard News Service (Ілюстрація 8). Він створив на основі запитів до урядових та публічних даних детальну демографічну базу даних про понад 185 тисяч випадків нерозкритих убивств, і після цього розробив алгоритм, який дозволяє шукати спільні ознаки та висувати припущення щодо потенційної присутності серійних убивць. У цьому проекті є все: важка праця над збором даних – кращих, ніж ті, що є в урядових структур, розумний аналіз з використанням технологій соціальних наук та інтерактивне представлення даних в онлайні – так, щоб читачі могли самостійно їх досліджувати.

Стів Дойг, школа журналістики імені Уолтера Кронкайта при університеті штату Аризона

Машина повідомлень

Ілюстрація 9. Машина повідомлень (ProPublica)

Мені подобається «Машина повідомлень»
та запис в «блозі ентузіастів» (Ілюстрація 9). Все почалося з того, що деякі користувачі Твіттера висловили цікавість з приводу отримання ними електронних листів від організаторів кампанії Обами. Люди в ProPublica звернули на це увагу й попрохали свою аудиторію пересилати їм будь-які листи, надіслані від імені кампанії. Їхня елегантна презентація показує візуальні відмінності між кількома листами, відправленими того вечора. Це видатний результат, бо вони самостійно зібрали дані (зрозуміло, невеликий фрагмент, але достатній для того, щоб скласти історію). Але ще більш чудовим є те, що вони розповіли історію про новостворений феномен, технологію «великих даних», застосовану в політичній кампанії задля спрямування повідомлень до конкретних осіб. Завдяки цьому ми відчуваємо смак майбутнього.

Брайан Бойєр, Chicago Tribune

Чартбол

Ілюстрація 10. Графік перемог та поразок (Chartball)

Один з моїх улюблених проектів у сфері журналістики даних – це робота Ендрю Гарсії Філіпса під назвою «Чартбол» (Ілюстрація 10). Ендрю – великий фанат спорту, який має ненаситний апетит до даних, неймовірний хист до дизайну та вміння писати код. За допомогою «Чартболу» він візуалізував не тільки перебіг історії, але й успіхи та невдачі окремих гравців та команд. Він створює контекст, він створює привабливу графіку, і його робота є глибокою, дотепною та цікавою – а я, кажучи це, навіть не є особливою фанаткою спорту!

Сара Слобін, Wall Street Journal

Переклад здійснено за підтримки фонду "Відродження"

Журналістика даних: погляд у перспективі

У серпні 2010 року я з деякими колегами організувала, на мою думку, одну з перших міжнародних конференцій із журналістики даних, яка пройшла в Амстердамі. На той час ця тема не особливо обговорювалася, й існувало лише кілька організацій, широко відомих своєю роботою в цій галузі.

Спосіб, за допомогою якого медійні організації на кшталт Guardian та New York Times опрацювали великий обсяг даних, опублікованих на Wikileaks, став одним з головних етапів, завдяки якому термін «журналістика даних» здобув поширення. Приблизно в той же час цей термін почав використовуватися більш розлого, разом із терміном «комп’ютеризована журналістика» - він описував, як журналісти використовують дані задля покращення своїх матеріалів та збільшення глибини досліджень із певної теми.

Я спілкувалася з досвідченими журналістами даних та науковцями в сфері журналістики у Твіттері, і виглядає так, що одне з найбільш ранніх визначень того, що ми зараз вважаємо журналістикою даних, було створене у 2006 році Адріаном Головатим, засновником EveryBlock — інформаційного сервісу, який давав змогу користувачам дізнаватися, що відбувається в місцевості, де вони живуть, у їхньому кварталі. У короткому есе «Сайти газет мають зазнати фундаментальних змін» він доводить, що журналістам слід публікувати структуровані дані, придатні для машинного зчитування, поруч із традиційним «великим масивом тексту»:

Наведу приклад: скажімо, місцева газета написала про пожежу. Спроможність прочитати цю статтю на екрані стільникового телефона – це круто і прекрасно. Слава технологіям! Але що я насправді хотіла б могти, так це дослідити «сирі» факти, що стоять за цією історією, один за одним, за шарами властивих їм ознак, і мати інфраструктуру для порівняння детальних подробиць цієї пожежі – дата, час, місце, жертви, номер пожежної частини, відстань від пожежної частини, імена та стаж пожежників, що її гасили, скільки вони їхали до пожежі – і все це з подробицями попередніх пожеж. І так щодо всіх наступних пожеж, коли б там вони не сталися.

Але в чому тут відмінність від інших форм журналістики, які використовують бази даних чи комп’ютери? Як – і до яких меж – журналістика даних відрізняється від інших форм журналістики, що існували в минулому.

«Комп’ютеризована журналістика» та «Точна журналістика»

Використання даних для покращення журналістських повідомлень та надання структурованої (а то й придатної для машинного зчитування) інформації громадськості має довгу історію. Можливо, найбільше відповідає тому, що ми зараз називаємо «журналістикою даних», так звана «комп’ютеризована журналістика» (КЖ), яка була першою спробою організованого та систематизованого використання комп’ютерів задля збору та аналізу даних – для того, щоб покращити журналістські повідомлення.

КЖ вперше застосували в 1952 році у телекомпанії CBS, щоб зробити прогноз результатів президентських виборів. З 1960-х років журналісти (переважно, ті, що займалися розслідуваннями, переважно, американці) шукали спосіб незалежного контролю за владою шляхом аналізу баз даних державних архівів а допомогою наукових методів. Прихильники цього комп’ютеризованого напрямку, «журналістика державних служб», з його допомогою намагалися виявляти певні тенденції, спростовувати поширені у громаді помилкові уявлення та розкривати факти неправомірної діяльності органів державної влади. Наприклад, Філіп Мейєр спробував спростувати повідомлення про заворушення 1967 року в Детройті – щоб показати, що участь у них брали не лише погано освічені мешканці Півдня США. Цикл статей Білла Дедмана «Колір грошей» у 1980-х розкрив систематичні расові упередження в політиці надання позик, притаманні великим фінансовим установам. У статті «Що пішло не так» Стів Дойг аналізував типові закономірності ушкоджень від урагану «Ендрю» на початку 1990-х років, щоб зрозуміти вплив неякісної політики та практики міського будівництва та розвитку. Журналістика, орієнтована на дані, прислужилася громаді, а журналісти отримали за це престижні премії

На початку 1970-х років термін «точна журналістика» вживався для опису такого-от способу збирання новин: «застосування дослідницьких методів, що використовуються у соціальних та біхевіористських науках, у журналістиці». Вважалося, що точну журналістику застосовуватимуть потужні медійні організації, використовуючи фахівців, обізнаних як із журналістикою, так і з соціальними науками. Вона народилася як відповідь на «нову журналістику», форму журналістики, де під час підготовки повідомлень використовувалася техніка літературних домислів. Мейєр припускає, що журналістиці, яка веде пошук об’єктивності та правди, потрібні радше наукові технології збору та аналізу даних, аніж літературні техніки.

«Точну журналістику» можна розглянути як реакцію на типові, часто цитовані слабкості та неадекватні прояви журналістики: залежність від прес-релізів (пізніше це отримало назву «дурналістика» (“churnalism”)), схиляння до провладних джерел інформації тощо. Мейєр убачає в цьому наслідки відсутності використання технік інформаційних наук та наукових методів, таких як опитування та громадські архіви. Точна журналістика, яку застосовували в 1960-ті, використовувалася для представлення груп меншості та їхніх повідомлень. За Мейєром:

«Точна журналістика була способом розширити інструментарій репортера так, щоб раніше недоступні теми, або лише згрубша доступні, могли стати темою ретельного журналістського розгляду. Це було особливо корисним задля того, щоб почути голос меншості та груп інакомислячих, які боролися за право бути представленими в ЗМІ».

Впливова стаття, опублікована в 1980-ті й присвячена стосункам між журналістикою та соціальними науками, є відлунням сучасного дискурсу навколо журналістики даних. Автори, два американські професори журналістики, стверджують, що в 1970-80-х роках розуміння громадськістю того, що таке новини, розширилося від обмеженої концепції «новина про подію» до «ситуаційного репортажу», чи висвітлення соціальних тенденцій. Використовуючи бази даних – наприклад, переписів населення чи соціологічних досліджень – журналісти спроможні «просунутися далі за повідомлення про окремі, ізольовані події й створити контекст, який надає цим подіям значення».

Як ми могли очікувати, практика використання даних для покращення репортажу є настільки давнім, як і саме поняття «дані». Як вказує Саймон Роджерс, перший приклад журналістики даних у газеті Guardian датований 1821 роком. Це наслідок витоку інформації - таблиця шкіл у Манчестері, де вказана кількість учнів, які їх відвідують, та вартість навчання в кожній школі. За Роджерсом, її оприлюднення допомогло вперше показати справжню кількість учнів, що отримували безкоштовну освіту, - вона була значно вищою, ніж це вказували офіційні цифри.

Ілюстрація 11. Журналістика даних у Guardian у 1821 (The Guardian)

Інший ранній приклад у Європі – це Флоренс Найтігейл та її головна публікація «Смертність у Британській армії», яка вийшла 1858 року. У своїй доповіді до парламенту вона використала графіку, щоб заохотити покращення служб охорони здоров’я в Британській армії. Найвідомішою є спіраль секцій, кожна з яких представляє кількість смертей протягом місяця, - вона показала, що переважна більшість смертей спричинена не кулями, а виліковними хворобами.

Ілюстрація 12. Смертність у Британській армії, за авторством Флоренс Найтінгейл (зображення з Вікіпедії)

Журналістика даних та комп’ютерна журналістика

Наразі існує дискусія на тему «тяглості та змін», що розгорнулася навколо терміну «журналістика даних» та його зв’язку з указаними вище попередніми журналістськими практиками, які застосовували обчислювальні методи задля аналізу наборів даних.

Дехто стверджує, що між КЖ та журналістикою даних існує відмінність. Вони кажуть, що КЖ – це технологія збору та аналізу даних, спрямована на покращення репортажу (зазвичай журналістського розслідування), натомість журналістика даних приділяє увагу тому, як дані можна включати до загального журналістського процесу. У цьому сенсі журналістка даних приділяє стільки ж – а іноді й більше – уваги даним як таким, аніж використанню цих даних лише для пошуку та покращення повідомлень. Ми бачимо, що в Guardian Datablog чи Texas Tribune дані публікуються поруч із статтями, або навіть окремо, самі по собі, щоб люди могли їх аналізувати та досліджувати.

Ще одна відмінність: у минулому журналісти, що вели розслідування, страждали від дефіциту інформації, пов’язаної з питанням, відповідь на яке вони намагалися знайти, або темою, до якої вони намагалися звернутися. І хоч це справді залишається проблемою, наразі існує величезний надлишок інформації, і журналісти не завжди знають, що з нею робити. Вони не знають, як отримати з даних цінність. Нещодавній приклад – це Об’єднана онлайнова інформаційна система, найбільша в Британії база даних із витрат – якої довго прагнули прихильники більшої прозорості, але яка після свого виходу загнала багатьох журналістів у ступор. Як мені нещодавно написав Філіп Мейєр: « Коли інформації було мало, більшість наших зусиль була спрямована на її пошук та збирання. Зараз інформації вдосталь, і обробка стає більш важливою».

З іншого боку, дехто доводить, що немає суттєвої відмінності між журналістикою даних та комп’ютерною журналістикою. Усім зараз зрозуміло, що навіть найсучасніші медійні практики мають свою історію, так само у них є і елемент новизни. І замість того, щоб сперечатися, чи є журналістика даних чимось цілком новим, більш плідний підхід – це розглядати її як частину давнішої традиції, але таку, що відповідає новим обставинам та умовам. Навіть якщо тут нема відмінності у техніках та завданнях, поява терміну «журналістика даних» на початку цього століття вказує на нову фазу, коли сам лише обсяг даних, вільно доступний в онлайні, у поєднанні з інструментарієм, орієнтованим на користувача, і засобами самостійної публікації та колективного фінансування дає змогу більшій кількості людей працювати з більшою кількістю даних так легко, як ще ніколи не було.

Журналістика даних – це масова грамотність щодо даних

Цифрові технології та веб фундаментально змінюють спосіб публікації інформації. Журналістика даних – це лише частина екосистеми інструментів та практик, що виникли навколо сайтів та сервісів, пов’язаних із даними. Цитування та поширення початкових матеріалів є природним для заснованої на гіперпосиланнях структури WWW та того способу, до якого ми зараз призвичаїлися, щоденно переглядаючи інформацію. Якщо відступити в минуле, то принцип, який лежить в основі гіпертекстової структури веб – це принцип цитування в наукових працях. Цитувати та поширювати інформацію з джерел та дані, що стоять за повідомленням, - це один із базових способів, за допомогою якого журналістика даних може покращити журналістику взагалі, - те, що засновник Вікілікс Джуліан Ассанж назвав «науковою журналістикою».

Надавши змогу усім охочим «копати» джерела даних та знаходити інформацію, яка для них є важливою, а заодно й перевіряти твердження та кидати виклик узвичаєним уявленням, журналістика даних ефективно представляє масову демократизацію джерел, інструментів, технік та методологій, які раніше використовувалися спеціалістами –репортерами-«розслідувальниками», соціальними науковцями, статистиками, аналітиками та іншими експертами. Хоч наразі цитування та лінки на джерела даних є особливою ознакою журналістики даних, ми просуваємося до світу, в якому дані «безшовно» інтегровані у саму тканину медіа. Журналістам даних належить важлива роль – допомогти знизити бар’єри на шляху до розуміння та звертання до даних, і збільшити «грамотність даних» своїх читачів у масових масштабах.

Наразі новопостала спільнота людей, які називають себе журналістами даних, суттєво відрізняється від більш «зрілої» спільноти КЖ. Сподіваємося, в майбутньому ми побачимо міцніші зв’язки між цими двома спільнотами, переважно в той самий спосіб, у який зараз нові неурядові організації та організації громадських медіа на зразок ProPublica чи Бюро журналістських розслідувань працюють пліч-о-пліч із традиційними ЗМІ чи проектами журналістських розслідувань. І хоч спільнота журналістів даних може володіти більш інноваційними способами представлення даних та пов’язаних з ними історій, глибоко аналітичний та критичний підхід, властивий спільноті КЖ, є тим, чому журналістиці даних напевне слід було б повчитися.

Ліліана Бунегру, Європейський центр журналістики

Переклад здійснено за підтримки фонду "Відродження"

У ньюсрумі

Як журналістика даних проникає в ньюсруми по всьому світі? Як провідні журналісти даних переконують своїх колег, що це гарна ідея – публікувати набори даних або розробляти програмні додатки, що базуються на роботі з даними? Чи слід журналістам учитися програмуванню, чи краще працювати в тандемі з талановитими програмістами? У цьому розділі ми розглянемо роль, яку виконують дані та журналістика даних у Australian Broadcasting Corporation, BBC, Chicago Tribune, Guardian та у Zeit Online. Ми навчимося, як помічати та наймати якісних розробників, як залучати до теми людей за допомогою хакатонів (hackathons) та інших заходів, як співпрацювати «через кордони», і які є бізнесові моделі для журналістики даних.

Як журналістика даних спрацювала в ABC

Нинішній рік – 70-й в історії Australian Broadcasting Corporation, національної телерадіокомпанії Австралії. Її щорічний бюджет складає близько AUS$1 мільярд, вона включає сім радіомереж, 60 місцевих радіостанцій, три цифрових телеканали, новий міжнародний телеканал та онлайнова платформа для розповсюдження цифрового та згенерованого користувачами контенту, обсяги якого постійно зростають. За останніми оцінками, у ній працювали понад 4500 співробітників на повній ставці, і близько 70% з них створювали контент.

Ми - національна медійна компанія, яка дуже пишається своєю незалежністю – бо попри те, що нас фінансує уряд, ми за законом повністю відокремлені від нього. Наші традиції – це незалежна громадянська журналістика. Вважають, що ABC серед усіх медійних організацій користується найбільшою довірою в країні.

Зараз цікаві часи, і за керівництва управляючого директора – колишнього керівника газети Марка Скотта – творці контенту в ABC заохочуються, як це формулює наша корпоративна мантра, бути «спритними».

Авжеж, це легше сказати, аніж зробити.

Але однією з нещодавніх ініціатив, розроблених для такого заохочення, стало фінансування на конкурентній основі розробки мультиплатформенних проектів.

Десь на початку 2010 року я прийшов на зустріч із трьома керівниками, відповідальними за «ідеї», - поговорити про мою пропозицію.

Я обдумував її протягом певного часу. Я жадібно ловив інформацію про журналістику даних, яку постачав тепер вже легендарний блог Guardian, і це було тільки початком.

Я доводив, що без сумніву, через 5 років у ABC буде власний підрозділ із журналістики даних. Це неминуче, стверджував я. Але питання було в тому, як ми це зробимо, і хто це все почне.

Читачі, незнайомі з «кухнею» ABC, можуть уявити собі розлогу бюрократію, яка розбудовувала себе протягом 70 років. Її першочерговим продуктом завжди було радіо та телебачення. З появою онлайну в минулому десятилітті ця пропозиція контенту розгорнулася в тексти, зображення і забезпечила такий рівень інтерактивності, якого раніше не можна було навіть уявити. Веб-простір змушував АВС переосмислювати те, як їй тепер «нарізати торт» (розподіляти гроші), і який саме торт наразі «випікався» (тобто, контент).

Зрозуміло, що це все відбувалося поетапно.

Але з журналістикою даних відбулося дещо інше. Новий вид громадського урядування, т.зв. Government 2.0 (що, як ми виявили, в Австралії не дуже розвинений) почав пропонувати нові способи подання історій, до недавнього часу похованих у звалищах одиниць та нулів.

Все це я сказав тим хлопцям під час зустрічі. Я також сказав, що нам треба визначити нові фахові уміння, навчити журналістів користуватися новими інструментами. Нам потрібен проект, що зіграє.

І вони дали мені гроші.

24 листопада 2011 року мультиплатформенний проект АВС та ABC News Online вийшли з проектом «Газ вугільних пластів – у цифрах»

Ілюстрація 13. «Газ вугільних пластів – у цифрах» (ABC News Online)

Це були п’ять сторінок з інтерактивними картами, візуалізацією даних та текстом.

Це була не лише журналістика даних, але гібрид різних видів журналістики, що постав із суміші людей у команді та історій, які в цьому контексті є однією з найгостріших тем у Австралії.

«Родзинкою» стала інтерактивна карта, що показувала свердловини та території видобутку газу вугільних пластів. Користувачі могли вести пошук за місцем, і перемикатися між режимами показу свердловин та територій. Збільшивши масштаб, користувачі могли побачити, хто веде видобуток, статус свердловини та дату, коли її пробурили. Інша карта показувала місця активного видобутку газу вугільних пластів порівняно з місцезнаходженням грунтових вод у Австралії.

Ілюстрація 14. Інтерактивна карта газових свердловин та територій видобутку в Австралії (ABC News Online)

Ми створили візуалізацію даних, окремо присвячену темі засолювання та заводнення, в залежності від певного сценарію розвитку.

Інша частина проекту досліджувала потрапляння хімікатів до місцевої річкової системи.

Наша команда:

• Веб-програміст та дизайнер
• Провідний журналіст

• Дослідник на півставки з досвідом обробки даних, роботи з електронними таблицями в Excel та методики очистки даних

• Молодший журналіст на півставки

• Виконавчий продюсер-консультант

• Науковий консультант із досвідом обробки даних,графічної візуалізації, що мав поглиблені дослідницькі вміння

• Послуги керівника проекту та адміністративної підтримки надав багатоплатформенний підрозділ АВС

• Що важливо, у нас також була консультативна група з журналістів та інші люди, в яких ми консультувалися при потребі.

Звідки ми брали дані?

Дані для інтерактивних мап ми «нашкребли» з шейп-файлів (це типовий тип файлів для відображення геопросторових даних), завантажених з урядових веб-сайтів.

Решту даних щодо солі та води було взято з різноманітних звітів.

Дані про хімічні викиди були отримані з екологічних дозволів, наданих урядом.

Чого ми навчилися?

«Газ вугільних пластів – у цифрах» був амбіційним як за змістом, так і за масштабом. Найголовнішим для мене було ось що: чого ми навчилися і як ми могли б зробити це в інший спосіб наступного разу?

Проект із журналістики даних зібрав у одній кімнаті багато людей, які зазвичай не перетинаються в АВС. Простіше кажучи – журналюг і хакерів. У багатьох із нас не було спільної мови, або ж ми навіть не могли оцінити працю іншого. Журналістика даних руйнує бар’єри!

Практичні моменти:

- Спільне розташування команди є життєво необхідним. Наш програміст та дизайнер працювали деінде й приходили на наради. Це однозначно не є оптимальним! Садіть їх у тій же кімнаті, де й журналістів.
- Наш виконавчий продюсер-консультант перебував на іншому поверху приміщення. Нам слід було знаходитися ближче, щоб можна було заходити один до одного.
- Обирайте таку тему історії, яка повністю пов’язана з даними.

Велика картина: деякі ідеї

Великі медійні організації повинні розширювати штат, щоб впоратися з викликами журналістики даних. Мої відчуття: у технічних департаментах ЗМІ повно фанатиків програмування та хакерів, які тільки й чекають, щоб їм дали волю. Нам потрібні семінари «журналюг та хакерів», де приховані технофанати, молодші журналісти, веб-програмісти та дизайнери могли б зустрічатися з більш досвідченими журналістами задля обміну навиками та спільної роботи. Завдання: ану завантаж цей набір даних, і вперед!

В силу самого факту журналістика даних є міждисциплінарною. Команди із журналістики даних складаються з людей, які б у минулому не працювали разом. Цифровий простір розмив бар’єри.

Ми живемо у розділеному світі, сповненому недовіри. Бізнесова модель, яка формально створила професійну незалежну журналістику – з усіма її недосконалостями – перебуває на межі колапсу. Ми маємо запитати себе – як це багато хто уже робить – а що це за світ буде без реальної четвертої влади? Американський журналіст та інтелектуал Уолтер Ліппман зауважив у 1920-тих роках: «вважається, що якісна громадська думка не може існувати без доступу до новин». Це твердження зараз не втратило своєї правоти. У 21 столітті усі зависають у блогосфері. Важко відрізнити, де тут фантазери, брехуни, лицеміри та зацікавлені групи, а де професійні журналісти. Фактично будь-який сайт чи джерело можна зробити такими, що вони виглядатимуть вартими довіри, симпатичними та чесними. Традиційні взірці достовірності помирають у канаві. У цьому новому просторі неякісної журналістики читача можна безкінечно посилати за допомогою гіперлінків до інших, ще більш нікчемних, але чудових на вигляд джерел, які перетворюють сам принцип гіперлінків на цифровий «дзеркальний лабіринт». Є технічний термін для цього явища: дурниці збивають з пантелику. У цифровому просторі кожен зараз є оповідачем – так же? Не так. Якщо професійна журналістика – і під цим я маю на увазі тих, хто створює етичні, збалансовані, мужні, правдиві історії – хоче вижити, тоді це ремесло має ствердити себе в цифровому просторі. Журналістика даних – ще один інструмент, за допомогою якого ми можемо пересуватися цифровим простором. Це тут ми можемо окреслити, проглянути, відсортувати, профільтрувати, вирізнити та побачити розповідь серед усіх цих нулів та одиниць. У майбутньому ми працюватимемо пліч-о-пліч із хакерами, програмістами, дизайнерами та кодерами. Цей перехід вимагає серйозної розбудови штатів. Нам потрібні управлінці, які усвідомили зв’язок між цифровим світом та журналістикою і починають інвестувати кошти в його розбудову.

Венді Карлайл, Australian Broadcasting Corporation

Переклад здійснено за підтримки фонду "Відродження"

Журналістика даних у ВВС

Термін «журналістика даних» може позначати низку дисциплін, і його по-різному вживають у ЗМІ, тому корисно буде навести визначення того, що ми розуміємо під «журналістикою даних» у ВВС.

В ширшому сенсі цей термін позначає проекти, що використовують дані для таких-от завдань – одного чи кількох:

• Дати змогу читачу знайти інформацію, яка стосується його особисто
• Виявити вражаючу тему, яку до цього ніхто не знав
• Допомогти читачеві краще зрозуміти складну тему

Ілюстрація 15.Світ семи мільярдів (BBC)

Ці категорії можуть перетинатися, і в онлайновому середовищі їх часто можна певною мірою візуалізувати.

Це стосується вас особисто

На сайті BBC News ми понад десять років використовували дані, щоб надати послуги та інструментарій нашим читачам.

Найбільш характерним прикладом, який ми вперше опублікували в 1999 році, є наша таблиця шкільних рейтингів, де використані дані, які щорічно оприлюднює влада. Читачі можуть увести свій поштовий індекс і знайти місцеві школи та порівняти їх за низкою індикаторів. Журналісти-"освітяни" також працюють із командою розробників, щоб знаходити дані для статей заздалегідь, ще до оприлюднення рейтингу.

Коли ми почали це робити, не існувало жодного офіційного сайту, який дозволяв би громадськості дізнаватися щось із цих даних Але зараз у міністерстві освіти є власний аналогічний сервіс, і наша пропозиція змінилася, зосередившись більше на тих сюжетах, які постають із цих даних.

Викликом у цій галузі має стати надання доступу до даних, які користуються явним інтересом громадськості. Нещодавній приклад проекту, де ми оприлюднили великий масив даних, який зазвичай не є доступним широкій публіці, - це спеціальний звіт «Всі смерті на всіх дорогах». Ми створили систему пошуку за поштовими індексами, яка дає змогу користувачам знайти місця усіх ДТП з летальними наслідками у Великобританії, що сталися протягом минулого десятиліття.

Ми візуалізували деякі з основних фактів та цифр, що виникли з наданих поліцією даних, і щоб надати проектові більшої динамічності та «людяності», ми разом із Лондонською асоціацією швидкої допомоги, телебаченням та радіо ВВС Лондон відстежуємо аварії в столиці відразу, як тільки вони трапляються. На цю тему йде трансляція наживо, а також через Твіттер за допомогою хеш-тегу #crash24, і місця зіткнень наносяться на карту, як тільки про них повідомляють.

Прості інструменти

Опріч методики дослідження великих масивів даних, ми також успішно створили прості користувацькі інструменти, що надають фрагменти інформації, які мають персональне значення. Ці інструменти розраховані на людей, у яких мало вільного часу і які не захотіли б мати справу з тривалим аналізом. Спроможність швидко ділитися «особистим» фактом – це та річ, яку ми почали розглядати як стандарт.

Необтяжливий зразок такого підходу – це наш проект «Світ семи мільярдів: а який ваш номер?», оприлюднення якого співпало з офіційною датою, коли населення світу перевищило сім мільярдів. Увівши дату народження, користувач може дізнатися, який «номер» належить саме йому, - це визначається на основі чисельності населення та дати його народження, - і оприлюднити цей номер у Твіттері чи Фейсбуку. Дані для програми надав Фонд з розвитку населення при ООН. Вона була дуже популярною і лінк на неї став найбільш поширюваним лінком на Фейсбуку в Британії у 2011 році.

Ще один свіжий приклад – це калькулятор бюджету, який дає користувачам змогу дізнатися, наскільки покращаться чи погіршаться їхні справи після вступу в силу нового урядового бюджету – і поділитися цією цифрою. Ми створили команду з аудиторською фірмою KPMG LLP, яка надала нам обрахунки, складені на основі щорічного бюджету, і потім старанно працювали над створенням привабливого інтерфейсу, який заохотив би користувачів виконати це завдання.

Копати дані

Але де ж у цьому всьому журналістика? Пошук сюжетів у масивах даних – це більш традиційне визначення журналістики даних. Чи приховують бази даних ексклюзив? Чи є цифри точними? Вони підтверджують чи спростовують проблему? Всі ці питання журналіст даних чи комп’ютерний журналіст мусить поставити самому собі. Але можна суттєво скоротити кількість часу, потрібну на просіювання великого набору даних у пошуках чогось визначного.

У цій сфері ми виявили, що найбільш продуктивний спосіб –це партнерство з командами журналістів чи програм, що ведуть розслідування і мають досвід та час на дослідження теми. Програма ВВС «Панорама» місяцями працювала спільно з Центром журналістських розслідувань, збираючи дані про заробітну платню в державному секторі. Результатом став документальний телефільм та спеціальний онлайновий звіт «Зарплатня державного сектору в цифрах», де всі дані були оприлюднені та візуалізовані, включно з аналізом по кожному сектору.

Так само важливим, як партнерство із журналістами, що ведуть розслідування, є доступ до журналістів, що володіють фаховими знаннями. Коли колега-діловий журналіст із нашої команди проаналізував дані зі скорочення витрат, надані урядом, він прийшов до висновку що їх навмисне намагаються представити більшими, ніж вони є насправді. Результатом стала ексклюзивна публікація «Шукаючи сенс у даних», доповнена наочною візуалізацією, яка отримала нагороду Королівського статистичного товариства.

Розуміти проблему

Але журналістика даних не повинна зводитися суто до ексклюзивів, яких раніше ніхто не помічав. Робота команди з візуалізації даних полягає в тому, щоб поєднати ефектний дизайн зі зрозумілою редакційною розповіддю, і тим самим надати користувачу вичерпне представлення. Візуалізація якісних даних може застосовуватися для кращого розуміння проблеми чи статті, і ми часто використовуємо цей підхід під час підготовки сюжетів для ВВС. Використання методу теплокарти для показу даних, що змінюються з часом, дає чітке уявлення про зміну ситуації, - це техніка, яку ми використали для візуалізації обсягу людей, що отримують допомогу з безробіття.

Дані, що відтворюють «павутину боргів» у Єврозоні , досліджують заплутану мережу міждержавних позик. Це допомагає пояснити складну тему за допомогою графіки, використовуючи кольори та пропорційні стрілки в поєднанні з чітким текстом. Важлива ідея полягає в тому, щоб заохотити користувача до застосування цього інструмента або до сприйняття розповіді, і при цьому жодним чином не перевантажити його цифрами.

Огляд команди

Команда, що створює журналістику даних для веб-сайту BBC News, складається з близько 20 журналістів, дизайнерів та програмістів.

Поруч із проектами аналізу даних та візуалізаціями, команда розробляє всю інфографіку та інтерактивні мультимедійні засоби для сайту новин. Разом це складає набір технік із донесення сюжетів, які ми називаємо «візуальною журналістикою». У нас нема людей, які особливо визначені як «журналісти даних», але редакційний штат команди має бути компетентним щодо використання базових електронних таблиць (наприклад, у Excel чи Google Docs) задля аналізу даних

У центрі будь-яких проектів, пов’язаних із даними, є технічні вміння та поради наших програмістів, а також навички з візуалізації наших дизайнерів. І хоч кожен із нас є або журналістом, або дизайнером, або програмістом, ми продовжуємо ретельно працювати над тим, щоб збільшити наше розуміння та компетентність у фахових галузях один одного.

Основними програмними продуктами дослідження даних є Excel, Google Docs та Fusion Tables. Наша команда також, хоч і меншою мірою, використовує бази даних MySQL та Access databases, пошуковий механізм Solr для аналізу великих наборів даних, використовувала RDF та SPARQL задля пошуку способів моделювання подій за допомогою технологій Linked Data. Програмісти використовують мови програмування на їхній смак, чи то ActionScript, чи Python, чи Perl, щоб порівнювати, аналізувати чи робити розбір наборів даних, над якими ми працюємо. Для деяких публікацій ми використовуємо Perl.

Ми застосовуємо карти Google та Bing Maps і Google Earth разом із Esri ArcMAP для вивчення та візуалізації географічних даних.

Графіку ми створюємо у Adobe Suite, включно з After Effects, Illustrator, Photoshop та Flash, хоч ми рідко ставимо на сайт файли у форматі флеш, тому що наразі JavaScript, особливо JQuery, та інші бібліотеки JavaScript libraries на кшталт Highcharts, Raphael та D3 достатньо задовольняють наші потреби під час створення візуалізацій.

Белла Харрелл та Ендрю Леймдорфер, BBC

Переклад здійснено за підтримки фонду "Відродження"

Як працює команда журналістів-програмістів у Chicago Tribune

Команда програмістів, що створюють «журналістські» програми у Chicago Tribune – це компашка щасливих хакерів, інтегрована в ньюсрум. Ми тісно співпрацюємо з редакторами та репортерами, допомагаючи їм: (1) досліджувати сюжети та відписуватися по них, (2) робити онлайн-ілюстрації до публікацій і (3) створювати епохальні веб-ресурси для добрих людей із Чикагщини.

Ілюстрація 16. Команда розробників «журналістських» програм у Chicago Tribune (Фото Брайяна Боєра)

Це важливо, що ми працюємо саме в ньюсрумі. Ми зазвичай знаходимо для себе роботу під час безпосереднього спілкування з журналістами. Вони знають, що ми будемо щасливі допомогти їм написати програму вилучення даних із неоковирного урядового вебсайту, розібрати на складники купу PDF-файлів, або у якийсь інший спосіб перетворити не-дані на те, що можна аналізувати. У такий спосіб ми дізнаємося про потенційні проекти журналістики даних ще на початковому етапі.

На відміну від багатьох інших команд, що працюють у цій галузі, нашу команду створили технарі, для яких журналістика означала зміну фаху. Дехто з нас отримав магістерський диплом після декількох років програмування для бізнесових потреб, а інших ми залучили зі спільноти прихильників відкритого урядування.

Ми працюємо оперативно. Щоб переконатися, що в нас завжди є контакт один з одним, щоранку ми проводимо 5-хвилинну планерку. Ми часто програмуємо парами – два програмісти за однією клавіатурою часто продуктивніші, ніж два програмісти за двома клавіатурами. На більшість проектів йде не більше тижня, але під час роботи над тривалішими проектами ми працюємо тижневими «порціями» і показуємо нашу роботу зацікавленій стороні – зазвичай це репортери та редактори – щотижня.

Наша мантра – це «помиляйся якнайшвидше». Якщо ти щось робиш не так, про це треба дізнатися якомога швидше, особливо якщо програмуєш під дедлайн!

У програмуванні все нових і нових завдань під дедлайн є потрясний аспект: ми завжди поповнюємо наш інструментарій. Щотижня ми створюємо програму чи дві, і після цього, на відміну від нормальних програмістських команд, ми можемо відкласти їх на задній план і розпочати наступний проект. Це та радість, яку ми ділимо навпіл із репортерами – щотижня ми дізнаємося про щось нове.

Усі ідеї програм надходять від репортерів та редакторів у ньюсрумі. Це, я вважаю, відрізняє нас від команд у інших ньюсрумах, які часто самі генерують ідеї. Ми розбудували міцні особисті та професійні стосунки із журналістами, і ці хлопці знають: якщо в них є дані, їм треба йти до нас.

Більшість нашої роботи в ньюсрумі – це підтримка журналістів. Ми допомагаємо журналістам вести «розкопки» даних, перетворювати файли PDF назад у таблиці, «розбирати на дані» вебсайти тощо. Це сервіс, який нам подобається надавати, бо він ще на ранніх етапах долучає нас до роботи з даними, яка відбувається в ньюсрумі. Деякі подібні роботи стають журналістськими програмами – картою, таблицею, часом навіть більшим вебсайтом.

На початку ми робили лінк на програму з написаної статті, що в результаті не генерувало багато трафіку. Наразі ж програмні додатки знаходяться у верхній частині вебсайту, а лінки з них ведуть на статтю, що йде на користь як для програми, так і для статті. Для наших робіт на вебсайті є окремий розділ, але трафік на нього не дуже активний. Але це й не дивно. Ситуація «Агов, сьогодні мені потрібні такі-от дані» насправді трапляється нечасто.

Нам подобається, коли завдяки нам зростає перегляд сторінок чи коли нас хвалять колеги, але це не головне. Наша мотивація – це той вплив, який має наша робота - на життя людей, на закони, на політиків тощо. Писана стаття називає тренд і «розбавляє» його кількома сюжетами. Але що читачу з цього, коли він закінчив її читати? Чи його родина у безпеці? Чи його дітей вчать як слід? Наша робота влучає в ціль, коли вона допомагає читачеві знайти в даних свій власний сюжет. Приклади таких впливових, персоналізованих розробок, виконаних нами, включають програмні додатки «Чи безпечними є будинки престарілих» та «Аналіз ситуації в школах».

Брайян Боєр, Chicago Tribune

Переклад здійснено за підтримки фонду "Відродження"

За лаштунками The Guardian Datablog

Коли ми запускали Datablog, ми не мали уявлення про те, кого можуть зацікавити «сирі» дані, статистика та візуалізації. Як сказав один із босів у нашій організації: «А навіщо це комусь буде потрібно?»

Ілюстрація 17. Візуалізація процесу створення The Guardian Datablog

Проект The Guardian Datablog — редактором якого я є — свого часу був маленьким блогом, що містив повні масиви даних, пов’язаних із нашими публікаціями. Зараз він складається з головної сторінки (guardian.co.uk/data); пошукових механізмів, пов’язаних із даними про світове урядування та глобальний розвиток; візуалізації даних з Інтернету та графічні роботи від Guardian, та інструменти для дослідження даних із державних витрат. Кожного дня ми використовуємо електронні таблиці Google, щоб поширювати повний набір даних, на основі якого виконані наші роботи; ми візуалізуємо та аналізуємо ці дані, а тоді використовуємо їх як джерело тем публікацій для газети й сайту.

Оскільки я - редактор та журналіст, що працює з графікою, для мене це було логічним продовженням роботи, яку я вже виконував, - збирати нові масиви даних та возитися з ними, намагаючись знайти сенс у поточних новинах дня.

Запитання, поставлене мені, отримало відповідь. Це були неймовірні кілька років для оприлюднення урядових даних. Обама відкрив дані уряду США в якості свого першого президентського указу, цьому прикладу наслідували інші урядові сайти цілого світу – Австралія, Нова Зеландя, уряд Британії на сайті Data.gov.uk.

У нас був скандал із витратами парламентарів – найбільш неочікуваний приклад британської журналістики даних – і його наслідками стало те, що Вестмінстер зараз зобов’язаний щорічно публікувати колосальні обсяги даних.

У нас пройшли загальні вибори, де кожна з провідних політичних сил заявляла про підтримку прозорості даних, відкриваючи перед світом власні бази даних. Наші газети присвячували дорогоцінні площі своїх колонок оприлюдненню бази даних Мінфіну COINS.

У той самий час, коли Інтернет постачає все більші й більші обсяги даних, читачі з усього світу більше ніж будь-коли цікавляться сирими фактами, на яких базуються новини. Коли ми запускали Datablog, то думали, що нашою аудиторією будуть програмісти. Насправді не програмісти, а звичайні люди хочуть більше знати про викиди оксиду вуглецю, чи еміграцію зі Східної Європи, чи спалах смертності в Афганістані – чи просто кількість вживань слова «love» у текстах пісень «Бітлз» (613 разів).

Поступово Datablog став відображати та доповнювати наші сюжети. Ми спільно роздобули 458 тисяч документів, пов’язаних із витратами парламентарів, і проаналізували детальні дані, подані депутатами. Ми допомогли нашим користувачам детально дослідити базу даних витрат Міністерства фінансів, і публікували дані, на яких базувалися наші новини.

Але радикальний поворот у журналістиці даних відбувся навесні 2010 року з однієї таблиці: 92201 рядок даних, кожен із яких описував у деталях певну військову подію в Афганістані. Це були бази даних війни, оприлюднені WikiLeaks. Це – частина перша. Далі були ще два епізоди – Ірак та дипломатичні телеграми. Офіційна назва двох перших частин – SIGACTS, база даних важливих бойових подій у армії США.

У ЗМІ найважливіше – це географія та близькість до відділу новин. Якщо ви поруч, то неважко пропонувати сюжети та стати частиною процесу; і навпаки, якщо, їхнє око вас не бачить в буквальному сенсі – то й серце в них не болить. До появи Wikileaks ми сиділи на різних поверхах, із художниками. Після Wikileaks ми сидимо на одному поверсі, поруч із відділом новин. Це означає, що для нас стало легше пропонувати новинарям ідеї, а журналісти з ньюсруму розраховують на нашу допомогу при підготовці своїх публікацій.

Не так давно журналісти контролювали доступ до офіційних даних. Ми писали статті на основі цифр та пропонували їх вдячній публіці, яка не цікавилася сирою статистикою. Ідея допуску сирої інформації в газети була анафемою.

Зараз ця динаміка змінилася до непізнаваності. Ми виконуємо нову роль - інтерпретаторів, які допомагають людям зрозуміти дані – і навіть просто публікують ці дані, бо вони цікаві самі по собі.

Але цифри без аналізу – це лише цифри, і тут ми починаємо діяти. Коли британський прем’єр заявив, що заворушення в серпні 2011 року не були пов’язані з бідністю, ми змогли додати до звернень протестувальників індикатори бідності, щоб показати, наскільки правдивим було твердження влади.

За всіма нашими публікаціями в сфері журналістики даних перебуває певний процес. Він постійно змінюється, застосовуються нові інструменти та техніки. Дехто каже, що вихід – це стати таким собі суперхакером, писати код та занурюватися в систему управління базами даних SQL. Ви можете вирішити піти цим шляхом. Але багато з того, що ми робимо, це простий Excel.

Для початку, ми знаходимо дані або отримуємо їх із різних джерел: найсвіжіших новин, урядових даних, журналістських розслідувань тощо. Після цього ми дивимося, що можна зробити з цими даними – чи потрібно скомбінувати їх з іншим масивом даних? Як відобразити зміни даних у часі? Ці таблиці часто потребують серйозного очищення – всі ці «зовнішні» колонки та хитромудро пов’язані клітини насправді створюють клопіт. І це якщо мова йде не про PDF – найгірший формат даних, відомий людству.

Офіційні дані часто містять власні коди: кожна школа, лікарня, виборчий округ чи орган місцевої влади мають унікальний код-ідентифікатор.

У країн вони теж є (до речі, код Великобританії – це GB). Ці коди корисні, бо дають змогу поєднувати різні набори даних, і просто вражає, скільки різноманітних відмінностей у правописі чи слововживанні ви помічаєте в процесі. Наприклад, є Бірма та М’янма, або округ Фаєтт у США – їх аж одинадцять у штатах у проміжку від Джорджії до Західної Вірджинії. За допомогою кодів можна порівнювати порівнюване.

Наприкінці цього процесу ви обираєте спосіб кінцевого представлення: це буде стаття чи інфографіка або візуалізація, і які для цього будуть застосовані інструменти? Наші головні інструменти – це безкоштовні засоби, за допомогою яких можна швидко щось зробити. Більш складну графіку створює наша команда розробників.

Це означає, що зазвичай ми використовуємо таблиці Google charts для невеликих лінійних графіків та секторних діаграм, або Google Fusion Tables, щоб легко та швидко створити карти.

Комусь може здатися, що це новий підхід. Насправді ж ні.

У найпершому числі Manchester Guardian, що вийшла в неділю, 5 травня 1821 року, новини були на звороті сторінки, як в усіх тогочасних газетах. Головним елементом на першій сторінці була реклама про розшук пса-лабрадора.

І посеред статей та поетичних уривків третину тієї сторінки на звороті займають, гм, факти. Таблиця повної вартості навчання в місцевих школах, яку «ніколи не бачила публіка», пише якийсь “NH”.

“NH” хотів, щоб його дані були опубліковані, бо інакше ці факти лишилися б на поталу недосвідчених клерків. Його мотиви: «Ця інформація та її зміст є цінною тому, що без знань про рівень вартості освіти навіть найкращі уявлення про умови та майбутній прогрес суспільства обов’язково будуть некоректними». Інакше кажучи, якщо люди не знають, що відбувається навколо, як суспільство може стати кращим?

Я не можу навести кращого пояснення тому, заради чого ми намагаємося робити нашу справу. І те повідомлення, що колись знаходилося на останніх сторінках газети, зараз може стати новиною на першій шпальті.

Саймон Роджерс, The Guardian

Переклад здійснено за підтримки фонду "Відродження"

Журналістика даних у Zeit Online

Проект «Порівняння достатку» - це інтерактивна візуалізація, що дає змогу зіставляти стандарти життя у різних країнах. Вона використовує дані з доповіді Організації економічного співробітництва та розвитку на тему повномасштабної рейтингової оцінки рівня освіти (PISA 2009), опублікованої у грудні 2010 року. Доповідь використовує дані соціологічного опитування, у якому 15-річних школярів запитували про обставини їхнього домашнього життя.

Ілюстрація 18. Порівняння достатку різних країн на основі доповіді PISA (Zeit Online)

Ідея полягала в тому, щоб проаналізувати та візуалізувати ці дані, отримавши тим самим унікальний спосіб порівняння стандартів життя у різних країнах.

Найперше наша «внутрішня» редакційна команда вирішила, які факти є корисними для порівняння життєвих стандартів, і тому варті візуалізації, а саме:

• Достаток (кількість телевізорів у помешканні, машин та ванних кімнат у будинку)

• Родинна ситуація (чи дідусь і бабуся живуть разом із родиною, процент родин із лише однією дитиною, безробіття батьків, статус працевлаштування матері)

• Джерела доступу до знань (Інтернет вдома, частота використання електронної пошти, кількість книжок у власності родини)

• Три додаткові індикатори, що вказують на рівень розвитку країни.

Із допомогою нашої внутрішньої дизайнерської команди ці факти були перетворені у інтуїтивно зрозумілі зображення-іконки. Дизайн інтерфейсу розроблявся так, щоб порівняння між іншими країнами було схожим на гру в карти.

На наступному етапі ми зв’язалися з представниками Мережі Відкритих Даних Німеччини (German Open Data Network), щоб знайти програмістів, спроможних надати допомогу в цьому проекті. Ця спільнота високомотивованих людей запропонувала кандидатуру Грегора Айша, дуже талановитого інформаційного дизайнера, написати програму, яка стане втіленням наших мрій (без використання формату «флеш», що було для нас дуже важливо!). Грегор створив високоякісну та інтерактивну візуалізацію у красивому «бульбашковому стилі», використавши бібліотеку Raphaël-Javascript.

Результатом нашої співпраці стала дуже успішна інтерактивна візуалізація, яка отримала багато трафіку. З її допомогою нескладно порівняти будь-які дві країни, що робить їх корисним довідковим інструментом. Це означає, що ми можемо використовувати її у наші повсякденній редакційній роботі. Наприклад, якщо ми пишемо щось про рівень життя в Індонезії, ми можемо швидко й легко додати графіку, що порівнює життєві умови в Індонезії та Німеччині. Це ноу-хау, передане нашій внутрішній команді, стало значною інвестицією в майбутні проекти.

У Zeit Online ми виявили, що наші проекти з журналістики даних привернули до нас значний трафік та допомогли по-новому залучати аудиторію. Наприклад, було широке висвітлення ситуації на АЕС у Фукушимі після цунамі в Японії. Після того, як стався витік радіоактивних матеріалів з АЕС, усі в радіусі 30 км від станції були евакуйовані. Люди могли багато що прочитати та подивитися про цю евакуацію.

Zeit Online знайшов інноваційний спосіб подачі цієї інформації так, щоб вона вплинула на німецьку аудиторію. Ми запитали: скільки людей мешкає навколо німецьких АЕС? Скільки живе в радіусі 30 км? Карта показує, скільки людей були б евакуйовані у разі подібної ситуації в Німеччині. Результат – маса трафіку, проект отримав вірусне поширення у соціальних мережах. Журналістику даних порівняно легко адаптувати до інших мов. Ми створили англійську версію про життя поблизу АЕС у США, яка стала потужним генератором трафіку. ЗМІ хочуть, щоб читачі трактували їх як об’єктивне та впливове джерело інформації. Ми виявили, що проекти з журналістики даних, разом із наданою нашим читачам можливістю самостійно переглянути та використати джерела наших даних, забезпечили нам високий рівень довіри.

Протягом двох років наш дослідницький підрозділ та головний редактор Zeit Online, Вольфганг Блау, заохочували використання журналістики даних у якості важливого способу подання сюжетів. Прозорість, рівень довіри та залучення користувача – важливі частини нашої філософії. Ось чому журналістика даних – це природна частина нашої поточної та майбутньої діяльності. Візуалізації даних можуть створити додану вартість у сприйнятті статті, і є привабливим для всієї редакційної команди способом представлення контенту.

Наприклад, 9 листопада 2011 року Deutsche Bank зобов’язався припинити фінансування виробників кластер них бомб. Але як свідчить дослідження неприбуткової організації Facing Finance, банк продовжував підтверджувати позики виробникам кластерних боєзарядів і після даної ним обіцянки. Наша візуалізація, заснована на цих даних, показує нашим читачам різноманітні потоки даних. Різні підрозділи компанії Deutsche Bank розміщені нагорі, а компанії, звинувачені в участі у розробці кластерних боєзарядів, - унизу. Між ними – лінійка часу, де представлені позики приватним особам. Перехід по колах показує деталі кожної транзакції. Авжеж, цей сюжет можна було б подати у формі написаної статті. Але візуалізація дає нам нашим читачам змогу зрозуміти та дослідити фінансові взаємозалежності в більш інтуїтивний спосіб.

Ілюстрація 19. Бізнес на бомбах (Zeit Online)

Візьмемо інший приклад: Федеральна статистична служба Німеччини оприлюднила чудову базу даних про статистику населення Німеччини, разом із моделями різних демографічних сценаріїв аж до 2060 року. Типовий спосіб представлення таких даних – це т.зв. піраміда населення, така, як у Федеральної статистичної агенції.

Разом із колегами з департаменту науки ми спробували дати нашим читачам кращий спосіб дослідити прогноз щодо демографічних даних про наше майбутнє суспільство. У нашій візуалізації ми представили статистично репрезентативну групу із 40 осіб різного віку, в діапазоні від 1950 до 2060 року. Вони організовані у вісім різних груп. Це схоже на групове фото німецького суспільства у різні періоди часу. Ті ж дані, візуалізовані у формі традиційної піраміди населення, вельми абстрактно передають відчуття цієї ситуації, але група з дітьми, молодими людьми, дорослими та людьми літнього віку – це те, що дозволяє нашим читачам відчувати більший зв’язок із цими даними. Можна натиснути кнопку «Плей» і почати подорож через одинадцять поколінь. Можна також ввести власну дату народження та стать і долучитися до цього групового фото: побачити власну «демографічну подорож» через десятиліття та власну тривалість життя.

Саша Венор, Zeit Online

Переклад здійснено за підтримки фонду "Відродження"

Як найняти хакера

Одне з питань, яке мені регулярно ставлять журналісти: а де знайти програміста, щоб той допоміг у моєму прокеті? Не треба обманювати себе, вважаючи, що це односторонній процес: суспільно свідомі хакери та фахівці з аналізу даних частенько так само прагнуть вийти на зв’язок із журналістами.

Журналісти – це потужні користувачі інструментів та сервісів, спрямованих на роботу з даними. З точки зору програмістів, журналісти мислять «за межами стін», і використовують інструменти роботи з даними в такому контексті, про який програмісти до того й не думали (зворотний зв’язок – безцінна річ!); вони також допомагають створити контекст та привернути увагу до проектів і допомогти зробити їх релевантними. Це симбіотичні взаємини.

На щастя, це означає, що як тільки ви починаєте шукати, де б найняти хакера, або шукаєте потенційної співпраці в умовах обмеженого бюджету, дуже імовірно, що знайдеться хтось зацікавлений вам допомогти.

Тож як вам їх знаходити? Ось що каже Арон Пілхофер з New York Times

Ви можете виявити, що у вашій організації вже є люди з потрібними вам навичками, але вони не обов’язково сидітимуть в одному з вами приміщенні. Походіть навколо, відвідайте підрозділ технологій та ІТ, і ви, найімовірніше, влучите в яблучко. Важливо також шанувати культуру програмування, знайти когось із комп’ютером, що виглядає приблизно так:

… і найімовірніше, ви знайшли найкращого.

Ілюстрація 21. Почесні відзнаки: хакерів/кодерів зазвичай легко помітити

Ось іще кілька ідей:

Пишіть на веб-сайтах, де шукають роботу

Знайдіть веб-сайти, призначені для розробників, що використовують різні мови програмування, і пишіть там. Наприклад, на Python Job Board

Застосовуйте відповідні списки поштової розсилки

Наприклад, списки розсилки NICAR-L та Data Driven Journalism.

Зв’яжіться з відповідними організаціями

Наприклад, якщо ви хочете очистити чи «вичленувати» якісь дані з Інтернету, ви можете зв’язатися з організацією на кшталт Scraperwiki, у якої є розлогий список адрес перевірених та завзятих кодерів.

Вступіть до відповідних груп/мереж

Знайдіть ініціативи на кшталт Hacks/Hackers, які зводять разом журналістів та технарів. Групи Hacks/Hackers зараз постають по всьому світу. Ви можете також щось написати на їхній розсилці з пропозицією роботи.

Місцеві зацікавлені спільноти

Можна спробувати швидко пошукати фахівців у вашій галузі (наприклад, ‘javascript’ + ‘london’). Сайти на кшталт Meetup.com також можуть стати чудовою відправною точкою.

Хакатони (хакерські марафони) та змагання

Не має значення, чи пропонують учасникам грошовий приз: змагання з програмування та візуалізації та дні програмування зазвичай створюють плідне підґрунтя для співпраці та пошуку контактів.

Запитайте фанатика програмування

Фанатики тусуються з іншими фанатиками. Усний розголос – завжди гарний спосіб знайти правильних людей для співпраці.

Ви знайшли хакера, але як дізнатися, чи він справді крутий? Ми запитали Аластера Данта, провідного фахівця з інтерактивних технологій у Guardian, про його точку зору на те, як розпізнати гарного програміста:

Вони вміють програмувати усе
Коли маєш справу із дедлайном, краще бути майстром на всі руки, ніж вузьким профі. Програмування для ЗМІ потребує вмінь обробляти дані, створювати динамічну графіку та освоювати невідомі прийоми.

Вони бачать цілісну картину
Усеохопний спосіб мислення надає перевагу цінності розповіді, а не технічним деталям. Я б краще почув одну ноту, зіграну з почуттям, аніж холодну віртуозність. Встановіть, наскільки програміст щасливий, коли працює разом із дизайнером.

Вони вміють розповідати
Представлення інформації у формі розповіді вимагає упорядкування речей у часі та просторі. Дізнайтеся, якими проектами вони пишаються найбільше, і попросіть поетапно розповісти вам, як вони створювалися – це розкриє вам як їхні здібності до спілкування, так і розуміння технічних моментів.

Вони комунікабельні
Для того, щоб швидко щось зробити, потріна змішана команда, яка працює над спільною метою. Кожен її учасник повинен поважати колег та бути готовим з ними спілкуватися. Непередбачені перешкоди часто потребують швидкого перепланування та спільних компромісів.

Вони вчаться
Технології розвиваються швидко. Потрібні зусилля, щоб не відстати. У гарних програмістів з різним досвідом, яких я зустрічав, була типова спільна риса – це готовність при потребі вивчити щось нове.

Люсі Чемберс, фундація Open Knowledge

Як знайти програміста вашої мрії

Відмінність у продуктивності праці якісного та видатного програміста виражена не лінійно, а експоненційно. Правильний найм – це вкрай важливо. На жаль, правильний найм – це також украй складно. Оцінювати кандидатів, якщо ви не є досвідченим технічним менеджером, - це й так складно. Додайте до цього зарплатню, яку можуть платити медійні організації, і ось вам суттєва проблема.

У Tribune ми наймаємо програмістів, виходячи з двох кутів оцінювання: емоційні якості та технічні якості. Емоційні якості: журналістика є життєво необхідним компонентом дієвої демократії. Працюючи тут, ти можеш змінити світ. З технічної точки зору ми оцінюємо, скільки ви вивчаєте. У нас маленькі проекти, швидкі в розробці та багаторазово повторювані. Кожен проект потребує нового інструментарію, нової мови, нової теми (пожежна безпека, пенсійна система), і все це слід вивчити. Ньюсрум – це як горнило випробувань. Я ніколи не керував командою, яка вчила так багато і вчилася так швидко, як наша команда.

Щодо того, де шукати, то нам дуже пощастило знайти чудових хакерів у спільноті відкритого урядування. Список розсилки Sunlight Labs – це тут фанатики технологій і благодійники людства, які мають паршивеньку денну роботу, зависають ночами. Інший потенціальний ресурс – це Code for America. Щороку з CfA з’являється група хлопців у пошуках свого наступного великого проекту. І як бонус, у CfA жорсткий процес інтерв’ювання – вони вже провели кадровий відбір замість вас. У наші дні із журналістських шкіл також приходять журналісти, зацікавлені в програмуванні. Вони ще зелені, але в них великий потенціал.

Ну і насамкінець – замало просто найняти програмістів. Вам потрібен технічний менеджмент. Програміст-одинак (особливо якщо він тільки-но з школи журналістики й не має досвіду роботи в галузі) наробить багато помилок. Навіть найкращий програміст, залишений напризволяще зі своїми пристроями, зробить вибір на користь технічно цікавої роботи, а не того, що найбільш важливе для аудиторії. Назвіть це наймом редактора журналістського програмного забезпечення, керівника проекту, як завгодно. Так само як письменники, програмісти потребують редакторів, кураторства і когось, хто змусить їх написати програму до настання дедлайну.

Брайан Боєр, Chicago Tribune

Переклад здійснено за підтримки фонду "Відродження"

Як залучити зовнішніх експертів під час хакатонів (хакерських марафонів)

У березні 2010 року розташована в Утрехті організація цифрової культури під назвою SETUP провела захід під назвою «Хакерська журналістика». Захід було організовано з метою заохочення програмістів та журналістів до більшої співпраці.

Ілюстрація 22. Хакатони: як посилити співпрацю між журналістами та прогармістами SETUP (фото Хайнце Хавінга)

Ми проводимо хакатони (від Hacker Marathon, «хакерський марафон» - прим.), щоб писати круті програми, але ми не можемо виявити в масивах даних цікаві сюжети. Те, що ми створюємо, не має суспільної цінності», - кажуть програмісти. «Ми усвідомлюємо важливість журналістики даних, але в нас недостатньо вмінь для того, щоб створювати ті речі, які ми б хотіли створити», - кажуть журналісти.

Робота на регіональну газету не передбачає грошей чи грантів на найм програміста в редакційний штат. Журналістика даних на той час у Голландії була невідомою сутністю.

Модель хакатонів видалася нам ідеальною. Ненапружена атмосфера, сприятлива для співпраці, де багато піцци та напоїв-енергетиків. Хакатон під назвою RegioHack організував мій працедавець, регіональна газета De Stentor, наше братнє видання TC Tubantia та університет прикладних наук Saxion Hogescholen Enschede, який надав приміщення для цього заходу.

Порядок був таким: кожен може записатися на участь у 30-годинному хакатоні. Ми забезпечували їжу та напої. Ми розраховували на 30 учасників, яких поділили на 6 груп. Ці групи мали зосередитися на різних темах, таких як злочинність, охорона здоров’я, транспорт, безпека, старіння та влада. Для нас трьома головними завданнями цього заходу було:

Знайти сюжети
Для нас журналістика даних була чимось новим та невідомим. Єдиний спосіб довести її придатність – це гарно складені історії. Ми планували створити як мінімум три сюжети, засновані на даних.

Поєднати людей
Ми, журналісти, не знали, як треба робити журналістику даних, і не робили вигляду, що знаємо. Зібравши в одній кімнаті журналістів, студентів та програмістів на 30 годин, ми хотіли, щоб вони ділилися між собою знаннями та ідеями.

Провести соціальний захід
Газети не організують багато соціальних заходів, не кажучи вже про хакатони. Ми хотіли отримати досвід, чи спроможний такий захід забезпечити результат. Фактично, ситуація могла виявитися напруженою: 30 годин із чужинцями, багато жаргону, нерозуміння базових питань, робота поза межами твоєї зони комфорту. Перетворивши це на соціальний захід – пам’ятаєте про піццу та енергетичні напої? – ми хотіли створити середовище, у якому журналісти та програмісти почувалися б зручно та співпрацювали б ефективно.

Перед заходом TC Tubantia взяла інтерв’ю в удови полісмена, яка написала книгу про роки праці свого чоловіка. Вона також мала документ із усіма зареєстрованими вбивствами у східній частині Нідерландів, який вів її чоловік з 1945 року. Зазвичай ми б опублікували цей документ на нашому сайті. Цього разу ми зробили інтерактивну візуалізацію за допомогою програмного компонента Tableau. Ми також написали блог про те, як все це було зроблено, на нашому сайті RegioHack.

Під час хакатону одна з груп запропонувала тему розвитку шкіл та старіння в нашому регіоні. Зробивши візуалізацію майбутніх перспектив, ми зрозуміли, у яких містах можуть виникнути проблеми після кількох років падіння набору нових учнів. На основі цієї ідеї ми написали статтю про це, як ця ситуація вплине на школи в нашому регіоні.

Ми також започаткували дуже амбіційний проект під назвою De Tweehonderd van Twente («Дві сотні з Твенте»), щоб визначити, хто є найвпливовішим у нашому регіоні, та скласти базу даних найбільш впливових людей. За допомогою підрахунків з використанням Google - у кого найбільше зв’язків із впливовими організаціями – ми склали список впливових людей. Це могло б привести до циклу статей, але ц також є потужним журналістським інструментом. Хто має зв’язки із ким? Ви можете ставити це запитання до бази даних і використовувати її у повсякденному режимі. Крім цього, у цієї бази даних є культурна цінність. Художники вже запитували, чи можуть вони нею користуватися для створення інтерактивних мистецьких інсталяцій.

Ілюстрація 23. Нові спільноти, створені навколо журналістики даних (фото Хейнце Хавінга)

Після заходу RegioHack ми помітили, що журналісти почали розглядати журналістику даних як реальний додаток до традиційної журналістики. Мої колеги продовжували використовувати та вдосконалювати техніки, які вони засвоїли того дня, щоб створювати більш амбіційні та технологічні проекти – такі як база даних адміністративних витрат на житло. На основі цих даних я зробив інтерактивну карту в Fusion Tables. Ми попросили наших читачів побавитися з цими даними і об’єднали зібрані в такий спосіб результати (наприклад, тут). Після численних запитань про те, як ми зробили карту в Fusion Tables, я записав відеоінструкцію.

Чого ми навчилися? Багато чого, але ми також натрапили на численні перешкоди. Ми виявили чотири з них:

З чого починати: з питання чи з даних?
Майже всі проекти зупинялися, коли починався пошук інформації. Зазвичай вони починалися із питання, сформованого журналістами. Але що потім? Які є дані? Де їх можна знайти? І коли ти знаходиш дані, чи дають вони відповідь на твоє питання? Журналісти зазвичай знають, де знайти інформацію, коли шукають матеріал для статті. В журналістиці даних більшість журналістів не знають, яка інформація є доступною.

Обмежені технічні знання
Журналістика даних – це здебільшого технічна дисципліна. Іноді треба вилучати дані, іншого разу треба щось програмувати, щоб візуалізувати результат. Досконала журналістика даних потребує двох аспектів: журналістське бачення, властиве досвідченому журналістові, та технічні знання фахівця з цифрових технологій. Під час RegioHack це траплялося нечасто.

Чи є це журналістським повідомленням?
Учасники зазвичай використовували один набір даних для пошуку в ньому сюжету, замість пошуку взаємних зв’язків між різними джерелами. Причина: вам потрібно мати певні знання із статистики, щоб перевіряти теми, створені журналістикою даних.

Який рецепт?
Коли починається справа, виявляється, що рецепту тут нема. Учасники мають «за пазухою» певні навики, але не знають, як і коли їх застосовувати. Один журналіст порівняв це із випічкою торта: «У нас є всі інгредієнти: мука, яйця, молоко тощо. Тепер ми кидаємо це все в мішок, трусимо і сподіваємося, що там утвориться торт». Справді, ми мали всі інгредієнти, але не знали рецепту.

А що зараз? Наші перші спроби в журналістиці даних могли надати допомогу іншим журналістам чи програмістам, що працюють в тій же галузі, і зараз ми готуємо звіт по цьому заходу.

Ми також думаємо над тим, як продовжувати RegioHack у формі хакатонів. Ми зрозуміли, що це весело, повчально та продуктивно, - і що є потужне перше знайомство із журналістикою даних.

Але щоб журналістика даних спрацювала, її потрібно інтегрувати в ньюсрум. Журналісти повинні мислити даними, на додачу до цитат, прес-релізів, зустрічей тощо. Проводячи RegioHack, ми довели нашим учасникам, що журналістика даних – це не просто модний термін. Ми можемо писати більш інформативні та більш виразні статті, і представляти їх нашим читачам як в друкованому вигляді, так і в онлайні.

Джеррі Верманен, NU.nl

Переклад здійснено за підтримки фонду "Відродження"

Дивися, де гроші: транскордонна співпраця

Журналісти, що ведуть розслідування, та громадяни, зацікавлені у викритті організованої злочинності та корупції, яка зачіпає життя мільярдів людей по всьому світу, з кожним новим днем отримують усе більший доступ до інформації. Уряди та інші організації оприлюднюють в онлайні величезні обсяги даних, і виглядає так, що все більше й більше потрібної інформації потрапляє в розпорядження будь-кого з нас. Втім, у той самий час корумповані урядові можновладці та організовані злочинні угруповання роблять усе можливе, щоб приховати інформацію про їхні злочини. Вони намагаються тримати людей у темряві, тим часом прокручуючи свої брудні оборудки, які підривають усі рівні суспільства, призводять до конфліктів, голоду та інших проявів кризи.

Ілюстрація 24. Інтерактивний інструмент для журналістських розслідувань (OCCRP)

Обов’язок журналіста-розслідувальника полягає у висвітленні цих правопорушень і в такий спосіб зупиняти корупційні та кримінальні механізми.

Є три головні рекомендації, дотримуючись яких, можна забезпечити якісну, ретельну журналістику під час розслідувань значних корупційних дій та злочинів навіть у найбільш несприятливих обставинах.

Виходь за межі країни

У багатьох випадках значно легше отримати інформацію з-за кордону, ніж перебуваючи в межах тієї країни, де працює журналіст-розслідувальник. Інформація, зібрана з закордонних джерел за допомогою іноземних баз даних, або із застосуванням законів інших країн про доступ до інформації може стати саме тим, що треба для того, щоб усі частини головоломки розслідування склалися докупи. Понад те, злочинці та корумповані можновладці не тримають свої гроші там, де вони їх накрали. Вони радше покладуть їх у закордонні банки або ж інвестують у інших країнах. Злочинність є глобальною. У Інтернеті можна знайти бази даних, що допомагають журналістові-розслідувальнику відстежити грошові потоки по всьому світу. Приклад - панель інструментів Investigative Dashboard, яка дає змогу журналістам відстежувати рух грошей за кордоном.

Використовуй існуючі мережі журналістів, що ведуть розслідування

Журналісти-розслідувальники з усього світу об’єднані в організації, такі як «Проект з відстеження організованої злочинності та корупції» (The Organized Crime and Corruption Reporting Project), «Африканський форум журналістських розслідувань» (The African Forum for Investigative Reporting), «Арабські репортери за журналістські розслідування» (The Arab Reporters for Investigative Journalism), «Глобальна мережа журналістських розслідувань» (The Global investigative Journalism Network). Репортери також можуть скористатися професійними журналістськими платформами на кшталт IJNet, де обмін інформацією, що має стосунок до глобальної журналістики, відбувається в щоденному режимі. Багато репортерів, об’єднаних у ці мережі, працюють над аналогічними темами та стикаються з аналогічними ситуаціями, тому є великий сенс у тому, щоб обмінюватися інформацією та методами. До цих мереж приєднані списки електронної розсилки та групи в соціальних мережах, тому дуже легко зв’язатися з побратимами-журналістами та попросити про інформацію чи пораду. Ідеї журналістських розслідувань також можна збирати на таких форумах та у таких списках електронної розсилки.

Використовуй технології та співпрацюй із хакерами

Програмне забезпечення допомагає журналістові-розслідувальнику отримувати та обробляти інформацію. Є різні типи програм, які допомагають розслідувальнику «обрізати» інформаційний шум, «розкопувати» та знаходити зміст у великих обсягах даних, вести пошук правильних документів, потрібних для довершення розповіді. Є вдосталь готових до використання комп’ютерних програм, придатних для використання в якості інструментів аналізу, збору та інтерпретації інформації, і, що більш важливо, журналісти-розслідувальники мають знати, що є десятки програмістів, готових допомогти, якщо їх про це попросять. Ці програмісти чи хакери знають як отримувати та обробляти інформацію, і вони можуть стати в великій пригоді під час розслідувань. Ці програмісти (дехто з них є членами глобальних рухів відкритих даних) можуть стати безцінними союзниками у боротьбі проти злочинності та корупції. Вони можуть допомогти журналістам зібрати та проаналізувати інформацію.

Гарний приклад взаємодії між програмістами та громадянами – це ScraperWiki, сайт, де журналісти можуть попросити програмістів про допомогу щодо вилучення даних із веб-сайтів. Там же знаходиться інструмент Investigative Dashboard, що містить список вже створених інструментів, які допоможуть журналістові зібрати, оформити та проаналізувати дані.

Корисність викладених вище рекомендацій була простежена в багатьох ситуаціях. Один гарний приклад – це робота Хадіджі Ісмаїлової, дуже досвідченого репортера-розслідувальника з Азербайджану, яка працює в дуже несприятливих умовах, коли мова йде про доступ до інформації. Ісмаїлова мусила долати перешкоди буквально в щоденному режимі, щоб надати азербайджанському суспільству якісну та надійну інформацію.

У червні 2011 року Хадіджа Ісмаїлова, журналіст-розслідувальник офісу радіо Вільна Європа/Радіо Свобода (RFE/RL) в Баку повідомила, що доньки азербайджанського президента Ільхама Алієва таємно, через розташовані в Панамі офшорні компанії, керують телекомунікаційною компанією Azerfon, яка наразі бурхливо розширюється. Ця компанія вихваляється 1,7 мільйонами користувачів, покриває 80% території країни, і на час розслідування єдиним провайдером зв’язку стандарту 3G у Азербайджані. Ісмаїлова витратила три роки, намагаючись з’ясувати, кому належить ця телекомунікаційна компанія, але влада відмовилася розкривати інформацію про акціонерів і декілька разів повідомляла брехню про її власників. Вони навіть заявили, що компанія належить Siemens AG – цю заяву німецька корпорація рішуче спростувала. Азербайджанська репортерка змогла встановити, що власниками Azerfon були кілька приватних компаній, зареєстрованих на Панамі, і це виглядало як глухий кут у розслідуванні – доти, доки на допомогу не прийшли сили зі сторони. На початку 2011 року пані Ісмаїлова за допомогою сервісу Investigative Dashboard виявила, що зареєстровані в Панамі компанії можна відстежити за допомогою комп’ютерної програми, створеної комп’ютерником та громадським активістом Деном О’Хугінном. Саме тоді їй зрештою вдалося виявити факт, що дві президентські дочки були пов’язані з цією телекомунікаційною компанією через панамські структури.

Фактично, О’Хугінн розробив інструмент, який допоміг журналістам з усього світу готувати статті про корупцію в Панамі, відомому притулкові офшорних компаній, якою широко користуються корумповані чиновники з різних країн, щоб ховати крадені гроші: від поплічників колишнього президента Єгипту Хосні Мубарака до заплямованих корупцією чиновників із Балкан чи Латинської Америки. Те, що зробив цей комп’ютерник-активіст, має назву веб-скрейпінг, метод, що дає змогу вилучати та змінювати формат інформації так, що стає можливим її використання в розслідуваннях. О’Хугінн застосував цей метод до реєстру панамських компаній, бо цей реєстр, хоч і відкритий, дозволяв пошук в ньому тільки тоді, коли журналіст-розслідувальник знав назву тієї комерційної фірми, яку він шукав. Це звужувало потенціал розслідування, бо зазвичай репортери шукають імена осіб, намагаючись простежити їхні статки. Програміст вилучив ці дані та створив новий веб-сайт, де стало можливо вести пошук також і за іменами. Цей новий сайт дав змогу журналістам, що ведуть розслідування в багатьох країнах, «пробити» по ньому імена чиновників, урядовців та членів парламентів, і перевірити, чи не є вони таємними власниками корпорацій у Панамі – так, як дочки президента Азербайджану.

Існують і інші переваги використання наведених вище рекомендацій, окрім кращого доступу до інформації. Одна з них – мінімізація ризиків та краща безпека журналістів-розслідувальників, що ведуть свою діяльність у «ворожому оточенні». Це тому, що журналіст, який працює в мережі інших журналістів, не є самотнім, він працює з колегами-репортерами з інших країн, і злочинцям важко визначити саме його як винуватця викриття їхніх оборудок. Як наслідок, владі та корумпованим чиновникам стає важче помститися журналістові.

Варто мати на увазі ще й те, що інформація, яка видається не дуже цінною в одній географічній локації, може мати критичне значення в іншій. Обмін інформацією за допомогою мереж журналістських розслідувань може виявити дуже важливі сюжети. Наприклад, інформація про те, що в Колумбії заарештували румуна з кілограмом кокаїну, імовірно, не потрапить на перші сторінки видань у Боготі, але може стати дуже важливою для румунської громадськості, якщо місцевий репортер зможе встановити, що заарештована з наркотиками особа працює в румунському уряді.

Ефективні журналістика розслідувань є результатом співпраці між журналістами, що ведуть розслідування, програмістами та всіма іншими людьми, які хочуть використовувати дані і тим самим робити свій внесок у створення більш прозорого, справедливого та чесного глобального суспільства.

Пол Раду, Проект з відстеження організованої злочинності та корупції

Переклад здійснено за підтримки фонду "Відродження"

Наші статті ми пишемо кодом

Ініціатива OpenDataCity була заснована наприкінці 2010 року. На той час у Німеччині мало що можна було назвати «журналістикою даних».

Ілюстрація 25. Карта шумів аеропорту (Taz.de)

Навіщо ми це робили? Ми багато разів чули, як люди, що працюють в газетах та електронних ЗМІ, кажуть: «Ми не готові розпочати спеціалізований проект із журналістики даних в нашій редакції. Але ми були б щасливі замовити його комусь іншому».

Наскільки нам відомо, ми єдина компанія в Німеччині, що спеціалізується виключно на журналістиці даних. Нас у команді троє: двоє мають журналістський досвід, один володіє глибокими знаннями програмування та візуалізації. Ми співпрацюємо з групкою фрилансерів – хакерів, дизайнерів та журналістів.

За останні 12 місяців ми виконали чотири проекти в сфері журналістики даних для різних газет, і проводили тренінги та консультації для співробітників ЗМІ, науковців та шкіл журналістики. Першою програмою, яку ми написали, був інтерактивний інструмент про рівень шуму від щойно збудованого аеропорту в Берліні для сайту газети TAZ. Наступний помітний проект - це програма для ZEIT Online, що візуалізувала дані використання мобільного телефона німецьким політиком (Мальте Спіц з партії зелених подав у суд на провайдера Deutsche Telekom за витік інформації про його дзвінки та виходи в Інтернет, прив’язані до базових станцій мобільного зв’язку – прим.). За цю роботу ми отримали премію Grimme Online та Lead Award у Німеччині, а також премію з онлайнової журналістики від Асоціації онлайнової журналістики (США). Наразі у нас в розробці кілька проектів- від простішої інтерактивної інфографіки до розробки чогось на зразок міжплатформенного програмного забезпечення для журналістики даних.

Авжеж, здобуті премії створили нам репутацію. Але коли ми ведемо перемовини з видавцями, які мають схвалити проекти, наші аргументи про інвестування в журналістику даних не пов’язані зі здобуттям нагород. Насправді мова йде про привертання уваги протягом довшого періоду і в стабільний спосіб. Про розробку речей, що матимуть довготерміновий вплив, а не сенсації, про які зазвичай забувають через кілька днів.

Ось три аргументи, які ми застосовуємо, щоб переконати видавців в необхідності виконувати довготермінові проекти:

Дані не застарівають

Залежно від дизайну, до програм із журналістики даних можна додавати новий матеріал. І вони не тільки для користувачів – їх можна використовувати для внутрішніх потреб, написання статей та аналізу. Якщо вас турбує, що й ваші конкуренти зможуть отримати вигоду від вашої інвестиції, ви можете залишити деякі можливості чи деякі дані суто для внутрішнього користування.

На старому фундаменті можна збудувати нове

Здійснюючи проект із журналістики даних, ти зазвичай створюєш фрагменти коду, які можна використати повторно чи переробити. На наступний проект може піти лише половина часу, бо ти значно краще розумієш, що робити (і чого не робити), і маєш компоненти, на основі яких можна працювати.

Журналістика даних окупає себе

Проекти, що базуються на роботі з даними, є дешевшими за традиційні маркетингові кампанії. Онлайнові видання часто вкладають кошти в оптимізацію пошукових механізмів (т.зв. SEO) та маркетинг пошукових механізмів (т.зв. SEM). Завершений проект із журналістики даних зазвичай генерує багато «кліків» та розголосу і має шанс на «вірусне» розповсюдження. Видавці, як правило, заплатять за це менше, ніж якби вони намагалися генерувати таку ж увагу, купуючи кліки та лінки за допомогою SEM.

Наша робота не дуже відрізняється від роботи інших медійних агенцій: ми розробляємо програми та сервіси для ЗМІ. Але, мабуть, ми відрізняємося тим, що думаємо про себе перш за всe як про журналістів. У наших очах створені нами продукти є статтями чи сюжетами, хоча вони передані не словами чи ілюстраціями, аудіо чи відео, але програмним кодом. Коли ми говоримо про журналістику даних, ми мусимо говорити про технологію, програмне забезпечення, пристрої, та про те, як за допомогою цього розповісти історію.

Ось приклад: ми щойно завершили роботу над програмою, яка у реальному часі використовує дані, «вилучені» з німецького залізничного сайту. Це дало нам змогу розробити інтерактивний моніторинг поїздів для Süddeutsche Zeitung, який показує в режимі реального часу затримку поїздів далекого слідування. Програма оновлює дані десь щохвилини, і ми також надаємо для неї інтерфейс прикладної програми (API). Ми почали цю роботу кілька місяців тому, і наразі зібрали велетенський набір даних, який зростає щогодини. Зараз це сотні тисяч рядків даних. За допомогою проекту користувачі можуть вивчати ці постійно оновлювані дані та досліджувати архіви попередніх місяців. І насамкінець, той сюжет, який ми будемо розповідати, значною мірою буде визначений цими індивідуальними діями користувачів.

У традиційній журналістиці, внаслідок лінійного характеру друкованого чи електронного повідомлення, ми повинні були думати про початок, кінець, про сюжетну лінію, про тривалість та кут подачі нашої публікації. Журналістика даних все це змінює. Так, є початок. Люди заходять на сайт та отримують перше враження від інтерфейсу. Але далі вони роблять що хочуть. Можливо, вони залишаться тут на хвилину – а може, на півгодини.

Наша робота як журналістів даних – це створити для цього середовище. Окрім кодування та компонентів із управління даними, ми маємо подумати також про розумні способи застосування дизайну. Враження користувача (User Experience, UX) значною мірою залежать від графічного інтерфейсу користувача (GUI). У підсумку саме цей компонент забезпечує успіх або провал проекту. Ви можете мати на фоновому рівні ідеальний код, що опрацьовує набір даних на виході. Але якщо «передній план» ні до чого не придатний, нікому ваш код не буде потрібний.

В цій галузі є багато чому вчитися і багато над чим експериментувати. Але на щастя, є галузь із виробництва комп’ютерних ігор, яка протягом десятиліть запроваджувала інновації у сфері цифрової передачі сюжетів, екосистем та інтерфейсів. Тож коли ми розробляємо програми із журналістики даних, нам слід уважно дивитися над тим, як працює гейм-дизайн і як у комп’ютерних іграх передано сюжети. Чому простенькі ігри на кшталт Тетрісу є такими прикольними? І чому мали такий успіх «відкриті світи» ігор з рольовими елементами, на кшталт Grand Theft Auto чи Skyrim?

Ми вважаємо, що журналістика даних – це надовго. За кілька років робочі процеси журналістики даних будуть природним способом інтегровані в редакції, тому що сайти видань також повинні змінитися. Кількість інформації в публічному доступі продовжує зростати. Але, на щастя, нові технології продовжують давати нам нові способи викладу сюжетів. Деякі з цих сюжетів будуть засновані на даних, і багато програм та сервісів отримають журналістський характер. Тут є цікаве питання: яку стратегію розвиватимуть редакції, щоб стимулювати цей процес? Чи вони створюватимуть команди журналістів даних, інтегровані у власні ньюсрум? Чи будуть створені дослідницькі підрозділи, щось на зразок «внутрішніх стартапів»? Чи певні компоненти цих завдань будуть передані на виконання спеціалізованим компаніям? Ми все ще перебуваємо на початковому етапі, і лише час розставить все по своїх місцях.

Лоренц Мацат, OpenDataCity

Переклад здійснено за підтримки фонду "Відродження"

Kaas & Mulvad: інформаційні напівфабрикати для груп впливу

ЗМІ для груп впливу – це нововиниклий сектор, який здебільшого не беруть до уваги теоретики медіа, але при цьому він потенційно здійснюватиме величезний вплив – або через онлайнові мережі, або шляхом надання контенту для звичайних ЗМІ. Його можна описати як (зазвичай онлайновий) засіб масової інформації, що перебуває під контролем організаційних або інституційних зацікавлених груп, і який використовують для просування певних інтересів або спільнот.

Неурядові організації зазвичай створюють саме такі ЗМІ; так само чинять групи захисту інтересів споживачів, професійні асоціації, профспілки тощо. Найбільше обмеження у їхній спроможності впливати на громадську думку або інші зацікавлені організації найчастіше полягає в тому, що їм бракує потужності, щоб виявляти та розкривати важливу інформацію, - бракує навіть більше, ніж невеликим медійним організаціям. Kaas og Mulvad, комерційна данська корпорація, є однією з перших у світі медійних підприємств, що здійснює розслідування та надає експертні ресурси організаціям зацікавлених груп.

Ілюстрація 26. Медійні компанії, що працюють на зацікавлені організації

Фірма виникла у 2007 році як відгалуження від неприбуткового Данського інституту комп’ютерної журналістики (Dicar), яке продавало журналістські розслідування іншим ЗМІ та навчало журналістів, як аналізувати дані. Їхня нова фірма пропонує те, що вони називають «дані плюс журналістське бачення» (контент залишається «напівфабрикатом», який вимагає подальшого редагування та переписування). Вони надають цю інформацію переважно ЗМІ, що належать зацікавленим групам, які фіналізують цей контент, перетворюючи його в новини чи статті, і розповсюджують його як у звичайних ЗМІ, так і на своїх власних ресурсах (наприклад, веб-сайти). Прямі клієнти – це урядові установи, піар-фірми, профспілки та неурядові організації, такі як EU Transparency та Всесвітній фонд дикої природи. Робота на НУО включає моніторинг субсидій на фермерську діяльність та рибний промисел, та регулярні оновлення на тему лобістських дій у Євросоюзі, складені на основі інформації, «вилученої» з відповідних веб-сайтів. Непрямі клієнти – це фундації, що фінансують проекти неурядових організацій. Компанія також працює з індустрією ЗМІ; так, газета-таблоїд придбала у них сервіс моніторингу повідомлень про зірок.

Журналістика даних у їхньому портфоліо включає:

Карту безробіття для 3F
Візуалізація даних з ключовими цифрами про безробіття в Данії, виконана для 3F – профспілки некваліфікованих робітників Данії.

Умови життя для 3F
Ще один проект для 3F показує, як відрізняються умови життя в різних частинах Данії. На карті вказано 24 різні індикатори умов життя.

Борги для Ugebrevet A4
Проект обраховує «борговий індекс» - та візуалізує відмінності в приватній економіці.

Небезпечні об’єкти в Данії
Проект наносить на карту та аналізує близькість небезпечних об’єктів інфраструктури до дитячих садочків та інших установ догляду за дітьми. Замовником є Børn&Unge”, журнал, що видається BUPL, Данською профспілкою вихователів та дитячих учителів.

Дані з корпоративної відповідальності для Vestas
Візуалізація даних з п’яти напрямків корпоративної відповідальності для данської компанії Vestas, що виробляє вітрові турбіни. Має функції автоматичної генерації тексту, автоматично доповнюється щоквартально на основі інформації, отриманої з 400 веб-сторінок. Масштаб – від всесвітнього до окремого виробничого підрозділу.

Карту імен для Experian
Уведіть своє прізвище та подивіться, як воно розповсюджене в різних географічних областях Данії.

Карту неякісних продуктів для Ekstra Bladet
Щодня ми вилучаємо інформацію про всі інспекції неякісних продуктів харчування та додаємо найостанніші на карту – для данського таблоїду Ekstra Bladet (щоб побачити карту, перейдіть на середину веб-сторінки).

Kass og Mulvad – не перші журналісти, що працюють із ЗМІ зацікавлених груп. Грінпіс, наприклад, на регулярних засадах залучає журналістів до складання їхніх звітів. Але нам не відома жодна інша фірма, яка пропонує ЗМІ зацікавлених груп продукт, що заснований на обробці даних; журналісти зазвичай працюють з НУО як репортери, редактори чи автори текстів. Сучасні комп’ютерні ЗМІ зосереджені на пошуку та виявленні інформації (згадайте Wikileaks); і в цьому випадку Kaas og Mulvad також є інноваційною, бо зосереджується на аналізі даних. Такий підхід вимагає не тільки програмістських умінь, але й розуміння того, яка саме інформація може перетворитися у впливовий сюжет. Не буде перебільшенням сказати, що ті, хто хоче започаткувати власний сервіс, будуть змушені отримувати одне із цих двох професійних умінь за рахунок партнерства, бо є небагато людей, що вміють і те, і інше.

Процеси: Інноваційні інформаційні технології плюс аналіз

Фірма виконує близько 100 проектів протягом року, час виконання – від кількох годин до кількох місяців. Вона також постійно вкладає кошти в проекти, що розширюють її можливості та пропозиції. Моніторинг зірок був саме таким експериментом. Інший застосовував технологію вилучення з інтернету новин про вилучення іпотечних будинків та створював карту таких подій. Партнери кажуть, що їхні найперші критерії оцінки проекту – це чи подобається їм робота і чи дізнаються вони із неї про щось нове; пошук ринків відбувається після того, як було чітко окреслено новий сервіс. Вони чітко заявляють, що в індустрії новин складно розвивати нові методики та нові бізнеси.

Коментар Mulvad:

У нас нема редакторів чи босів, які б вирішували, які проекти нам робити, яке програмне забезпечення чи обладнання купувати. Ми купуємо інструменти відповідно до потреб проекту - такі, як найкращі рішення для текстового пошуку та екстракції даних. Наша мета – бути на передньому краї у цих галузях. Ми намагаємося знайти клієнтів, які платять охоче, або якщо проект нам цікавий, ми робимо його за меншу ціну.

Додана вартість: особистий бренд, бренд фірми та дохід

Оборот у 2009 році склав приблизно 2,5 млн данських крон, або €336 000. Фірма також утверджує свою репутацію серед партнерів як компанії, що здійснює найпередовішу журналістику, виконує вимоги щодо навчальних та публічних сервісів. Іхній публічний імідж, в свою чергу, зміцнює бренд фірми.

Ключові висновки з цього прикладу:

• Криза в індустрії новин, пов’язана зі скороченням ємності ринку, також є кризою недостатнього використання потенціалу ринку. Kaas & Mulvad були змушені піти з індустрії ЗМІ, щоб робити ту справу, яку вони цінували, і цей підхід окупився. Ніщо не завадило б медійній організації самій використати цю цінність.

• На ринках, принаймні деяких, існує прибутковий ринок «напівфабрикатного» контенту, який може слугувати інтересам зацікавлених груп.

• Втім, ця можливість піднімає питання про те, наскільки журналісти можуть контролювати представлення та використання їхньої роботи «третьою стороною». Ми можемо пригадати, що подібна проблема вже існує в галузі ЗМІ (коли редактори можуть змінювати створений журналістом продукт), і вона існувала в інших медійних галузях (наприклад, у кіноіндустрії, де часто трапляються конфлікти між режисерами та кіностудіями з приводу того, яким має бути «остаточний» монтаж). Не те щоб це був специфічний моральний ризик саме у ЗМІ зацікавлених груп, але він нікуди не дінеться. Слід приділяти більше уваги етиці цієї реальності та цього ринку, що наразі зростає.

• З точки зору прибутковості недостатньо мати один лише продукт чи сервіс. Успішним компаніям зі спостереження за можливими порушеннями доцільніше застосовувати підхід портфоліо, де консалтинг, навчання, публічні виступи та інші сервіси приносять додатковий дохід і підтримують бренд цих моніторингових ініціатив.

Відредагований уривок із книги Марка Лі Хантера та Люка Н. Ван Вассенхове «Революційні технології у ЗМІ: медіа зацікавлених груп та майбутнє бізнесової моделі моніторингової журналістики» (Mark Lee Hunter and Luk N. Van Wassenhove, «Disruptive News Technologies: Stakeholder Media and the Future of Watchdog Journalism Business Models”. INSEAD Working Paper, 2010.» - INSEAD Working Paper, 2010

Переклад здійснено за підтримки фонду "Відродження"

Бізнесова модель для журналістики даних

Посеред усіх тих зацікавлень та надій, які пов’язані з журналістикою даних, постає одне питання, яке зазвичай цікавить редакції: а як тут заробляти гроші?

І хоч робити прогнози слід обережно, перегляд нещодавньої історії та чинного стану справ у медійній індустрії може допомогти нам скласти певні висновки. Наразі є багато журналістських організацій, які виграли від застосування нових підходів.

Терміни на кшталт «журналістики даних» та найсвіжішого модного слівця «наука даних» можуть звучати так, наче вони описують щось нове, але це не зовсім так у строгому розумінні. Ці нові назви натомість являють собою різні способи охарактеризувати ту зміну, яка набирала силу протягом останніх десятиліть.

Багато журналістів, схоже, не усвідомлюють той обсяг прибутків, які вже генеруються від збору даних, аналізу даних та візуалізації. Це бізнес із «очистки» інформації. За допомогою інструментів та технологій роботи з даними можна пролити світло на вкрай складні питання – чи то міжнародні фінанси, борги, демографія, освіта, чи щось інше. Термін «бізнесова розвідка» означає ряд ІТ-концептів, спрямованих на створення чіткої картини того, що відбувається в комерційних корпораціях. Великі та прибуткові компанії сучасності, наприклад, McDonalds, Zara чи H&M, покладаються на постійне відстеження даних, щоб на основі цього генерувати прибутки. І для них це працює просто чудово.

Зміни полягають у тому, що інструментарій, створений для цих завдань, зараз стає доступним і для інших сфер, в тому числі й для ЗМІ. І є журналісти, які це розуміють. Взяти хоча б Tableau, компанію, що пропонує набір інструментів з візуалізації. Або рух «Великі дані», де технологічні компанії використовують програмні пакети (зазвичай із відкритим кодом), щоб вести розкопки у горах даних, за мілісекунди вилучаючи перспективні ідеї.

Ці технології зараз можна застосувати в журналістиці. Команди у Guardian та The New York Times постійно розширюють кордони цього нового простору. І те, що ми зараз бачимо, - це тільки вершина айсберга.

Але як це генеруватиме прибутки для журналістики? Великий, глобальний ринок, який наразі відкривається, передбачає трансформацію даних у публічному доступі в щось наше, в щось таке, що ми можемо опрацювати: зробити дані видимими та зробити їх людяними. Ми хочемо мати зв’язок із цими великими цифрами, які ми чуємо щодня у новинах – що саме ці мільйони та мільярди означають для кожного з нас.

Є ряд дуже прибуткових медійних компаній, що використовують роботу з даними, - вони просто застосували цей принцип раніше за всіх інших. Вони демонструють здорову динаміку зростання, а часом і вражаючі прибутки. Один приклад: Bloomberg. Компанія оперує 300 тисячами терміналів та постачає користувачам фінансові дані. Якщо ви працюєте у фінансовому бізнесі, це потужний інструмент. Кожен термінал має клавіатуру з кольоровими кодами та до 30 тисяч опцій перегляду, порівняння, аналізу та надання допомоги у прийнятті рішень, що робити далі. Цей основний бізнес генерує приблизно $6.3 мільярди доларів на рік, принаймні так про це писала New York Times у 2008 році. Як наслідок, Bloomberg вкладав кошти в найм журналістів наліво, направо й посередині, вони купили респектабельний, але збитковий “Business Week”, і таке інше.

Інший приклад – це канадський медійний конгломерат, відомий як Thomson Reuters. Вони стартували з однією газетою, купили кілька відомих газетних брендів у Великобританії, а потім, двадцять років тому, вирішили залишити газетний бізнес. Замість цього вони стали зростати за рахунок інформаційних сервісів, спрямованих на надання клієнтам у різних галузях глибшої перспективи бачення. Якщо вас хвилює, як заробити гроші на спеціалізованій інформації, наша порада така: просто прочитайте історію цієї компанії на Вікіпедії.

І подивіться-но на Economist. Журнал збудував чудовий, впливовий бренд на своїй «медійній половині». І в той же час підрозділ “Economist Intelligence Unit” більше схожий на консультаційну службу, що пише про актуальні тренди та прогнози щодо майже кожної країни світу. Вони наймають сотні журналістів і заявляють, що мають близько 1,5 млн клієнтів по всьому світу.

А ще є багато нішевих сервісів, орієнтованих на роботу з даними, які можуть стати вам прикладом для натхнення: американський eMarketer який надає порівняння, графіки та консультації усім зацікавленим у інтернет-маркетингу. Stiftung Warentest у Німеччині, установа, що моні торить якість продуктів та послуг. Statista, також із Німеччини, -новостворена компанія, яка допомагає візуалізувати інформацію, надану в публічний доступ.

У світі в цьому секторі здіймається хвиля стартапів, які охоплюють широкий діапазон галузей – наприклад, Timetric, спрямований на «оновлені бізнесові дослідження», OpenCorporates, Kasabi, Infochimps та Data Market. Багато з них, імовірно, є експериментами, але разом їх слід трактувати як важливу ознаку змін.

Далі, є ще громадські ЗМІ, які у сенсі журналістики даних являють собою сплячого велетня. У Німеччині в цей сектор щороку надходить €7.2 мільярди. Журналістика – це специфічний продукт: якісна журналістика не тільки заробляє гроші, але й виконує важливу суспільну роль. Як тільки стане зрозуміло, що журналістика даних може забезпечити кращі, більш надійні способи розуміння ситуації, і зробити це у простіший спосіб, частина цих грошей може піти на створення нових робочих місць у редакціях.

У журналістиці даних ідеться не лише про те, щоб першим подати інформацію, а й про те, щоб бути надійним джерелом інформації. У світі, де для інформації існує багато каналів, можна згенерувати вдосталь уваги до неї, але довіра при цьому є значно дефіцитнішим ресурсом. Журналістика даних може допомогти в збиранні, синтезі та представленні різноманітних і часто складних джерел інформації у такий спосіб, який забезпечує аудиторії реальне розуміння складних тем. Замість того, щоб переробляти прес-релізи та переповідати вже десь почуті сюжети, журналістика даних спроможна дати читачам чітку, зрозумілу та пристосовану до їхніх потреб перспективу – з інтерактивною графікою та прямим доступом до першоджерел. Не банально і при цьому однозначно вартісно.

Тож як найкращим чином надихнути журналістів даних розвивати цю галузь, та як переконати менеджмент підтримувати інноваційні проекти?

Перший крок: вести пошук «негайних» можливостей «поблизу від дому»: плодів, що висять низенько на гілці. Наприклад, ви вже можете мати зібрання структурованих текстів та даних, які можна використати. Чудовий приклад – «база даних убивств» у Los Angeles Times. Тут ключове значення мають дані та візуалізації, а не подальший аналіз. Редактори збирають дані про всі злочини, які їм вдасться знайти, і тільки після цього пишуть на основі цього статті. Із часом ці зібрання даних стають кращими, глибшими та ціннішими.

Спочатку це може не спрацювати. Але зрештою спрацює. Один дуже обнадійливий індикатор – це Texas Tribune та ProPublica, медійні компанії, що, імовірно, належать до ери «після друку». За їхніми повідомленнями, фінансування цих неприбуткових журналістських організацій перевершило планові показники значно швидше, ніж це очікувалося.

Стати майстром даних – чи то фахівцем широкого профілю, чи спеціалістом, зосередженим на одному аспекті «конвеєра даних» - це для людей, що вірять у журналістику, означає здобути цінні перспективи. Один відомий німецький видавець нещодавно сказав у інтерв’ю: «А ще є ця нова група, яка називає себе журналістами даних. І вони більше не хочуть працювати за три копійки».

Мірко Лоренц, Deutsche Welle

Переклад здійснено за підтримки фонду "Відродження"

Розгляд навчальних прикладів

У цьому розділі наведено поглиблений, «закулісний» розгляд низки проектів із журналістики даних – від програм, написаних за день, до дев’ятимісячних розслідувань. Ми навчимося, як використовувати джерела даних, щоб у такий спосіб доповнити та покращити висвітлення будь-яких ситуацій – від виборів до витрат, від повстань до корупції, від якості шкільного навчання до вартості води. Ми будемо вчитися у великих медійних організацій, таких як BBC, Chicago Tribune, Guardian, Financial Times, Helsingin Sanomat, La Nación, Wall Street Journal та Zeit Online, але також і в менших ініціатив, таких як California Watch, Hacks/Hackers Buenos Aires, Propublica, а також у групи місцевих громадян-журналістів Бразилії, яка має назву Friends of Januária.

(НЕ)рівні шанси

У проекті Opportunity Gap використано ніколи до того не оприлюднені дані міністерства освіти США, які показали, що у деяких штатах, таких як Флорида, багаті та бідні учні мають приблизно однаковий доступ до інтенсивних навчальних курсів, і тим самим отримують більш рівні можливості. Натомість інші штати, такі як Канзас, Мериленд та Оклахома, надають менше можливостей у тих районах, де мешкають бідніші родини.

Ілюстрація 27. Проект Opportunity Gap (ProPublica)

Дані охопили всі публічні середні школи в районі, де навчаються 3 тисячі учнів чи більше. Це становить понад три чверті всіх дітей, що навчаються в публічних школах. Журналіст із нашої редакції роздобув ці дані, а наш керівник підрозділу комп’ютерної журналістики дуже ретельно їх очистив.

На цей проект пішло приблизно три місяці. Шестеро людей спільно працювали над журналістським сюжетом та комп’ютерною програмою: два редактори, репортер, фахівець з комп’ютерної журналістики та двоє програмістів. Більшість із нас протягом цього періоду не працювали виключно над цим проектом.

Проект насправді потребував наших об’єднаних умінь – глибокого знання теми, розуміння найкращих методик роботи з даними, навичок дизайну та програмування і т.д. Що більш важливо, він потребував спроможності знаходити в цих даних журналістську історію. Також знадобилося редагування - не тільки статті, яка супроводжувала дані, але й самої журналістської програми.

Для очистки та аналізу даних ми переважно використовували Excel та програми-скрипти, а також MS Access. Програму до цих даних написано на Ruby on Rails, із широким застосуванням JavaScript.

На додачу до загальної розповіді ми включили інтерактивну карту, яка дає читачам змогу розуміти тему та знаходити у великій загальнонаціональній базі даних приклади, що можуть бути пов’язані з ними. За допомогою нашої програми читач може знайти свою місцеву школу – наприклад, Central High School у Ньюарку, штат Нью Джерсі, і відразу ж побачити показники цієї школи у широкому діапазоні оцінок. Тоді вони можуть натиснути кнопку, позначену «Порівняти зі школами з високим та низьким рівнем бідності», і відразу ж побачити інші середні школи, їх відносний рівень бідності, і як вони пропонують курси з вищої математики, навчальні програми на рівні коледжу та інші важливі курси. У нашому прикладі школа Central High межує зі школою Millburn Sr. High. Програма Opportunity Gap показує, що тільки 1% учнів Мілбурну отримують безкоштовні сніданки чи сніданки за пільговою ціною, але 72% з них мають принаймні один курс навчання на рівні коледжу. На протилежному боці школа International High, у якій 85% студентів отримують пільгові чи безкоштовні сніданки, і лише 1% навчається на курсах рівня коледжу.

У цьому прикладі читач може використати щось йому вже відоме – назву місцевої середньої школи – щоб зрозуміти те, чого він не знав – розподіл доступу до навчання і те, як бідність впливає на цей доступ.

Ми також інтегрували цю програму у Facebook, так, щоб читачі входили в Facebook, і наша програма автоматично повідомляла їх про школи, які їх можуть цікавити.

Інтернет-трафік до всіх наших журналістських програм є просто чудовим, і ми особливо пишаємося тим, як ця програма розповідає комплексний сюжет – а ще допомагає читачам самостійно створювати власні сюжети.

Як це буває з більшістю проектів, що починалися з урядових баз даних, ці дані потребували значної очистки. Наприклад, попри те, що існує близько тридцяти навчальних курсів на рівні коледжу, деякі школи надають інформацію про те, що у них таких курсів сотні. Багато що довелося перевіряти вручну, телефонувати до шкіл, щоб отримати підтвердження або виправлення.

Ми також дуже ретельно попрацювали над тим, щоб ця програма передавала як «наближену», так і «далеку» історію. Тобто, треба було, щоб програма надавала читачеві ширшу, абстрактну картину на національному рівні – а саме, спосіб порівняти, як співвідноситься ситуація з доступом до освіти у різних штатах. Але враховуючи те, що ця абстракція часом викликає у читачів нерозуміння, мовляв, а як це стосується особисто їх, ми також хотіли, щоб читачі мали змогу знаходити власні місцеві школи та порівнювати їх зі школами з високим та низьким рівнем бідності у їхніх регіонах.

Якщо б я міг щось порадити ентузіастам із журналістики даних, які хотіли б здійснити аналогічний проект, я б сказав таке: вам треба знати матеріал та бути допитливими. Тут працюють всі ті журналістські правила, що притаманні іншим видам журналістики. Вам треба правильно викласти факти, переконатися, що ви правильно передали їх у статті, і, що критично важливо, переконатися, що ваша програма не контрастує з тією статтею, яку ви пишете. Бо в такому випадку або одне, або інше є неправильним.

І ще - якщо ви хочете навчитися програмувати, тут найважливіше – почати. Ви можете навчатися на курсах, за допомогою книжок чи відео уроків – все це є в доступі і все це належної якості – але подбайте про те, що у вас є справді гарна ідея для проекту і кінцева дата, до якої цей проект слід завершити. Якщо у вашій голові є сюжет, який можна передати виключно у формі комп’ютерної програми із журналістики даних, тоді невміння програмувати вас не зупинить!

Скотт Клейн, ProPublica

9-місячне розслідування на тему використання структурних фондів Євросоюзу

У 2010 році Financial Times та Бюро журналістських розслідувань (BIJ) об’єдналися, щоб дослідити структурні фонди Євросоюзу. Мета: встановити, хто є бенефіціарами структурних фондів ЄС, і перевірити, чи ці кошти йдуть на належні потреби. Структурні фонди ЄС є другою за величиною програмою субсидій у Євросоюзі – це €347 мільярди протягом семи років.

Сама програма існує вже десятки років, але окрім широких, узагальнених оглядів її діяльності, у ній було мало прозорості щодо того, хто є бенефіціарами фондів. Однією із змін у правилах чинного фінансування стало зобов’язання влади оприлюднювати списки бенефіціарів, включно з описом проектів та кількістю коштів, отриманих від ЄС та від національних фондів.

Ілюстрація 28. Розслідування використання структурних фондів ЄС (Бюро журналістських розслідувань)

До команди проекту увійшли до 12 журналістів та один програміст на повній ставці, які спільно працювали протягом 9 місяців. На саме лише збирання даних пішло кілька місяців.

Результати проекту протягом п’яти днів публікувалися у Financial Times та на сайті Бюро журналістських розслідувань, також на цю тему вийшла радіопрограма BBC та декілька документальних телепрограм.

Перш ніж розпочинати проект, що потребує такого рівня зусиль, слід бути певним, що виявлена інформація є оригінальною, і що наприкінці ви отримаєте якісні сюжети, яких більше ні в кого нема.

Процес був розподілений на декілька чітко окреслених етапів.

1. Встановити, хто зберігає дані, і в якій формі

Генеральний директорат Європейської комісії у справах регіонів має портал на веб-сайти регіональних підрозділів, які публікують дані. Ми вважали, що у ЄК є загальна база даних по цьому проекту, до якої ми або зможемо мати прямий доступ, або ж отримаємо ці дані, надіславши запит відповідно до закону про свободу інформації. Виявилося, що на тому рівні, який нам був потрібен, подібної бази даних не існувало взагалі. Ми швидко зрозуміли, що багато з лінків, наданих ЄК, не працювали, і більшість установ публікували дані у форматі PDF, а не в пристосованих для аналізу форматах на кшталт CSV чи XML.

Команда у складі до 12 осіб працювала над тим, щоб ідентифікувати найостанніші дані та зібрати лінки на них у одну велику таблицю, яку ми використовували для спільної роботи. Через те, що поля даних були не однотипними (наприклад, заголовки написані різними мовами, у деяких наборах даних використовувалися різні типи валют, деякі використовували класифікації Євросоюзу чи національних фондів), ми мали бути максимально точними під час перекладу та опису полів, представлених у кожній базі даних.

2. Завантажити та підготувати дані

Наступний крок включав завантаження усіх таблиць, PDF-документів, та, у деяких випадках, «вилучення» з веб-сайтів оригінальних даних.

Кожний набір даних треба було стандартизувати. Нашим найбільшим клопотом стало вилучення даних із PDF-документів, а деякі з них мали розмір у сотні сторінок. Більшість цієї роботи було виконано за допомогою програм UnPDF та ABBYY FineReader, які дозволяють вилучати дані і зберігати у форматі CSV чи Excel

Це також потребувало перевірки та подвійної перевірки, чи правильно ці інструменти вилучили дані з PDF. Ми робили це за допомогою фільтрування, сортування та контрольних сум (щоб переконатися, що вони збігаються з тими цифрами, які надруковані PDF-документах).

3. Створити базу даних

Програміст у складі нашої команди створив базу даних у форматі SQL. Кожен із попередньо підготовлених файлів послужив «цеглиною» для загальної SQL бази даних. В щоденному режимі ми завантажували всі окремі файли в одну велику SQL базу даних, до інтерфейсу якої можна було «на льоту» звертатися за допомогою запитів.

4. Подвійний контроль та аналіз

Команда аналізувала дані двома основними способами:

Через інтерфейс бази даних

Це передбачало введення певних ключових слів (наприклад, «тютюн», «готель», «компанія така-то» у пошуковий механізм. За допомогою сервісу Google Translate, який ми підключили до пошукового механізму нашої бази даних, такі ключові слова перекладалися 21 мовою, і ми мали адекватний результат пошуку. Ці результати можна було завантажити, і журналісти на їх основі могли вести подальші розслідування по тих індивідуальних проектах, які їх цікавили.

Шляхом макро-аналізу всієї бази даних

Час від часу ми завантажували повний набір даних, який потім аналізували на основі ключових слів, або об’єднували дані за країною, регіоном, типом витрат, кількістю проектів, бенефіціарами тощо.

Знайдені нами сюжети отримували інформацію від обох цих методів аналізу, але також ми застосовували методику «польових» та «настільних» досліджень.

На подвійний контроль повноти та цілісності даних (шляхом збору та перевірки даних, які ми порівнювали з тими цифрами, які надавали офіційні установи) пішов значний час. Однією з найголовніших проблем було те, що у переважній більшості випадків установи оприлюднювали лише обсяг «європейського» та «національного» фінансування. Закони ЄС вимагають, щоб кожна програма фінансувала «європейськими» коштами лише певний відсоток від загальних витрат. Рівень фінансування ЄС визначений на рівні програми у т.зв. рівнях спільного фінансування. Кожна програма (наприклад, сприяння регіональній конкурентоспроможності) складається з багатьох проектів. На рівні проекту технічно один проект може мати 100% фінансування від ЄС, а інший – не мати ні процента, а якщо їх згрупувати, то обсяги фінансування проекту від ЄС не перевищують встановленого рівня спільного фінансування.

Це означало, що нам потрібно було перевіряти кожну цифру про обсяги фінансування від Євросоюзу, наведену в наших публікаціях стосовно компанії-бенефіціара, яку ми розглядали.

Синтія О’Мурчу, Financial Times

Переклад здійснено за підтримки фонду "Відродження"

Розпад Єврозони

Отже, ми писали про розпад Єврозони. Про кожну деталь. Про драматичні обставини конфліктів між урядами та про втрачені пенсійні заощадження, про реакцію світових лідерів, про заходи зі скорочення витрат та протести проти цих заходів. Щодня Wall Street Journal публікував графіки втрачених робочих місць, спаду ВВП та процентних ставок, обвалу світових ринків. Все це наростає. Все це приголомшує.

Редактори, матеріали яких публікуються на першій сторінці, зібрали нараду, щоб обговорити тему підсумкового номера за рік, і йдучи з цієї наради, я спитала себе – а що з нами буде під час цього всього?

Чи це буде як у 2008 році, коли мене звільнили, і похмурі новини ішли невпинним потоком? Ми щовечора за обіднім столом розмовляли про вакансії, роботу та гроші, періодично забуваючи при цьому, що це може засмутити мою доньку. А найгіршими були вихідні. Я намагалася позбутися страхів, які, здавалося навічно сіли мені на шию, та переживань, які стискали мої груди. Це так зараз почуваються родини в Греції? Чи в Іспанії?

Я повернулася й пішла за Майком Алленом, редактором титульної сторінки, до його кабінету, й підкинула ідею: розповісти про кризу в Єврозоні в такий спосіб: спочатку оцінити дані, визначити демографічні профілі, щоб зрозуміти, на основі чого функціонує родина, а потім подати це разом із фотографіями, інтерв’ю та аудіозаписами про покоління. Ми використаємо прекрасні ілюстрації, голоси – та дані.

Я повернулася за свій стіл і написала концепцію та намалювала логотип.

Ілюстрація 29. Розпад Єврозони: концепція (Wall Street Journal): «В 1993 році Маастрихтська угода об’єднала 17 країн з суттєво відмінними культурами та століттями окремої історії в єдину спільноту: Євросоюз. П’ятнадцять років по тому, в 2009, услід за глобальною фінансовою кризою, від Ісландії до Греції та Німеччини почав поширюватися страх боргової кризи. У 2011 році ЄС опинився перед загрозою фінансової та політичної нестабільності небачених масштабів, необхідністю скорочення витрат та надання державою позик, і фінансовою непевністю. Як це буде – жити в умовах нестабільності в країні, де жило декілька поколінь ваших предків, платити рахунки валютою, що перебуває в обігу менше десяти років, бути втягненим у групу економік на межі дефолту? Уолл Стрит Джорнел запитав про це у родин, що представляють шість із країн Євросоюзу».

Протягом наступних трьох тижнів я полювала на цифри: дані про одруження, смертність, розмір родин та витрати на охорону здоров’я. Я читала про умови життя та рівень розлучень, заглядала у доповіді про стан життя та дані по заощадженнях. Я досліджувала дані національних статистичних служб, телефонувала до бюро з населення при ООН, до МВФ, Євростату та Організації економічної співпраці та розвитку, аж поки не знайшла економіста, кар’єра якого полягала у дослідженні родин. Він привів мене до науковця-дослідника родинного складу. Та підказала мені офіційні джерела з моєї теми.

Разом з моїм редактором, Семом Енрікесом, ми звузили список країн. Ми зібрали команду, щоб обговорити візуальне представлення та те, хто з репортерів відповідатиме за текст, аудіо та сюжет. Метт Крейг, фоторедактор титульної сторінки, розпочав пошук фотографів. Метт Мюррей, заступник редактора рубрики «Світ», написав запит керівникам регіональних бюро з вимогою до репортерів – надати допомогу (це мало критичне значення – команда згори).

Але найперше – це дані. Щоранку я експортувала дані в електронні таблиці та робила з них діаграми, щоб побачити тренди: скорочення заощаджень, знецінювання пенсій, матері виходять на роботу, співвідношення витрат на охорону здоров’я з державним боргом та рівнем безробіття. По обіді я розглядала ці дані по сукупності, порівнюючи країни між собою, щоб знайти теми для статті.

Я робила це протягом тижня, аж поки перестала за деревами бачити ліс і почала сумніватися в собі. Можливо, це був неправильний підхід. Можливо, справа не в країнах, а в батьках та матерях, чи в дітях та дідусях з бабусями. Обсяг даних зростав.

Або спадав. Іноді я годинам збирала інформацію, і зрештою розуміла, що вона розповідала мені про… що ні про що вона мені не розповідала. Я розкопувала зовсім не ті цифри. Часом дані були занадто старими.

Ілюстрація 30. Оцінка корисності набору даних може зайняти дуже багато часу (Сара Слобін).

А потім обсяг даних знову починав рости, коли я розуміла, що в мене все ще є запитання і що я все ще не розумію родин.

Мені треба було це побачити, оформити. Тому я нашвидкуруч зробила в графічній програмі Illustrator серії ескізів і почала їх комбінувати та редагувати.

Ілюстрація 31. Графічна візуалізація: пошук сенсу в трендах та тенденціях, прихованих поміж даними (Сара Слобін)

Із появою цих графіків постала і зв’язна картина родин.

Ми запустили проект. Я обдзвонила усіх репортерів. Я надіслала їм графіки, широку концепцію та відкрите запрошення шукати теми для статей, які, на їх відчуття, мали в собі зміст, які могли наблизити до наших читачів відчуття кризи. Нам потрібна була маленька родина в Амстердамі, та більші – у Іспанії та Італії. Ми хотіли почути думку різних поколінь, щоб побачити, як особиста історія позначається на відповідях.

З цього моменту я вставала рано, щоб перевірити електронну пошту, враховуючи відмінність у часових зонах. Репортери надсилали мені чудові теми, короткі анотації та робили сюрпризи, яких я не очікувала.

Щодо фотографій ми знали, що нам потрібні знімки поколінь. Ідея Метта полягала в тому, щоб його фотографи відстежували кожного члена сім’ї протягом одного дня. Він обрав фотожурналістів, які фотографували для рубрики «Світ», для новин і навіть робили репортажі з війни. Метт хотів, щоб кожна серія завершувалася фото родини за обіднім столом. Сем запропонував, щоб там було й меню.

Тут виникло питання: зачекати того сюжету, який дадуть фотографії. Зачекати, що скажуть родини. Ми розробили зовнішній вигляд інтерактивних компонентів. Я вкрала кольорову гаму з коміксу про Тінтіна, і ми працювали над тим, як це все поєднати. І коли все було зведене докупи і в нас вже була розкладка по шпальтах, ми додали кілка, не багато, але кілька оригінальних графіків. Саме стільки, щоб акцентувати кожну розповідь, щоб посилити тему. Дані перетворилися на паузу в розповіді, на спосіб «перейти на іншу передачу».

Ілюстрація 32. Дані – це люди: цінність даних полягає в індивідуальних сюжетах, які вони представляють ( (Wall Street Journal)

Насамкінець ці дані стали людьми – фотографіями та розповідями. Вони обрамляли кожен сюжет і представляли внутрішній конфлікт між країнами.

Перед тим, як ми опублікували цю роботу, напередодні Нового року, коли ми всі обдумували, що там на горизонті, я знала усіх цих членів родин за іменами. Я й зараз думаю про те, як в них справи. І якщо це не схоже на проект із журналістики даних – хай так і буде. Чому? Тому що ті моменти, які задокументовані в проекті «Життя в Єврозоні», ці тексти про те, як вони сидять за обідом і розмовляють про роботу й про життя зі своєю родиною, були тим, чим ми змогли поділитися з нашими читачами. І це стало можливим тому, що ми зрозуміли сенс даних.

Ілюстрація 33. Життя в Єврозоні (Wall Street Journal)

Сара Слобін, Wall Street Journal

На що йдуть гроші з гаманця громади: OpenSpending.org

У 2007 році Джонатан Грей прийшов до фундації Open Knowledge та приніс викладену на одному листочку пропозицію проекту під назвою «На що йдуть мої гроші?» Мета – спростити розуміння мешканцями Британії того, на що витрачаються державні кошти. Все це задумувалося як тестування більшого проекту з візуального представлення громадської інформації, заснованого на новаторській роботі Отто та Марії Нейрат із Isotype Institute у 1940-ві роки.

Ілюстрація 34. На що йдуть мої гроші? (Фундація Open Knowledge)

Проект «На що йдуть мої гроші?» давав змогу користувачам досліджувати загальнодоступні дані, отримані з різноманітних джерел, за допомогою інтуїтивно зрозумілих інструментів, написаних на програмному забезпеченні з відкритим кодом. Ми перемогли на конкурсі з розробки прототипу проекту, а пізніше отримали від цифрового підрозділу 4IP, що належав телеканалу Channel 4, замовлення на розробку на його основі повноцінної веб-програми. Гуру з інформаційного дизайну Девід МакКендлес (з проекту Information is Beautiful) розробив кілька різних варіантів візуального представлення даних, яке б допомагало людям сприймати великі цифри – а саме, «Країна та регіональний аналіз», яка показує розподіл коштів у різних частинах країни, та «Хліб насущний», яка показує громадянам структуру їхніх податкових платежів щодня – у фунтах стерлінгів та пенсах.

Ілюстрація 35. На що йдуть мої гроші? Податковий калькулятор «Хліб насущний» (фундація Open Knowledge)

На той час святим Граалем для проекту була база даних «Об'єднана онлайнова інформаційна система» (Combined Online Information System), або, як її назвали у формі дотепної абревіатури, COINS («монети» - прим.) Це була найбільш повна та деталізована база даних з британських фінансів. Працюючи з Лізою Еванс (перш ніж вона приєдналася до команди проекту Datablog у Guardian) та Френсісом Ірвінгом (зараз – знаменитість у проекті Scraperwiki), Мартіном Розенбаумом (ВВС) та іншими, ми направляли численні запити на отримання даних – у багатьох випадках безуспішно.

Коли в середині 2010 року ці дані зрештою були оприлюднені, це широко трактувалося як перемога прихильників принципу прозорості. Нам дали розширений доступ до даних, які ми могли завантажити в нашу веб-програму, і ми здобули відчутну увагу зі сторони ЗМІ, коли цей факт став відомим. У день публікації десятки журналістів з’явилися на нашому каналі чату IRC, щоб обговорити реліз та поставити запитання, а також щоб дізнатися, як відкрити та досліджувати ці дані (файли мали розмір у десятки гігабайтів). І хоч деякі мудрагелі заявляли: такий масивний набір даних настільки складний, що це http://www.silicon.com/management/public-sector/2010/06/10/tax-spend-revelations-buried-deep-in-whitehall-data-graveyard-39745912">насправді не прозорість, а темрява, багато хоробрих журналістів занурилися в ці дані, щоб дати читачам безпрецедентну картину того, як саме витрачаються державні кошти. Guardian наживо писала в своєму блозі про цей реліз, багато інших ЗМІ також висвітлювали цю подію та публікували аналітику по інформації, знайденій у цих даних.

Не пройшло багато часу, як ми почали отримувати запити про те, як запустити аналогічні проекти в інших країнах світу. Невдовзі після запуску OffenerHaushalt – версії проекту для державного бюджету Німеччини, створеного Фрідріхом Ліндбергом – ми запустили OpenSpending, міжнародну версію проекту, спрямовану на те, щоб допомогти користувачам створювати карту державних витрат у різних країнах світу за тим же принципом, як проект OpenStreetMap допомагає наносити на карту географічні об’єкти. Ми розробили новий дизайн з допомогою талановитого Грегора Айша, який частково базувався на оригінальному дизайні Девіда МакКендлеса.

Ілюстрація 36. OffenerHaushalt, німецька версія проекту «На що йдуть мої гроші?» (фундація Open Knowledge)

У проекті OpenSpending ми використовували широку співпрацю з журналістами – для того, щоб отримати, представити, інтерпретувати та подати громадськості дані, пов’язані з витратами. OpenSpending у першу чергу є величезною, придатною для застосування пошукових механізмів базою даних державних витрат – це як інформація про бюджет на високому рівні, так і фактичні витрати на рівні фінансових транзакцій. Поверх цього ми створили «під ключ» серії візуалізацій – таких, як «прямокутні діаграми» та «пухирцеві дерева». Будь-хто міг завантажити дані по витратах свого місцевого бюджету та отримати з них візуалізацію.

І хоч ми спочатку думали, що існуватиме більша вимога на наші більш складні візуалізації, після спілкування з медійними організаціями ми зрозуміли, що у них є більше простіших потреб, які слід було задовольнити в першу чергу, - таких, як здатність інтегрувати динамічні таблиці даних у їхні блоги. Бажаючи заохотити редакції до того, щоб паралельно з їхніми публікаціями вони надавали й доступ до даних, ми і для цього створили відмет.

Наш перший великий реліз відбувся під час першого Міжнародного фестивалю журналістики в Перуджі (Італія). Група програмістів, журналістів та держслужбовців спільно попрацювала над тим, щоб завантажити дані по Італії на платформу OpenSpending – це дало розлогу картину того, як витрати розподіляються поміж центральними, регіональними та місцевими адміністраціями. Про це відписалися такі ЗМІ, як Il Fatto Quotidiano, Il Post, La Stampa, Repubblica та Wired Italia, а також Guardian.

Ілюстрація 37. Італійська версія проекту «На що йдуть мої гроші» (La Stampa)

У 2001 ми працювали разом із проектом «Опублікуй, що ти оплачуєш» та Інститутом міжнародного розвитку над візуалізацією допомоги Уганді в 2003-2006 роках. Для нас це було новим, бо вперше можна було показати потоки іноземного фінансування паралельно з національним бюджетом – це давало змог побачити, наскільки пріоритети донорів співпадали з пріоритетами уряду. Ми отримали деякі цікаві висновки: наприклад, і програми протидії СНІДу, і програми планування родини, як виявилося, майже повністю фінансувалися зовнішніми донорами. Про це написав Guardian.

Ми також спільно з неурядовими організаціями та ініціативними групами працювали над пошуком перехресних посилань між даними про витрати та іншими джерелами інформації. Наприклад, організація Privacy International вийшла на нас і великим списком компаній, що виробляють обладнання для стеження, та списком державних установ, що брали участь у відомій міжнародній виставці технологій для стеження, яку неофіційно називають «Бал жучків». Систематичний пошук перехресних посилань між назвами цих компаній та базою даних витрат давав змогу встановити, які з компаній отримали урядові контракти – а потім це можна було використати для запитів відповідно до закону про свободу інформації. Цю тему висвітлили Guardian та Wall Street Journal.

Наразі ми працюємо над покращенням фінансової грамотності журналістів та громадськості – виконуючи частину проекту під назвою «Історії витрат» (Spending Stories). Він дає змогу користувачам поєднувати дані про державні витрати зі статтями, пов’язаними з цими витратами, і в такий спосіб бачити цифри, що стоять за статтями, та статті, що стоять за цифрами.

Працюючи в цій галузі, ми дізналися про таке:

• Журналісти часто не призвичаєні до роботи з «сирими» даними, і багато з них не вважають їх необхідним підґрунтям для журналістської роботи. Шукати теми статей у «сирій» інформації – це все ще порівняно нова ідея.

• Процес аналізу та розуміння даних потребує багато часу, навіть якщо у вас є необхідні навики. «Утиснути» їх у короткотерміновий цикл із виробництва новин важко, тому журналістику даних частіше використовують у більш довготермінових проектах, таких як розслідування.

• Дані, які оприлюднює уряд, часто є неповними або застарілими. Дуже часто бази даних, надані в публічний доступ, не придатні для розслідувань, якщо не додати до них більш специфічну інформацію, отриману за допомогою запитів відповідно до законодавства про свободу інформації.

• Ініціативні групи, вчені та дослідники часто мають більше часу та ресурсів на проведення розширених досліджень масивів даних, ніж журналісти. Об’єднання з ними в єдину команду та командна робота можуть бути дуже плідними.

Люсі Чемберс та Джонатан Грей, фундація Open Knowledge

Переклад здійснено за підтримки фонду "Відродження"

Вибори до фінського парламенту та фінансування кампаній

Протягом останніх місяців у Фінляндії продовжувалися суди з приводу фінансування виборчої кампанії під час фінських виборів 2007 року.

Ілюстрація 38. Фінансування виборів (Helsingin Sanomat)

По тому, як у 2007 році пройшли вибори, преса виявила, що закони про оприлюднення даних з фінансування кампаній не писані для політиків. По суті, фонди кампаній витрачалися на підкуп виборців політиками, які потім відмовилися відкрити дані про ці витрати, як цього вимагає фінське законодавство.

Після цих інцидентів закон став суворішим. І на загальнодержавних виборах у березні 2011 року видання Helsingin Sanomat вирішило ретельно дослідити усі доступні дані з фінансування кампаній. За новим законом фінансування виборчої кампанії має бути відкритим, і лише пожертви до 1500 євро можуть залишатися анонімними.

1. Знайти дані та програмістів

Helsingin Sanomat організовувала в себе хакерські марафони (хакатони) з березня 2011 року. Ми запрошували фінських програмістів, журналістів та графічних дизайнерів до підвального приміщення в нашій будівлі. Учасники ділилися на групи по троє, і їм пропонувалося розробити візуалізації та програми. У нас на той час було десь по 60 учасників на кожному з таких заходів. Ми вирішили, що дані з фінансування кампаній стануть центральною темою хакатону HS Open #2 в травні 2011 року.

Національна аудиторська служба Фінляндії – це офіційна установа, яка зберігає документацію про фінансування кампаній. Тут нам було нескладно. Директор з інформаційних технологій цієї служби, Якко Хамунен, створив веб-сайт, що надає доступ в режимі реального часу до бази даних з фінансування кампаній. Аудиторська служба зробила це всього через два місяці після нашого запиту.

Сайт Vaalirahoitus.fi від того часу й надалі надаватиме пресі та громадськості інформацію про фінансування кампаній на кожних виборах.

2. Знайти ідеї під час мозкового штурму

Учасники хакатону HS Open #2 придумали двадцять різних прототипів того, що можна було б зробити з даними. Усі ці прототипи можна знайти на нашому сайті (текст фінською мовою).

Дослідник з біоінформатики на ім’я Жанне Пелтола відзначив, що дані з фінансування кампаній виглядали подібно до генетичних даних, які вони досліджували з метою пошуку в них взаємних залежностей. У біоінформатиці є програма з відкритим кодом під назвою Cytoscape, яку використовують для позначення цих взаємних залежностей. Тож ми пропустили ці дані через Cytoscape й отримали дуже цікавий прототип.

3. Втілити ідею на папері й у Інтернеті

За законом про фінансування кампаній обрані парламентарі повинні оприлюднити дані про фінансування через два місяці після виборів. На практиці це означає, що ми отримуємо дійсні дані в середині червня. На хакатоні HS Open ми мали дані лише від тих парламентарів, які подали їх завчасно.

Також виникла проблема з форматом даних. Національна аудиторська служба надавала дані у двох файлах у форматі CSV. Один містив дані про загальний бюджет кампаній, у іншому був перелік усіх донорів. Нам треба було поєднати ці дві бази даних, створивши файл, у якому було три колонки: донор, отримувач та сума. Якщо політики використовували власні дані, в нашому форматі це виглядало так: політик А пожертвував Х євро політикові А. Можливо, це не зовсім інтуїтивно зрозуміло, але для Cytoscape цей формат підійшов.

Коли ми очистили та переформатували дані, то просто пропустили їх через Cytoscape. На основі результату наш графічний підрозділ зробив графіку на цілу сторінку.

Насамкінець ми створили красиву візуалізацію на нашому сайті. Цю графіку ми робили не на основі результатів аналізу за мережевим методом (з допомогою Cytoscape - прим.). Ми хотіли, щоб люди отримали простий спосіб дізнатися, скільки коштів іде на кампанію, і хто дає ці кошти. Перший режим перегляду показує розподіл коштів між парламентарями. Коли ви клікаєте на певному парламентарю, з’являється розшифровка його чи її фінансувань. Ви також можете проголосувати, гарним чи поганим є цей конкретний донор. Візуалізацію створили Джуна Рувінен та Юкка Кокко з рекламної агенції під назвою Satumaa.

Веб-версія візуалізації фінансування виборчих кампаній використовує такі ж дані, як і мережевий аналіз.

4. Опублікувати дані

Зрозуміло що, Національна аудиторська служба вже опублікувала дані самостійно, тож не було потреби робити це вдруге. Але так як ми очистили дані та переформатували їх у кращу структуру, ми вирішили їх оприлюднити. Ми зробили це на основі відкритої ліцензії Creative Commons Attribution. Після цього кілька незалежних програмістів зробили візуалізації цих даних, і ми опублікували деякі з них.

Інструменти, які ми використовували під час роботи над проектом: Excel та Google Refine для очистки та аналізу даних, Cytoscape для мережевого аналізу, Illustrator та Flash для візуалізацій. Замість Flash краще було б використати HTML5, але в нас була обмаль часу.

Чому ми навчилися? Можливо, найважливіший урок полягав у тому, що структури даних – це може бути дуже складно. Якщо оригінальні дані представлені в «незручному» форматі, на перерахунок та конвертування може піти багато часу.

Electoral Hack: виборча журналістика в режимі реального часу

Electoral Hack – це проект політичної аналітики, який візуалізує дані попередніх результатів виборів у Аргентині 23 жовтня 2011 року. Система також містить інформацію з попередніх виборів та соціодемографічну статистику з усієї країни. Проект оновлювався в режимі реального часу на основі інформації про попередні результати підрахунку голосів на національних виборах 2011 року, а потім навів підсумкові результати виборів.

Це була ініціатива групи Hacks/Hackers з Буенос-Айреса та політичного аналітика Енді Тоува, і вона була втілена в життя завдяки спільним зусиллям журналістів, програмістів, дизайнерів, політологів та інших представників місцевого осередку Hacks/Hackers.

Ілюстрація 39. Вибори-2011 (Hacks/Hackers Buenos Aires)

Які дані ми використовували?

Всі дані надходили з офіційних джерел: Національне виборче бюро забезпечило доступ до даних попереднього підрахунку від Indra; міністерство внутрішніх справ надало інформацію про виборчі посади та кандидатів від різних політичних партій; університетський проект надав біографічні дані та політичні платформи кожного з кандидатів у президенти; соціодемографічна інформація надійшла від національного перепису 2001 року (INDEC), перепису 2010 року (INDEC) та від міністерства охорони здоров’я.

Як ми програмували?

Програма була створена під час виборчого хакатону 2011 року, проведеного Hacks/Hackers Буенос-Айрес за день до виборів 23 жовтня 2011 року. У хакатоні взяли участь 30 добровольців із різним фахом та досвідом. Проект Electoral Hack розроблявся як відкрита платформа, яку можна буде вдосконалювати з часом. Для цієї технології ми використали Google Fusion Tables, Google Maps та бібліотеки векторної графіки.

Ми працювали над створенням полігональних форм для відтворення географічних даних та електоральної демографії. Поєднавши ці полігони з геоінформаційних програм та геометрію із публічних таблиць у Google Fusion Tables, ми згенерували таблиці з ключами, що пов’язували їх із електоральною базою даних міністерства внутрішніх справ, даними Indra та соціодемографічними даними від INDEC. З цього ми створили візуалізації в Google Maps.

Використовуючи інтерфейс прикладних програм (API) Google Maps, ми опублікували кілька тематичних карт, що представляли просторовий розподіл голосування за допомогою різних відтінків кольорів, де інтенсивність кольору означала відсоток голосів, отриманих різними кандидатами на президентство в різних адміністративних дільницях та пунктах соціологічних опитувань. Особливу увагу ми надали великим центрам урбанізації: Буенос-Айресу, 24 районам Великого Буенос-Айресу, містам Кордобі та Розаріо.

Ми застосували ту ж техніку для створення тематичних карт попередніх виборів, а саме президентських праймеріз 2011 року та виборів 2007 року, а також розподілу соціодемографічних даних, таких як бідність, дитяча смертність та умови життя, - все це придатне для аналізу та порівняння. Проект також показав просторовий розподіл відмінностей у процентній кількості голосів, набутих кожним із претендентів у загальних виборах у жовтні в порівнянні з серпневими праймеріз.

Згодом, використавши часткові дані попереднього підрахунку голосів, ми створили анімовану карту, що зображала анатомію підрахунку голосів: прогрес підрахунку відтворювався починаючи від закриття місцевих дільниць аж до ранку наступного дня.

Плюси

• Ми мали намір знайти та представити дані, і в нас це вийшло. У пригоді стала база даних UNICEF із дитячої соціодемографії, так само як бази даних кандидатів, створених групою yoquierosaber.org з університету Torcuato Di Tella. Під час хакатону ми зібрали великий обсяг додаткових даних, які ми зрештою не стали включати.

• Було очевидно, що журналістську та програмістську роботу підсилили науковці. Без участі Енді Тоува та Хіларіо Морено Кампоса проект би не вдався.

Мінуси

• Соціодемографічні дані, якими ми могли скористатися, були застарілими (більшість – із перепису 2001 року) і не дуже деталізованими. Наприклад, в них не було детально вказано середньостатистичний місцевий ВВП, основні види економічної діяльності, рівень освіти, кількість шкіл, докторів на душу населення, багато інших речей, які б нам дуже хотілося мати.

• Початково ми мали намір створити інструмент, який можна було використовувати для комбінування та відтворення будь-яких довільних даних, щоб журналісти могли легко публікувати в Інтернеті дані, які їх зацікавили. Але ми мусили залишити цю ідею на майбутнє.

• Так як проект створювався добровольцями за короткий проміжок часу, було неможливо зробити все, що ми хотіли. Попри це, ми досягли значного прогресу в правильному напрямку.

• З тієї самої причини вся спільна робота 30 людей зійшлася клином на одному програмісті, коли почали надходити дані, запропоновані владою, і у нас виникли проблеми з імпортом даних у режимі реального часу. За кілька годин ми це владнали.

Наслідки

Платформа Electoral Hack створила значний вплив на ЗМІ, про неї повідомили на телебаченні, радіо, в друкованих медіа та в онлайні. Карти з проекту були використані кількома медійними платформами під час виборів та в наступні дні. З плином часу карти та візуалізації оновлювалися, що ще більше нарощувало трафік. У день виборів сайт, створений того ж самого дня, отримав близько 20 тисяч унікальних відвідувань, а карти з нього протягом двох днів друкувала на першій шпальті газета Página/12, вони також були використані в статтях у La Nación. Деякі карти з’явилися в друкованій версії газети Clarín. Вперше в історії аргентинської журналістики були використані інтерактивні карти, що оновлювалися в режимі онлайн. На центральних картах можна було чітко бачити впевнену перемогу Кристини Фернандес де Кірхнер із 54% голосів, виділену кольоровим відтінком. Вони також допомогли користувачам розуміти специфічні ситуації, коли місцеві кандидати здобували повну перемогу в провінціях.

Цей розділ був написаний Маріано Блехманом, Маріанною Берруезо, Серджіо Соріном, Енді Тоувом та Мартіном Сарсале з Hacks/Hackers Буенос-Айрес

Дані у новинах: Вікілікс

Все почалося з того, що одна команда журналістів-розслідувальників запитала нас: «Ви ж розбираєтеся в електронних таблицях, чи не так?» І це була нічогенька таблиця: 92201 рядок даних, кожен з яких містив детальний виклад військової події в Афганістані. Це були воєнні досьє Вікілікс. Частина перша, еге ж. Потім будуть ще два епізоди: Ірак та дипломатичні телеграми. Офіційна назва цих документів – SIGACTS, база даних суттєвих подій у армії США.

Ілюстрація 40. Воєнні досьє Вікілікс (The Guardian)

Афганські воєнні записи – отримані також New York Times та Der Spiegel – являли собою журналістику даних у дії. Те, що ми хотіли – це дати можливість нашим фахівцям-репортерам отримати з цієї інформації високоякісні «людяні» сюжети для статей – і ми хотіли проаналізувати ці дані, щоб отримати велику картину, показати, як насправді йде війна.

На початковому етапі для нас мало суттєве значення те, що ми не публікуватимемо повну базу даних. Вікілікс вже мала намір це робити, і ми хотіли бути певні, що не розкриємо імена інформантів чи без потреби не наражатимемо на небезпеку війська НАТО. У той же час нам треба було полегшити роботу з цими даними нашої команди журналістів-розслідувальників, очолюваної Девідом Леєм та Ніком Девісом (вони обговорювали оприлюднення даних із Джуліаном Ассанжем). Ми також хотіли спростити доступ до ключової інформації, по-справжньому, настільки прозоро та відкрито, наскільки ми могли це зробити.

Дані надійшли до нас у формі велетенського файлу в форматі Excel - понад 92201 рядок даних, деякі з них порожні або погано відформатовані. Це не сприяло намаганням репортерів «виловити» з цих даних інформацію для статей, і файл був занадто великим, щоб писати на його основі зрозумілі статті.

Наша команда створила просту внутрішню базу даних, застосувавши SQL. Тепер репортери могли вести в ній пошук інформації для своїх статей за ключовими словами чи подіями. Несподівано базою даних стало можливо користуватися, і генерування сюжетів спростилося.

Дані були гарно структуровані: в кожної події були такі ключові дані: час, дата, опис, чисельність утрат та – що мало критичне значення – точна широта й довгота місця події.

Ми також почали фільтрувати дані, щоб у такий спосіб посприяти журналістському висвітленню одного з ключових сюжетів війни: зростання нападів із застосуванням саморобних вибухових пристроїв (СВП) – виготовлених у домашніх умовах та встановлених обабіч дороги фугасів, які неможливо виявити заздалегідь і з якими важко боротися. У період 2004 по 2009 рік було близько 7500 вибухів СВП або засідок з їх використанням (засідка – це коли атака поєднується із, скажімо, обстрілом із стрілецької зброї або реактивних гранатометів). Коли ми очистили дані, то виявили ще 8 тисяч випадків, пов’язаних із СВП. Ми хотіли побачити, як ситуація змінювалася з часом – і мати змогу робити порівняння. Ці дані дали нам змогу виявити, що на півдні, де були розташовані британські та канадські війська, ситуація була найгіршою – що підтвердили наші репортери, які висвітлювали цю війну.

Іракські воєнні досьє, оприлюднені в жовтні 2010 року, вкинули в публічний простір ще 391000 записів.

Ці записи були в іншій ваговій категорії, ніж витік інформації по Афганістану – є підстави заявляти, що завдяки цьому війна в Іраку стала найбільш задокументованою в історії. Кожна незначна деталь потрапила в наше розпорядження, її можна було аналізувати та робити розбір. Але один фактор вирізняється на загальному фоні: це загальна кількість жертв, більшість із яких – цивільні.

Так само як і з Афганістаном, Guardian вирішив не публікувати повну базу даних, головним чином тому, що ми не могли бути певні, що підсумкові записи не містять конфіденційних подробиць про інформантів, і таке інше.

Але ми надали нашим користувачам можливість завантажити електронну таблицю з записами кожного інциденту, що супроводжувався загибеллю людей, загалом близько 60 тисяч рядків. Ми вилучили колонку з полем «підсумки», тож це були лише основні дані: суть бойової сутички, кількість загиблих та географічні деталі.

Ми також розмістили всі інциденти, у яких хтось загинув, на карті за допомогою Google Fusion tables. Результат був не ідеальним, але це була перша спроба картографування тих моделей руйнації, які спустошували Ірак.

У грудні 2010 року були оприлюднені дипломатичні депеші. Це знову була інша вагова категорія, велетенська база даних офіційних документів: 251287 депеш з понад 250 посольств та консульств США з усього світу. Це унікальна картина американської дипломатичної мови – вона включає понад 50 тисяч документів, створених за чинної адміністрації Обами. Але що входить до цих даних?

Самі депеші передавалися через гігантську секретну мережу інтернет-маршрутизації, або SIPRNet. SIPRNet – це глобальна військова американська інтернет-система, відокремлена від цивільного інтернету та підпорядкована міноборони США у Вашингтоні. Після терактів у вересні 2001 року в США розпочалися дії з поєднання архівів урядової інформації, з розрахунком, щоб важливі розвідувальні повідомлення більше не «застрягали» в вузлах інформаційного накопичення, або «трубопроводах». За минулі десять років все більше американських посольств було під’єднано до SIPRNet, з тим, щоб забезпечити обмін військовою та дипломатичною інформацією. До 2002 року в SIPRNet були 125 посольств, до 2005 їх кількість зросла до 180, і зараз переважна більшість дипломатичних місій США з усього світу під’єднана до цієї системи – ось чому більшість депеш датовані 2008 та 2009 роками. Як писав Девід Лей:

"Депеша з посольства, що має помітку SIPDIS, автоматично завантажується на засекречений веб-сайт посольства. Звідти до неї може отримати доступ не тільки будь-хто з держдепартаменту, але й будь-хто з армії США, у кого є відповідний доступ до цього рівня секретності, пароль та комп’ютер, під’єднаний до SIPRNet"
…
А це вражаюча кількість людей – понад три мільйони. В системі є кілька рівнів даних; аж до поданих з грифом SECRET NOFORN, що означає, що ці дані ніколи не мають бути показані негромадянам США. Натомість вони призначені для прочитання посадовцями у Вашингтоні, аж до рівня держсекретаря Хілларі Клінтон. Депеші зазвичай складають місцеві посли або їхні підлеглі. Документи від закордонних розвідувальних служб під грифом “Top Secret” та вище не доступні через SIPRNet.

На відміну від попередніх релізів, це був головним чином текст, без цифрових чи ідентичних даних. Ось що туди входило:

Джерело
Посольства чи установа, яка надіслала депешу

Список адресатів
Зазвичай депеші відправляли певній кількості інших посольств чи установ

Поле теми
Зазвичай короткий підсумок депеші

Ключові слова
Кожна депеша була позначена певною кількістю ключових слів-абревіатур

Тіло повідомлення
Сама депеша. Ми намагалися не публікувати їх через очевидні причини збереження безпеки.

Ще один цікавий нюанс у цій історії: ці депеші майже спричинили витік інформації за замовленням. Коли їх оприлюднили, вони протягом кількох тижнів перебували в топ-новинах, але зараз, як тільки з’являється публікація про якийсь корумпований режим чи міжнародний скандал, доступ до депеш означає доступ до нових сюжетів.

Аналіз депеш є величезним завданням, яке, можливо, ніколи не вдасться остаточно завершити.

Це відредагована версія розділу, вперше опублікованого в книзі «Факти-священна річ: сила даних» Саймона Роджерса, The Guardian

Хакерський марафон Mapa76

Ми відкрили в Буенос-Айресі підрозділ Hacks/Hackers («Журналісти/хакери») у квітні 2011 року. Ми провели дві початкові зустрічі, щоб популяризувати ідею більшої співпраці між журналістами та програмістами. На кожну прийшло від 120 до 150 людей. На третій зустрічі ми організували 30-годинний хакатон за участю восьми учасників під час конференції з цифрової журналістики в місті Розаріо, за 300 кілометрів від Буенос-Айреса.

Ілюстрація 41. Mapa76 (Hacks/Hackers Буенос-Айрес)

Темою, що весь час поставала на цих зустрічах, було бажання «вилучити» великі обсяги даних з Інтернету та представити їх у візуальній формі. Так народився проект під назвою Mapa76.info, який допомагає користувачам вилучати дані і потім представляти їх, використовуючи карти та «лінійки часу». Завдання аж ніяк не просте.

Чому Mapa76? 24 березня 1976 року в Аргентині стався державний заколот, який тривав до 1983 року. За цей період військової диктатури орієнтовно 30 тисяч людей зникли, тисячі загинули, і 500 дітей народилися в тюрмі. Більш ніж 30 років по тому кількість людей в Аргентині, засуджених за злочини проти людяності, скоєні під час диктатури, становить 262 особи (дані станом на вересень 2011 року). Наразі тривають 14 судів та ще 7 мають призначену дату початку. У розпочатих судових справах фігурують 802 особи.

Ці судові справи породжують значні обсяги даних, які складно обробляти дослідникам, журналістам, організаціям із прав людини, суддям, прокурорам та ін. Дані створюються в розрізнений спосіб, і слідчі зазвичай не використовують програмний інструментарій, щоб інтерпретувати ці дані. Зрештою це призводить до того, що певні факти залишаються поза полем зору, та обмеження кількості гіпотез. Mapa76 – це інструмент журналістських розслідувань, що надає відкритий доступ до цієї інформації заради виконання журналістських, законодавчих, юридичних та історичних завдань.

Готуючись до хакатону, ми створили платформу, яку б використовували програмісти та журналісти під час спільної роботи у день заходу. Мартін Сарсале розробив кілька базових алгоритмів для вилучення структурованих даних із нерозмічених текстових документів. Були використані деякі бібліотеки з проекту DocumentCloud.org, але небагато. Платформа автоматично аналізувала та вилучала з тексту імена, дані та географічні назви – і дозволяла користувачам досліджувати ключові факти у різних справах (такі як дата народження, місце арешту, імовірне місце зникнення тощо).

Нашою метою було надання платформи для автоматичного вилучення даних із судових вироків по військовій диктатурі у Аргентині. Ми хотіли знайти спосіб автоматичного (або принаймні напівавтоматичного) показу ключових даних, пов’язаних із справами у період 1976-1983 року, що засновані на письмових свідченнях, судових слуханнях та вироках. Вилучені дані (імена, місця та дати) збиралися, накопичувалися, після чого дослідники могли їх аналізувати чи покращувати, а також досліджувати за допомогою карт, лінійок часу та інструментів мережевого аналізу.

Проект дозволяв журналістам, слідчим, прокурорам та свідкам простежувати історію життя конкретної особи, включно з обставинами її захоплення та подальшого зникнення або звільнення. Коли якась інформація відсутня, користувачі мали змогу «прочесати» велику кількість документів, що могли бути пов’язані з цією справою.

Ми оприлюднили інформацію про хакатон під час зборів Hacks/ Hackers Буенос-Айрес, у якої на той час було близько 200 членів (на час написання цього розділу їх близько 540). Ми також зв’язалися з багатьма організаціями із захисту прав людини. На зустріч прийшло близько 40 осіб, серед них журналісти, представники правозахисних організацій, програмісти та дизайнери.

Під час хакатону ми визначили завдання, які могли б незалежно виконувати різні фахові групи учасників, щоб полегшити перебіг процесу. Наприклад, ми попросили дизайнерів попрацювати над інтерфейсом, який поєднував би карти та лінійки часу, програмістів – пошукати способи вилучення структурованих даних та розробити алгоритми розрізнення імен, а журналістів – подивитися, що сталося з певними людьми, порівняти різні версії історій і «прочесати» документи в пошуках сюжетів про ті чи інші випадки.

Мабуть, найбільшою проблемою, яка постала після завершення хакатону, було те, що наш проект був вельми амбіційним, наші оперативні завдання – вимогливими, і було складно координувати слабко пов’язану між собою мережу волонтерів. Майже в усіх залучених до проекту осіб були завантажені робочі дні, а багато хто також брав участь у інших акціях та проектах. Hacks/Hackers Буенос-Айрес провів 9 зустрічей у 2011 році.

Проект наразі перебуває на стадії активного розвитку. Є ядро команди з чотирьох людей, яке працює з понад десятьма учасниками. У нас є публічний список розсилки та репозиторій коду, і в такий спосіб усі охочі можуть долучитися до проекту.

Маріано Блехман, Hacks/Hackers Буенос-Айрес

Переклад здійснено за підтримки фонду "Відродження"

Як Guardian Datablog висвітлював бунти в Британії

Влітку 2011 року Британією прокотилася хвиля масових заворушень. На той час політики вважали, що ці дії категорично не пов’язані із проблемою бідності, і ті, хто брали участь у мародерстві, є звичайними злочинцями. Більше того, прем’єр-міністр та чільні політики-консерватори звинуватили соціальні мережі у підбурюванні заворушень, натякаючи, що саме ці платформи заохочували погромників, і що бунти були організовані за допомогою Facebook, Twitter та Blackberry Messenger. Лунали заклики тимчасово заблокувати соціальні мережі. Через те, що уряд не розпочав розслідування причин виникнення бунтів, газета Guardian у співпраці з Лондонською школою економіки розпочала фундаментальний проект «Вивчаючи бунт», щоб дослідити ці питання.

Ілюстрація 42. Британські бунти: всі підтверджені інциденти (The Guardian)

Газета широко застосовувала методи журналістики даних, щоб дати громаді краще розуміння того, хто брав участь у мародерстві, і чому. Понад те, вони також працювали з іще однією командою науковців, очолюваною професором Робом Проктером з університету Манчестера, щоб краще зрозуміти роль соціальних медіа, які сама Guardian активно використовувала під час висвітлення заворушень. Команду проекту «Вивчаючи бунт» очолив Пол Льюіс, редактор спецпроектів у Guardian. Під час заворушень Пол готував репортажі з місця подій у містах по всій Англії (найчастіше за допомогою свого екаунту в Твіттері, @paullewis). Ця друга команда опрацювала 2,6 мільйони твіт-повідомлень про заворушення, які були надані сервісом Twitter. Головною метою цього дослідження соціальних медіа було встановити, як поширюються чутки в Twitter, яку функцію виконують різні користувачі/дійові особи у «розмноженні» та поширенні потоків інформації, чи ця платформа підбурювала до бунту, а також дослідити інші способи організації.

Говорячи про застосування методів журналістики даних та візуалізацій даних, буде корисно розрізняти два ключові періоди: власне період заворушень і те, в який спосіб дані допомагали повідомляти сюжети, пов’язані з поширенням заворушень; та другий період набагато інтенсивніших досліджень у виконанні двох команд науковців, що працювали з Guardian, зі збору даних, аналізу їх та написання поглиблених звітів про виявлені результати. Результати першої фази проекту «Вивчаючи бунт» були опубліковані під час тижня інтенсивного висвітлення теми на початку грудня 2011 року. Нижче наведено кілька базових прикладів використання журналістики даних під час обох періодів.

Фаза один: Бунти як вони є

За допомогою простих карт команда журналістів даних із Guardian показувала місцезнаходження підтверджених випадків заворушень, і поєднавши дані про рівень бідності з даними про місця заворушень, вони почали спростовувати панівне твердження політиків про те, вони не були пов’язані з бідністю. Обидва ці приклади використовували готові картографічні програми, а в другому прикладі дані про місцезнаходження були поєднані з іншим набором даних, що започаткувало використання інших зв’язків та лінків.

Розглядаючи тему використання соціальних медіа під час заворушень, а саме Twitter, газета створила візуалізацію пов’язаних із бунтами хештегів, вжитих у цей період, що показало, що Twitter головним чином використовувався як спосіб реагування на заворушення, а не як засіб організації людей на мародерство, а хештег #riotcleanup («прибирання після бунту» - прим.), який розпочав спонтанну кампанію із прибирання вулиць після заворушень, характеризувався найбільш значним сплеском популярності під час періоду бунтів.

Фаза два: Вивчаючи бунт

Коли газета повідомила про факти, встановлені внаслідок інтенсивних досліджень та тісної співпраці з двома науковими командами, були створені дві візуалізації, які спричинили широке обговорення. Перша, коротке відео, показує результати поєднання відомих місць, де люди брали участь у заворушеннях, та місць поживання цих людей, тобто, демонструє так званий «маршрут бунту». Для цього газета співпрацювала з фахівцями-картографами транспорту з ITO World, щоб змоделювати найбільш імовірні маршрути, якими рухалися бунтівники, просуваючись до різноманітних місць майбутнього мародерства, вказати різні схеми для різних міст, включно з маршрутами на велику відстань.

Друга має справу зі способами поширення чуток у Твіттері. Під час дискусії з командою науковців було спільно визначено сім чуток для подальшого аналізу. Наукова команда після цього зібрала всі дані, пов’язані з кожною чуткою, та розробила кодову схему для позначення твітів за чотирма головними кодами: люди просто поширюють чутку (твердження), спростовують її (контр-твердження), ставлять питання (запит) та просто коментують (коментар). Всі твіти були закодовані в трьох примірниках і результати були візуалізовані командою фахівців з інтерактивної графіки в Guardian. Команда з Guardian написала про те, як вони створювали цю візуалізацію.

В цій візуалізації особливо вражає, що вона аргументовано показує те, що дуже важко описати, та передає вірусну природу чуток і шляхів розвитку їхнього життєвого циклу протягом певного часового проміжку. Роль провідних ЗМІ у поширенні деяких із цих чуток є очевидною (наприклад, коли їх відразу спростовують, або навпаки, підтверджують і перетворюють на новини), так само як і коректорська роль власне Твіттера щодо цих чуток. Візуалізація не тільки суттєво допомогла у створенні журналістських сюжетів, але надала бачення того, як функціонують чутки в Твіттері, що є корисною інформацією на випадок подібних подій у майбутньому.

Останній приклад чітко вказує на потужну синергію між газетою та командою науковців, спроможною виконати поглиблений аналіз 2,6 мільйонів твітів на тему заворушень. Попри те, що команда науковців створила набір специфічних інструментів задля виконання цього аналізу, вони зараз працюють над тим, щоб зробити їх доступними для всіх, хто хоче використати цей інструментарій для аналогічних завдань, і створити таким чином автоматизоване робоче місце для такого аналізу. В поєднанні з інструкціями «Як це зробити» від команди Guardian це стане корисним прикладом використання аналізу соціальних медіа та візуалізацій для того, щоб передавати такі важливі теми.

Фаріда Віз, університет Лейчестера

Шкільні звіти штату Іллінойс

Рада з питань освіти штату Іллінойс щорічно публікує шкільні «табелі», звіти про демографічні дані та показники успішності в усіх державних школах Іллінойсу. Це великий масив даних, цьогорічна версія - це таблиця з 9500 колонками. Із такими розлогими даними пов’язана проблема: треба вибрати, що саме взяти для представлення (як у будь-якому проекті з розробки комп’ютерних програм, важко не створити програму, а створити правильну програму).

Ілюстрація 43. Шкільні звіти штату Іллінойс (Chicago Tribune)

Ми працювали з репортерами та редактором нашої команди «освітян», щоб вибрати цікаві дані (там є багато даних, які виглядають цікаво, але репортер скаже про них, що насправді вони некоректні або вводять у оману).

Ми також провели опитування та консультації зі співробітниками редакції, у яких діти навчаються в школах. Ми зробили це через «пробіл у досвіді» - ні в кого із команди, яка розробляла програму, не було дітей шкільного віку. У процесі ми дізналися багато нового про наших користувачів та про зручність користування (насправді – про її відсутність на той час!) попередньою версією нашого сайту про школи.

Нашою метою була програма, спрямована на декілька специфічних типів користувачів, а саме: (1) батьки, чиї діти навчаються в школі, і які хочуть дізнатися рівень цієї школи, та (2) батьки, які хочуть визначитися, де їм мешкати, адже якість шкіл зазвичай сильно впливає на таке рішення.

На першому етапі сайт про школи розробляли два програмісти протягом шести тижнів. Оновлена версія в 2011 році – два програмісти та чотири тижні. (Насправді над проектом активно працювало троє осіб, але в усіх це був неповний робочий день, тож в сумі їх можна вважати двома).

Ключовою частиною проекту був інформаційний дизайн. Хоч ми використовували набагато менше даних порівняно з тими, що були в наявності, це все одно чимало інформації, і було непросто зробити її придатною для «споживання». На щастя, ми «позичили» фахівця з нашого графічного підрозділу – дизайнера, який спеціалізується на представленні складної інформації. Він дав нам чимало знань про дизайн діаграм і, загалом, підвів нас до такої форми представлення, яка є читабельною але при цьому не недооцінює спроможність чи бажання читача розуміти цифрові дані.

Сайт був створений з використанням мов програмування Python та Django. Дані були представлені у форматі MongoDB — інформація про школи є гетерогенною та ієрархічною, тому реляційні (табличні) бази даних погано для неї підходять (інакше ми б, напевне, використали PostgreSQL).

Для цього проекту ми вперше експериментували з інтерфейсом користувача Twitter Bootstrap, і результати нас повністю вдовольнили. Діаграми намальовані за допомогою Flot.

Програма також включає в себе багато написаних нами статей про показники шкіл. Тобто, вона працює як такий собі портал – коли з’являється нова стаття про показники школи, ми ставимо її в топі програми, поруч зі списками шкіл, пов’язаних із цією статтею (і коли виходить нова стаття, читачів chicagotribune.com скеровують на програму, а не на статтю).

Ранні відгуки показали, що читачам сподобалася наша програма про школи. Отримані нами коментарі були переважно позитивними (або принаймні конструктивними!), і кількість переглядів сторінок «вийшла з берегів». Бонусом стало те, що ці дані залишалися цікавими протягом цілого року: попри наші очікування, що кількість заходів зменшиться після того, як статті про школи зникатимуть зі стартової сторінки, наш досвід показав, що читачі заходили на цей сайт увесь рік.

Декілька ключових ідей, які ми винесли з цього проекту:

• Підрозділ графічного дизайну – ваші друзі. Вони вміють робити складну інформацію приданою для споживання.

• Просіть редакцію про допомогу. Це другий проект, для якого ми проводили в редакції опитування та інтерв’ю, і це чудовий спосіб дізнатися точку зору вдумливих людей, які, так само як наша аудиторія, мають різну фахову підготовку і зазвичай не дуже вправні з комп’ютерами.

• Показуйте свою роботу! Більшість із відгуків являла собою запити про дані, які використовувала програма. Ми забезпечили публічний доступ до великої кількості даних через інтерфейс прикладної програми (API), і невдовзі опублікуємо ті речі, які спочатку не думали включати до проекту.

Браян Боєр, Chicago Tribune

Переклад здійснено за підтримки фонду "Відродження"

Оплата лікування

Журналістам-розслідувальникам із CaliforniaWatch надійшла інформація, що велика мережа лікарень у Каліфорнії систематично вводить в оману федеральну медичну програму Medicare, яка оплачує витрати на медичне обслуговування американців віком 65 років та старше. Ця конкретна форма шахрайства, у якій були звинувачені лікарні, відома як «накрутка»: про пацієнтів повідомляють, нібито в них більш серйозні ускладнення – і вони потребують більших відшкодувань – ніж це є насправді.

Ілюстрація 44. Квашиоркор (California Watch)

Але джерелом цієї інформації була профспілка, що вела боротьбу із менеджментом лікарняної мережі, і команда CaliforniaWatch розуміла: слід провести незалежну перевірку, щоб стаття на цю тему була об’єктивною.

На щастя, у департаменті охорони здоров’я Каліфорнії є загальнодоступні дані, які представляють дуже детальну інформацію про кожен випадок лікування в усіх державних медичних установах. 128 змінних містять до 25 діагностичних кодів за довідником «Міжнародна статистична класифікація хвороб та пов’язаних із ними проблем зі здоров’ям» (відомим як ICD-9), опублікованим Всесвітньою організацією охорони здоров’я. І хоч пацієнтів не можна ідентифікувати за іменем, інші змінні повідомляють про вік пацієнта, які кошти були сплачені і яка лікарня вела лікування. Репортери дійшли висновку, що на основі цих записів можна побачити, чи лікарні, які належали до згаданої вище мережі, повідомляли про певні нетипові стани здоров’я частіше, ніж інші лікарні.

Масив даних був великим; майже чотири мільйони записів на рік, і репортери хотіли вивчити записи за шість років, щоб побачити, як змінювалися з часом певні ситуації. Вони замовили дані в державної агенції; ці дані надійшли на компакт-дисках, які нескладно було скопіювати на настільний комп’ютер. Репортер, який здійснював власне аналіз даних, використовував для роботи систему під назвою SAS. Вона дуже потужна (дає змогу аналізувати багато мільйонів записів), і її застосовують багато урядових установ, у тому числі й каліфорнійський департамент охорони здоров’я, але ця програма дорога – такий же аналіз можна зробити за допомогою будь-якого іншого інструментарію для роботи з базами даних, наприклад, Microsoft Access чи програма з відкритим кодом MySQL.

Маючи на руках дані та програми, написані для вивчення цих даних, було порівняно нескладно знайти підозрілі випадки. Наприклад, у одному із звинувачень ішлося про те, що мережа лікарень повідомляла про різні ступені дистрофії, пов’язаної з недостатнім харчуванням, значно частіше, ніж інші лікарні. За допомогою SAS аналітик даних отримав таблиці частот, де наводилася кількість випадків дистрофії по кожній з понад 300 каліфорнійських лікарень швидкої допомоги. Необроблені таблиці частот були імпортовані в Microsoft Excel для ретельнішого дослідження ситуацій у кожному госпіталі; спроможність Excel сортувати, фільтрувати та обраховувати відсотки на основі «сирих» цифр дозволили легко побачити ці ситуації.

Особливо вразили повідомлення про стан під назвою «квашиоркор», синдром дефіциту протеїну, який спостерігається майже виключно у недохарчованих дітей із нерозвинених країн, що страждають від голоду. Але мережа повідомляла, що в її лікарнях діагноз «квашиоркор» у каліфорнійців літнього віку ставили в 70 разів частіше, ніж у середньому по всіх лікарнях штату.

Для інших статей використовувалися аналогічні технології аналізу, які досліджували відсоток діагнозів на кшталт септицемії, енцефалопатії, артеріальної злоякісної гіпертензії та автономного нервового розладу. Інший аналіз дослідив звинувачення в тому, що лікарняна мережа приймала зі своїх відділів швидкої допомоги нетипово великий відсоток пацієнтів із страховкою Medicare, у яких джерело оплати послуг було більш надійним, ніж у багатьох інших пацієнтів швидкої.

Підведемо підсумки: публікації, подібні до вказаних вище, стають можливими тоді, коли ви використовуєте дані, щоб отримати докази і провести незалежну перевірку звинувачень, висунутих джерелами, у яких можуть бути суб’єктивні причини це робити. Ці публікації також є гарним прикладом того, наскільки потрібними є дієві закони про оприлюднення громадських даних; влада вимагає від лікарень надавати ці дані для того, щоб їх можна було проаналізувати – чи то владою, науковцями, журналістами-розслідувальниками, чи просто громадськими журналістами. Тема цих статей важлива тому, що вона досліджує, чи справді мільйони доларів із громадських коштів були витрачені належним чином.

Стів Дойг, Школа журналістики штату Аризона імені Уолтера Кронкайта

Криза будинків опіки

Розслідування індустрії приватних будинків догляду, проведене Financial Times, виявило, що деякі інвестори закритих акціонерних товариств перетворили опіку над людьми літнього віку на машину з видобування прибутків. За бізнесову модель, яка ставила на перше місце повернення вкладених коштів, а не якісний догляд, платили людськими життями.

Ілюстрація 45. Криза приватної опіки

Цей аналіз з’явився вчасно, бо фінансові проблеми компанії «Південний Хрест», на той час найбільшого в країні оператора закладів із догляду, вкрай загострилися. Уряд десятиліттями просував приватизацію в сфері опіки й продовжував вихваляти приватний сектор за його вправну бізнесову практику.

Наше розслідування почалося з аналізу даних, які ми отримали від британського регулятора, відповідального за інспекції будинків догляду. Ця інформація була публічною, але знадобилося багато наполегливості, щоб її надали у формі, придатній для користування.

До даних входили рейтинги (наразі вже неіснуючі) показників окремих будинків догляду, із розподілом на приватні, державні чи неприбуткові. Комісія з якості опіки (CQC) до червня 2010 року присвоювала будинкам догляду рейтинг за якістю (0 зірок – погана, 3 зірки – найвища).

На першому етапі слід було провести масштабну очистку даних, бо, наприклад, інформація, надана Комісією з якості опіки, використовувала різнотипні класифікатори. Це головним чином робилося в Excel. Ми також встановили – шляхом «офісно-телефонного» дослідження – які саме будинки належали приватним структурам. До фінансової кризи сектор з опіки, немов магніт, притягував інвесторів з приватних фондів чи сфери нерухомості, але декілька – такі, як «Південний Хрест» - постали перед серйозними фінансовими труднощами. Ми хотіли дізнатися, як впливала (якщо впливала взагалі) приватна власність на якість догляду.

Порівняно нескладна послідовність підрахунків у Excel дозволила нам встановити, що неприбуткові та державні будинки опіки в середньому мали значно кращі показники якості, ніж приватний сектор. Деякі будинки опіки, що належали приватним структурам, мали результати значно вищі за середні, а інші - значно нижчі.

В комбінації з «польовими» репортерськими розслідуваннями, вивченням прикладів недбалого догляду та поглибленим розглядом невдалої регуляторної політики, так само як і іншими даними - про рівні оплати, плинність кадрів тощо, наш аналіз зміг відтворити справжню картину стану справ із опікою над літніми людьми.

Деякі ремарки:

• Робіть нотатки про всі маніпуляції над оригінальними даними.

• Створіть копію оригінальних даних і ніколи не змінюйте сам оригінал.

• Перевіряйте й повторно перевіряйте дані. Виконуйте аналіз кілька разів (і щоразу від самого початку).

• Якщо ви згадуєте певні компанії чи людей, забезпечте їм право на відповідь.

Синтія О’Мурчу, Financial Times

Телефон-донощик

Більшість людей мають лише теоретичну уяву про те, що можна зробити з даними, які передають наші мобільні телефони; прикладів з реального життя було небагато. Ось чому Малте Спітц з німецької Партії зелених вирішив оприлюднити свої власні дані. Щоб отримати доступ до цієї інформації, він був змушений подати позов на телекомунікаційного велетня «Дойче Телеком». Ці дані, що лягли в основу відповідної інтерактивної карти ZEIT Online, містилися в масивному документі Excel. Кожен із 35831 рядків електронної таблиці відповідав кожному випадку передачі даних з мобільного телефону Спітца протягом півроку.

Ілюстрація 46. Телефон-донощик (Zeit Online)

Якщо ці випадки розглядати окремо, вони загалом виглядають безневинно. Але якщо звести їх разом, вони утворюють те, що слідчі називають «профілем» - чітку картину звичок та схильностей особи, і, зрозуміло, всього життя цієї особи. Профіль показує, коли Спітц ішов вулицею, коли він сідав на поїзд, коли він був у літаку. Він показує, що той переважно працює в Берліні, і які міста він відвідує. Він показує, коли він прокидається і коли засинає.

Щоб показати, як багато подробиць чийогось життя можна «накопати» із цих нагромаджених даних, ZEIT ONLINE «доповнила» інформацію про Спітца даними, до яких є публічний доступ: до інформації про пересування були додані твіт-повідомлення та записи в блозі політика. Таку процедуру застосує будь-який компетентний слідчий для того, щоб створити профіль особи, що потрапила під нагляд. ZEIT ONLINE вирішив приховати частину даних про Спітца – а саме, кому він телефонував і хто телефонував йому. Ця інформація не лише б порушила приватне життя багатьох інших людей, але також, навіть якщо б зашифрувати номери, відкрила б занадто багато даних про Спітца (але урядові агенти в реальній ситуації мали б доступ до цієї інформації.

Нам було дуже приємно працювати з Лоренцом Матцатом та Міхаелем Крейлом з Open Data City під час пошуків рішення, як зрозуміти та вилучити з таблиці дані про географічні координати місцезнаходження. Кожен сеанс зв’язку з мобільного телефона Спітца треба було триангулювати до позицій базових станцій. Кожна станція мала три антени, кожна антена покривала 120 градусів. Два програмісти виявили, що записане місцезнаходження вказувало напрямок на антену, з якою зв’язувався мобільний телефон Спітца.

Поєднавши ці дані з розташуванням антен (їх карта є у відповідної державної агенції) ми отримали змогу визначити його місцезнаходження під час кожної з 260640 хвилин протягом 181 дня, і позначити це за допомогою інтерфейсу прикладної програми (API) на карті Google Map. Натиснувши кнопку «Відтворення», ви вирушите в подорож життям Мальте Спітца.

Після дуже успішного запуску цього проекту в Німеччині ми звернули увагу на інтенсивний трафік із-за меж Німеччини й вирішили створити англомовну версію програми. Завоювавши премію German Grimme Online, проект у вересні 2011 рок здобув премію ONA – вперше з-поміж німецьких веб-сайтів видань.

Дані можна побачити тут.

Прочитати статтю – тут.

Саша Венор, Zeit Online

Рейтинг надійності автомобілів

У січні 2010 року ВВС отримала дані Міністерства транспорту Британії із оцінками надійності автомобілів різних моделей та від різних виробників. Це результати тесту, що вказують, чи є авто безпечним та придатним для користування – будь-яка машина віком понад три роки повинна щорічно проходити цей тест Міністерства транспорту.

Ілюстрація 47. Публікація рейтингу надійності автомобілів (ВВС)

Ми отримали ці дані у відповідності до закону про свободу інформації, в результаті 18-місячної битви з VOSA, агенцією Департаменту транспорту, яка здійснює нагляд за системою тестів. VOSA повертала наші запити про надання цифрових даних на тій підставі, що це порушить комерційну таємницю. Вона заявляла, що виробники автомобілів із високим рівнем ненадійності постраждають від оприлюднення цієї інформації. Ми, однак, звернулися до уповноваженого з питань інформації, який прийняв рішення, що розкриття цих даних служитиме інтересам суспільства. І тоді VOSA оприлюднила дані, через 18 місяців після нашого прохання про це.

Ми проаналізували цифри, зосередившись на найбільш популярних моделях та порівнюючи машини одного віку. І виявили суттєві розбіжності. Для прикладу, поміж 3-річних автівок 28% машин Рено Меган не пройшли тест Міністерства транспорту, на противагу лише 11% машин Тойота Королла. Цифри були оприлюднені на телебаченні, радіо та в онлайні.

Ми отримали дані у формі PDF-документа на 1200 сторінок, який нам треба було перетворити на електронну таблицю, щоб мати змогу виконати аналіз. Поруч із публікацією наших висновків ми оприлюднили цю таблицю в форматі Excel (понад 14 тисяч рядків даних) на сайті BBC News. Це забезпечило загальний доступ до цих даних у формі, придатній для користування.

Як результат, інші почали використовувати ці дані для власної аналітики, яку ми не зробили, поспішаючи опублікувати статтю якнайшвидше, або на яку в нас на той час бракувало технічних ресурсів. Це включало вивчення рейтингів поломок у машин з іншим терміном експлуатації, порівняння рейтингів виробників, а не окремих моделей, і створення баз даних із можливістю пошуку в них результатів щодо окремих моделей. Ми додали лінки на ці сайти в нашу онлайнову публікацію, щоб наші читачі могли скористатися й цими розробками.

Це ілюструє переваги публікації «сирих» даних на додачу до статті, створеної за методикою журналістики даних. Тут можуть бути й винятки (наприклад, якщо ви плануєте використати ці дані для наступних публікацій і хочете до того часу притримати їх у себе), але загалом оприлюднення даних забезпечує кілька важливих вигід.

• Ваша робота полягає в тому, щоб дізнаватися про щось і повідомляти про це людям. Якщо ви потурбувалися про те, щоб отримати всі дані, поширення цих даних – це частина вашої роботи.

• Інші люди можуть помітити цікаві моменти, які ви пропустили, або ж просто деталі, які мають для них значення, навіть якщо ці деталі були недостатньо важливими для вашої статті.

• Інші можуть розвинути вашу роботу за допомогою подальшого, більш деталізованого аналізу даних або інших форм представлення чи візуалізації цифр, використання власних ідей чи технічних вмінь, які забезпечать продуктивний аналіз цих даних в альтернативний спосіб.

• Це – складова частина привнесення відповідальності та прозорості в журналістський процес. Інші можуть зрозуміти ваші методики та перевірити вашу роботу, якщо в них виникне таке бажання.

Мартін Розенбаум, ВВС

Автобусні субсидії в Аргентині

Із 2002 року субсидії на громадський автобусний транспорт зростали в Аргентині експоненційно, щороку встановлюючи новий рекорд. Але в 2011 році новий уряд після перемоги на виборах оголосив про скорочення субсидій на комунальні послуги, починаючи з грудня того ж року. В той же час національний уряд вирішив передати управління місцевими лініями автобусного транспорту та метро до уряду міста Буенос-Айреса.

А так як механізм передачі субсидій місцевій владі не було конкретизовано, і через брак місцевих коштів, потрібних для гарантування безпеки транспортної системи, місцева влада Буенос-Айреса відхилила це рішення.

Коли це все відбувалося, я вперше зустрівся зі своїми колегами з La Nación, щоб обговорити, як почати нашу власну діяльність із журналістики даних. Редактор рубрики «Фінанси» подав ідею, що дані про субсидії, оприлюднені міністерством транспорту, можуть стати гарною відправною точкою, - бо в цих даних було важко знайти сенс через використаний в них формат та термінологію.

Неналежний стан системи громадського транспорту щодня впливає на життя понад 5,8 мільйонів людей. Затримки, страйки, вихід з ладу транспортних засобів чи навіть нещасні випадки трапляються регулярно. Ми, отже, вирішили подивитися, куди йдуть субсидії на підтримку системи громадського транспорту в Аргентині, та надати всім громадянам Аргентини легкий доступ до цих даних за допомогою проекту «Дослідження транспортних субсидій», над яким ми зараз працюємо.

Ілюстрація 48. Дослідження транспортних субсидій (La Nación)

Ми почали з підрахунку того, скільки коштів щомісячно отримують від уряду автобусні компанії. Для цього ми переглянули дані, опубліковані на веб-сайті міністерства транспорту, - понад 400 документів у PDF форматі, що містили інформацію про щомісячні платежі понад 1300 компаніям в період із 2006 року.

Ілюстрація 49. Рейтинг транспортних компаній за обсягом субсидій (La Nación)

Ми створили команду зі старшим програмістом (у редакції), щоб розробити програму, яка автоматизовано завантажувала ці PDF-документи та трансформувала їх у формат електронних таблиць Excel чи файли баз даних. Ми використали результуючу базу даних із понад 285 тисячами записів для нашого розслідування та візуалізацій, як для друкованих, так і для онлайнових публікацій. На додачу до цього ми працюємо над тим, щоб викласти ці дані у форматі, придатному для машинного зчитування, - щоб кожен аргентинець міг їх використати чи поділитися ними з іншими.

Наступний етап – ідентифікувати, у яку суму в середньому обходилося урядові щомісячне обслуговування громадського транспортного засобу. Щоб це дізнатися, ми пішли на інший урядовий веб-сайт, Національної комісії з регулювання транспорту (CNRT), яка відповідальна за регламентування транспортних питань в Аргентині. На цьому сайті ми знайшли список автобусних компаній, яким загалом належали 9 тисяч транспортних засобів. Ми розробили нормалізатор, який дав нам змогу знайти зв’язок між назвами автобусних компаній та створити перехресні посилання між двома базами даних.

Щоб рухатися далі, нам треба було знати реєстраційні номери кожного транспортного засобу. Ми знайшли на сайті CNRT список машин на кожному автобусному маршруті, із вказаними номерами. Реєстраційні номери транспортних засобів у Аргентині складаються з літер та цифр, що відповідають «вікові» машини. Наприклад, номер моєї автівки IDF234, де «І» відповідає березню-квітню 2011 року. Ми опрацювали за методом зворотної інженерії номери, що належали всім наведеним у списку компаніям, виявили середній вік автобусів у компанії та в такий спосіб змогли показати, скільки грошей іде на кожну компанію, і порівняти суми з урахуванням середнього віку їхніх машин.

Ілюстрація 50. Порівняння «віку» транспортного парку з обсягом коштів, отриманих від уряду (La Nación)

На середині цього процесу зміст оприлюднених урядом PDF-документів із потрібними нам даними, загадковим чином змінився, хоч лінки та назви файлів залишилися такими ж. Серед того, що змінилося, було зникнення вертикальної колонки «Загалом», через що стало неможливо виконувати перехресну перевірку загальних обсягів витрат за весь період розслідування, з 2002 по 2011 рік.
Ми прийшли із цією ситуацією на хакатон, організований Hacks/Hackers у Бостоні, де програміст Метт Перрі зробив добру справу й створив те, що ми називаємо «PDF-шпигун» (PDF Spy). Ця програма здобула на хакатоні перше місце в категорії «Найбільш інтригуюча розробка». PDF-шпигун відстежує веб-сторінку, де багато PDF-документів, і перевіряє, чи не змінився зміст цих PDF-файлів. «Вас більше ніколи не введе в оману так звана «урядова прозорість», - каже Метт Перрі.

Хто працював над проектом?

Команда з семи журналістів, програмістів та фахівця з інтерактивного дизайну працювала над цим розслідуванням протягом 13 місяців

Для проекту були потрібні такі навички:

• Журналісти зі знанням того, як працює субсидування громадського транспорту і які тут є ризики; та знанням ринку автобусних компаній.

• Програміст, що вміє «вилучати» інформацію з веб-сайтів, виконувати структурний аналіз та нормалізацію даних, перетворювати дані з PDF-документів у електронні таблиці Excel.

• Статистик для проведення аналізу даних та різноманітних обрахунків.

• Дизайнер для створення інтерактивних візуалізацій даних.

Який інструментарій ми використовували?

Ми використовували програмне середовище VBasic for applications, макроси Excel, Tableau Public та Junar Open Data Platform, а також Ruby on Rails, інтерфейс прикладної програми (АРІ) до Google charts, Mysql for the Subsidies Explorer.

Проект мав потужний резонанс. Ми отримали десятки тисяч переглядів, а розслідування було опубліковане на першій сторінці друкованого видання La Nación.

Успішність цього першого проекту із журналістики даних допомогла нам створити внутрішню команду із обробки даних, яка брала б участь у журналістських розслідуваннях та служила б громадськості. В результаті з’явилася платформа Data.lanacion.com.ar, де ми публікуємо дані на різноманітні теми, що мають суспільний інтерес, у форматі, придатному для машинного зчитування.

Анжеліка Перальта Рамос, La Nación, Аргентина

Громадянська журналістика даних

Великі редакції – не єдине місце, де можна працювати над проектами, пов’язаними із даними. Ті ж самі навички, які корисні журналістам даних, можуть допомогти громадянам-репортерам отримувати доступ до місцевих даних та перетворювати їх на журналістські сюжети.

Ілюстрація 51. Громадянський медійний проект The Friends of Januária («Друзі Януарії») навчає громадян базовим навичкам, за допомогою яких ті стануть журналістами даних (Friends of Januária)

Це було базовою мотивацією громадянського медійного проекту «Friends of Januária» (Друзі Януарії) у Бразилії, який отримав грант від організації Rising Voices, підрозділу Global Voices Online, та додаткову підтримку від організації Article 19. Між вереснем та жовтнем 2011 року група молодих мешканців невеликого міста, розташованого на півночі штату Мінас-Жерайс – одного з найбідніших регіонів Бразилії – пройшла тренінг із базових журналістських умінь та моніторингу бюджету. Вони також навчилися, як робити запити відповідно до закону про свободу інформації та отримувати доступ до відкритої інформації з офіційних баз даних в Інтернеті.

Януарія, місто, де мешкає приблизно 65 тисяч людей, також відома провальними діями місцевих політиків. Протягом трьох чотирирічних термінів у ньому змінилося сім мерів. Майже всі вони були усунені з посади через порушення під час їхнього керування, включно зі звинуваченнями в корупції.

Маленькі міста на кшталт Януарії зазвичай не привертають уваги бразильських ЗМІ, які тяжіють до висвітлення великих міст та столиць штатів. Втім, у мешканців маленьких міст виникає можливість об’єднатися навколо справи з моніторингу державної влади, бо вони знають щоденні проблеми, з якими зіштовхуються місцеві громади, краще за будь-кого. Маючи на своєму боці такого важливого союзника, як Інтернет, мешканці зараз мають кращий доступ до інформації, наприклад, бюджету та інших місцевих даних.

Взявши участь у дванадцяти семінарах, деякі з нових репортерів-громадян із Януарії стали демонструвати, як цей концепт доступу до відкритої інформації в маленьких містах можна застосувати на практиці. Наприклад, Сорайя Аморім, 22-річна громадянська журналістка, написала статтю про те, скільки саме докторів оплачує місто згідно з даними федерального уряду. Вона, одначе, виявила, що офіційна цифра не співпадає із ситуацією в місті. Щоб написати цю публікацію, Сорайя отримала доступ до даних про охорону здоров’я, які є у відкритому онлайн-доступі на веб-сайті SUS (Єдина система охорони здоров’я), федеральної програми, що надає безкоштовну медичну допомогу населенню Бразилії. За даними SUS, у Януарії мав би бути 71 лікар із різних медичних спеціальностей.

Кількість лікарів, наведена у даних SUS, не відповідала тому, що було відомо Сорайї про ситуацію з лікарями в цій місцевості: мешканці завжди скаржилися на брак лікарів, а деякі пацієнти були змушені їздити на прийом до сусідніх міст. Згодом вона взяла інтерв’ю в жінки, яка нещодавно потрапила в аварію на мотоциклі й не змогла знайти медичної допомоги у лікарні Януарії, бо там не було вільних медиків. Вона також поспілкувалася із міським секретарем відділу охорони здоров’я, який визнав, що у місті таки менше лікарів, ніж це вказано в даних, опублікованих SUS.

Ці початкові відкриття підняли багато питань про причини такої відмінності між офіційною інформацією, опублікованою в онлайні, та міською реальністю. Одне з них – це те, що федеральні дані можуть бути помилковими, що означатиме серйозний брак інформації про стан охорони здоров’я в Бразилії. Інша версія: Януарія неправильно подавала дані до SUS. Обидві і версії мали б привести до глибшого розслідування, яке б дало остаточну відповідь. Проте стаття Сорайї є важливою ланкою цього ланцюга, бо вона виявила невідповідність, і це може також заохотити інших ретельніше подивитися на цю проблему.

«Я завжди жила в провінції, і закінчила середню школу з великими труднощами», - каже Сорайя. ¬– Коли люди запитували мене, що я хотіла б робити в житті, я завжди казала їм, що хочу бути журналісткою. Але я бачила, що це майже неможливо в тому світі, де я жила». Після участі у тренінгах «Друзів Януарії» Сорайя вважає, що доступ до даних – це важливий засіб, який може змінити стан справ у її місті. «Я почуваюся здатною допомогти змінити моє місто, мою країну, весь світ», - додає вона.

Інший громадянський журналіст проекту – 20-річний Елісон Монтьєрітон, який також використовував дані у своїй статті. Під час першого навчання в рамках проекту, коли громадяни-репортери ходили містом, шукаючи теми, які могли б стати основами для публікацій, Елісон вирішив написати про поламаний світлофор, розташований на дуже важливому перехресті, який був у такому стані ще з початку року. Навчившися шукати дані в Інтернеті, він знайшов кількість автомобілів у місті та суму податків, сплачених власниками автівок. Він написав:

Ситуація в Януарії стає гіршою через велику кількість транспортних засобів у місті. За даними IBGE (найавторитетніший статистичний дослідницький інститут у Бразилії), в Януарії в 2010 році був 13771 транспортний засіб (з яких 7970 – це мотоцикли). Мешканці міста вважають, що затримка з ремонтом світлофора виникла не через нестачу коштів. За даними секретаря казначейства штату Мінас-Жерайс, місто в 2010 році отримало 470 тисяч реалів від зборів з власників транспортних засобів.

Отримавши доступ до даних, Елісон зміг показати, що в Януарії багато транспорту (один транспортний засіб на кожних п’ятьох мешканців) і що поламаний світлофор наражав на небезпеку багатьох людей. Понад те, він зміг повідомити читацьку аудиторію про обсяги коштів, отриманих містом від зборів, сплачених власниками транспортних засобів, і виходячи з цього, запитав, а чому цих грошей не вистачило на ремонт світлофора, що створило б безпечні умови для водіїв та пішоходів.

І хоча ці дві статті, написані Сорайєю та Елісоном, є дуже простими, вони показують, що громадянські репортери можуть використовувати дані. Не потрібно сидіти у великому ньюсрумі з великою кількістю фахівців, щоб використовувати дані у своїх статтях. Після дванадцяти семінарів Сорайя та Елісон, не мавши до того досвіду в журналістиці, змогли випрацювати сюжети, підкріплені даними, та написати цікаві статті про місцеву ситуацію. На додачу, ці статті показали, що дані самі по собі можуть бути корисними навіть у малих масштабах. Інакше кажучи, і у малих наборах даних та таблицях є цінна інформація – а не лише у велетенських базах даних.

— Аманда Россі, Друзі Януарії

Виборче табло: як подавати результати голосування

Результати виборів надають будь-якій редакції чудові можливості для створення візуальних публікацій, але протягом багатьох років ми не користалися цією можливістю. У 2008 році ми та наш графічний підрозділ вирішили змінити цю практику.

Ілюстрація 52. Виборче табло (Нью-Йорк Таймс)

Ми хотіли знайти спосіб показати результати виборів у такий спосіб, щоб це створювало журналістський сюжет і не виглядало як просто нагромадження цифр у таблиці чи на карті. На попередніх виборах у нас виходило саме так.

Це не означає, що є щось погане у великому обсязі цифр, або в тому, що я називаю «Моделлю CNN» - з таблицями, таблицями і ще таблицями. Це спрацьовує, бо надає читачу саме те, що він хоче знати: хто переміг?

І тут виникає серйозна небезпека: влізти в те, що не має фундаментального значення. Коли створюєш щось радикально відмінне та відходиш від того, на що чекають люди, можна зробити справи не менш заплутаними, а більш.

Зрештою Шан Картер з підрозділу графічного дизайну дав нам правильну відповідь – те, що ми згодом стали називати «табло». Коли я вперше побачив ескізи, це був момент, що називається, влучання в яблучко.

Саме те, що треба.

Завдяки чому це є чудовим зразком візуальної журналістики? Для початку, очі читача миттєво «притягує» велика смуга вгорі, яка показує розподіл голосів. У контексті журналістики це можна назвати заголовком. Вона повідомляє читачеві точнісінько те, що він хоче знати, і робить це швидко, просто та без будь-якого візуального шуму.

Далі читач звертає увагу на п’ять колонок нижче, за якими згруповані штати, що, на думку The Times, мають схильність до одного чи іншого кандидата. А в середній колонці – те, що в журналістському контексті можна назвати «центральним графіком», у якому ми пояснюємо, чому Обама переміг. Інтерактивна візуалізація подає це гранично ясно: Обама взяв усі штати, на які сподівався, та чотири з п’яти «хитких» штатів.

Для мене ця п’ятиколонкова конструкція є прикладом того, як візуальна журналістика відрізняється від інших форм дизайну. В ідеалі гарний зразок візуальної журналістики повинен поєднувати в собі красу та інформативність. Та коли обирати між журналістським сюжетом та естетикою, журналіст повинен виступити на боці сюжету. І хоч цей ескіз, можливо, не обрав би «чистий» дизайнер для представлення даних, він справді дуже, дуже добре подає сюжет.

І насамкінець, як будь-яка гарна інтерактивна веб-сторінка, ця заохочує читача «копати ще глибше». Тут є деталі на зразок відсотків голосування по всіх штатах, кількість голосів виборців та їхній відсоток, які зумисне розміщені знизу, щоб не конкурувати з головними темами сюжету.

Усе це разом робить «виборче табло» чудовим зразком візуальної журналістики, яке майже ідеально відповідає перевіреному та надійному принципу оберненої піраміди.

Арон Пілхофер, New York Times

Ціна води: колективний збір інформації

Із березня 2011 року триває експеримент із колективного збору інформації про ціни на водопостачання по всій Франції. Лише за 4 місяці понад 5 тисяч людей, яким набрид корпоративний контроль над ринком води, витратили час на те, щоб поглянути на свій рахунок за воду, відсканувати його та завантажити на сайт проекту Prix de l’Eau («ціна води»). Результатом стало безпрецедентне розслідування, що об’єднало фанатів інформаційних технологій, неурядові організації та традиційні медіа у справі збільшення прозорості послуг із водопостачання.

Французький ринок водопостачання складається із понад 10 тисяч споживачів (міст, що купують воду і розподіляють її своїм платникам податків) і лише жменьки комунальних компаній. Баланс сил у цій ринковій структурі, де незначній кількості продавців відповідає велика кількість покупців, спотворено на користь корпорацій, які іноді встановлюють різні ціни для розташованих поруч міст!

Ілюстрація 53. Ціна води (Фундація France Libertés)

Неурядова французька організація France Libertés мала справи з глобальними проблемами водопостачання протягом останніх 25 років. Зараз вона зосередилася на збільшенні прозорості французького ринку та допомозі громадянам та мерам, які укладають угоди з компаніями водопостачання. Французький уряд два роки тому вирішив розв’язати цю проблему шляхом проведення національного опитування про ціну та якість води. Наразі було зібрано лише 3% даних. Щоб пришвидшити процес, France Libertés почала безпосередньо залучати громадян.

Разом із командою OWNI я розробив інтерфейс для колективного збору інформації, де користувачі можуть зісканувати свої рахунки за воду та ввести тарифи, за якими вони оплачують водогінну воду, на prixdeleau.fr. За останні 4 місяці 8500 осіб зареєструвалися на сайті, і понад 5000 рахунків були завантажені та перевірені.

Хоч ця методика не дає ідеальної оцінки ситуації на ринку, вона показала зацікавленим сторонам, таким як національні органи контролю за водопостачанням, що народ справді хвилюють ціни на водогінну воду. Спочатку вони скептично ставилися до ідеї прозорості, але протягом існування проекту змінили своє ставлення і поступово долучалися до France Libertés у її боротьбі проти непрозорості та корпоративних зловживань. Чому це може навчити медійні організації?

Співпрацюйте з неурядовими організаціями

НУО потребують великих обсягів даних, щоб на їх основі скласти свої пропозиції. Вони з більшою охотою платитимуть за операцію із збору даних, ніж головний редактор газети.

Користувачі можуть надавати «сирі» дані

Колективний збір інформації найкраще працює тоді, коли користувачі здійснюють збір чи очистку даних.

Запитуйте про джерело даних

Ми міркували над тим, чи просити користувачів про скановану копію оригінального рахунку, бо думали, що це злякає декого з них (особливо в ситуації, коли наша цільова аудиторія була старшого за середній віку). І хоч це й могло відлякати когось, зате зросла достовірність даних.

Створіть механізм перевірки

Ми розробили систему балів та механізм голосування, щоб оцінювати вклад користувачів. Це виявилося занадто вигадливим для людей, у яких було небагато стимулів повторно заходити на сайт. Проте цей механізм використала команда France Libertés, її 10 чи близько того співробітників дійсно відчували себе мотивованими цією системою балів.

Робіть усе просто

Ми створили автоматизований механізм відправки електронної пошти, щоб користувачі могли за кілька кліків мишкою надсилати запити у відповідності до закону про свободу інформації. І хоч ця функція була інноваційною і якісно розробленою, вона не виправдала затрачених на неї зусиль (були надіслані лише 100 запитів).

Орієнтуйтеся на свою аудиторію

France Libertés налагодила співпрацю з журналом про права споживачів 60 Millions de Consommateurs, чия спільнота суттєво допомогла. Для цього проекту це було ідеальне поєднання.

Уважно обирайте основні показники вашої продуктивності

Проект за 4 місяці зібрав лише 45 тисяч відвідувачів – еквівалент 15 хвилин трафіку на сайті Нью-Йорк Таймс. Але насправді важливе те, що одна людина з п’яти відвідувачів реєструвалася на сайті, а одна з десяти витрачала свій час на сканування та завантаження свого комунального рахунку.

Ніколя Кайзер-Бріл, Journalism++

Як отримати дані

Що ж, ви готові розпочати ваш перший проект із журналістики даних. І що далі? У першу чергу вам потрібні якісь дані. Цей розділ присвячено тому, де ви можете їх отримати. Ми навчимося, як знаходити дані в Інтернеті, як робити запити про дані на базі законів про свободу інформації, як використовувати технології вилучення неструктурованих даних «з екрану» і як застосовувати колективний збір інформації, щоб отримати ваші власні набори даних від ваших читачів. Ми розглянемо, що каже закон про повторну публікацію баз даних, і як використовувати прості юридичні інструменти, щоб дати право іншим повторно використовувати ваші дані. Насамкінець, розділ завершують історії з життя та «бойовий досвід» наших авторів – через що їм довелося пройти, щоб отримати дані, які вони шукали.

П’ятихвилинний «курс молодого бійця»

Шукаєте дані з певної конкретної теми чи проблеми? Не впевнені, що існує на цю тему, чи де шукати? Не знаєте, з чого почати? У цьому розділі ми розглянемо, як почати пошук публічних джерел даних в Інтернеті.

Ілюстрація 54. datacatalogs.org (Фундація Open Knowledge)

Визначте напрямок пошуку

Хоч їх часом нелегко знайти, але багато баз даних у Інтернеті вже проіндексовані пошуковими механізмами, хотів цього їхній власник чи ні. Ось кілька підказок:

• Шукаючи дані, пересвідчіться, що ви включили до пошукового запиту слова, пов’язані зі змістом даних, які ви намагаєтеся знайти, а також певну інформацію про формат джерела, де, за вашими сподіваннями, є ці дані. Google та інші пошукові механізми дають вам змогу вести пошук за певними типами файлів. Наприклад, ви можете шукати тільки в електронних таблицях (доповнивши пошуковий запит рядком ‘filetype:XLS filetype:CSV’), географічних даних (‘filetype:shp’), чи базах даних (‘filetype:MDB, filetype:SQL, filetype:DB’). Якщо вам конче треба, то можете спробувати навіть шукати PDF-документи (‘filetype:pdf’).

• Ви також можете шукати за частиною інтернет-адреси (URL). Запит у Google ‘inurl:downloads filetype:xls’ спробує знайти всі файли у форматі Excel, веб-адреси яких містять слово “downloads” (якщо ви знайдете один такий файл, часто є сенс просто перевірити, які ще результати є в цій же самій папці на веб-сервері). Ви можете також звузити ваш пошук до результатів лише з одного доменного імені, наприклад, за допомогою пошукового запиту ‘site:agency.gov’.

• Ще один поширений прийом – не вести пошук безпосередньо за змістом, а перевіряти місця, де може бути доступ до «звалища» даних. Наприклад, запит ‘site:agency.gov Directory Listing’ може дати вам каталоги, згенеровані веб-сервером, із легким доступом до «сирих» файлів, тоді як запит ‘site:agency.gov Database Download’ шукатиме спеціально створені каталоги.

Переглядайте сайти та сервіси даних

Протягом останніх кількох років у Інтернеті з’явилися спеціалізовані портали даних, центри даних та інші сайти з даними. Це гарне місце для того, щоб ознайомитися з представленими там типами даних. Для початку можете подивитися на:

• Офіційні портали даних. Бажання владних установ відкрити доступ до тієї чи іншої бази даних відрізняється залежно від конкретної країни. Все більша кількість країн запускає портали даних (як наслідування американського сайту data.gov та британського data.gov.uk), щоб сприяти громадському та комерційному використанню урядової інформації. Актуальний всесвітній індекс таких сайтів можна знайти на datacatalogs.org. Ще один зручний сайт – це Guardian World Government Data, метапошуковий механізм, який включає багато міжнародних каталогів урядових даних.

• Data Hub. Створений спільнотою ресурс, яким керує фундація Open Knowledge. Він полегшує пошук, обмін та повторне використання даних, що перебувають у відкритому доступі, особливо якщо йдеться про автоматизовані методики обробки.

• ScraperWiki. Онлайновий інструмент, призначений для вилучення «корисних фрагментів даних, щоб їх можна було використати в інших програмах або перетворити на об’єкт розгляду журналістів та дослідників». Більшість із програм-«скреперів» та їхніх баз даних є публічною, і її можна використовувати повторно.

• Портали даних Світового банку та ООН надають високорівневі дані-індикатори по всіх країнах, часто за тривалий період часу.

• З'являються нові проекти-стартапи, які ставлять за мету створення спільнот навколо процесів обміну та перепродажу даних. До них входить Buzzdata – місце обміну та співпраці над приватними та публічними базами даних – та «крамниці даних», такі як Infochimps та DataMarket.

• DataCouch — Місце, куди можна завантажити ваші дані, очистити їх, поширювати та візуалізувати.

• Цікавий підрозділ Google під назвою Freebase надає «об’єктні графи людей, місць та предметів, збудовані спільнотою, яка любить відкриті дані.»

• Дані досліджень. Є багато національних чи спеціалізованих агрегаторів дослідницьких даних, таких, як UK Data Archive. І хоч там буде значна кількість баз даних із вільним доступом, також буде багато даних, які вимагають передплати, або таких, які не можна повторно використовувати чи поширювати, не отримавши попередньо дозволу на це.

Запитайте на форумі

Шукайте вже існуючі відповіді або поставте запитання на Get The Data чи Quora. GetTheData – це довідковий сайт, де ви можете ставити питання, пов’язані з даними, в тому числі й про те, де шукати дані з певної теми, як побудувати запит чи отримати інформацію з певного джерела даних, які інструменти використовувати для дослідження набору даних у візуальний спосіб, як очистити дані чи трансформувати їх у формат, придатний для роботи.

Поставте питання в списку розсилки

Списки поштової розсилки об’єднують мудрість цілої спільноти із певної теми. Для журналістів даних чудовою відправною точкою є списки Data Driven Journalism List та NICAR-L. В обох присутні фахівці з журналістики даних та комп’ютерної журналістики (Computer Assisted Reporting, CAR), які беруть участь у найрізноманітніших проектах. Є шанси, що хтось вже працював над статтею, подібною до вашої, та має ідеї, з чого починати, а може, й сам лінк на дані. Ви також можете спробувати Project Wombat («список дискусій із складних довідкових питань», велику кількість розсилок від фундації Open Knowledge, списки розсилки на theInfo, або ж пошукати списки розсилки із певної теми або у тому регіоні, який вас цікавить.

Вступіть до Hacks/Hackers

Hacks/Hackers («журналюги/хакери») – це міжнародна «низова» журналістська організація, яка швидко зростає, із десятками підрозділів та тисячами членів на чотирьох континентах світу. Її завдання – створити мережу журналістів ("hacks") та фахівців із технологій ("hackers"), які переосмислять майбутнє ЗМІ та інформацію. У такій широкій мережі у вас є гарні шанси знайти когось, хто знає, де шукати те, що вам потрібно.

Запитайте експерта

Професори, держслужбовці та галузеві фахівці часто знають, де саме потрібно шукати. Зателефонуйте їм. Напишіть електронного листа. Запрошуйте їх на події. Прийдіть до них у офіс. Будьте чемні. «Я пишу статтю на тему Х. Де мені знайти ці дані? Чи ви не знаєте, у кого вони є?»

Дізнайтеся про урядові інформаційні технології

Розуміння технічного та адміністративного контексту, у якому влада зберігає інформацію, пов’язану з її діяльністю, часто допомагає при спробах отримати доступ до даних. Чи це CORDIS, COINS чи THOMAS - абревіатури на позначення великих баз даних, - вам стане у великій пригоді, коли ви почнете розуміти їхнє призначення.

Знайдіть структурні схеми урядових організацій та відшукайте департаменти/підрозділи, які виконують перехресні функції (публікація, служби інформаційних технологій), і вивчіть їхні веб-сайти. Багато даних зберігаються в різних департаментах, і якщо для одного це може бути найзаповітніший скарб, інші можуть надавати до цих даних вільний доступ.

Шукайте динамічну інфографіку на урядових сайтах. Вона часто використовує структуровані джерела даних та інтерфейси прикладних програм (API), які можна використовувати незалежно (наприклад, апплети із відстежування рейсів літаків, ява-апплети прогнозу погоди тощо).

Робіть повторний пошук за фразами та «нечастотними» наборами слів, які ви помітили після того, як шукали востаннє.

Коли ви більше знаєте про те, що саме шукаєте, вам може більше пощастити із пошуковими системами.

Напишіть запит згідно із законами про свободу інформації

Якщо ви точно знаєте, що урядова структура має потрібні вам дані, запит у відповідності до закону про свободу інформації може стати вашим найкращим інструментом. Далі є більше інформації про те, як подати такий запит.

Браян Боєр (Chicago Tribune), Джон Кіф(WNYC), Фридрих Ліндберг (Open Knowledge Foundation), Джейн Парк (Creative Commons), Крис Ву (Hacks/Hackers)

Дані – це ваше право

Перш ніж робити запит відповідно до закону про свободу інформації (ЗСІ), вам слід перевірити, чи немає часом тих даних, які ви шукаєте, у відкритому доступі, - а можливо, запит на них вже хтось надіслав. У попередньому розділі є певні рекомендації щодо того, де можна почати пошук. Якщо ви розгледілися і все ще не змогли отримати потрібні вам дані, тоді ви можете подати формальний запит. Ось кілька підказок, які допоможуть вам зробити це більш ефективно.

Ілюстрація 55. Сервіс "Що вони знають?" (My Society)

Плануйте заздалегідь – це економить час

Подумайте над тим, щоб подати формальний запит незалежно від того, чи будете ви шукати інформацію в інших джерелах. Краще не чекати, поки ви відпрацюєте всі інші варіанти. Ви зекономите час, подавши запит на початку ваших досліджень і ведучи пошук паралельно. Але приготуйтеся до затримки: часом державні установи витрачають чимало часу на обробку запитів, тож краще очікувати саме цього.

Перевірте платність послуг

Перш ніж почати подавати запити, перевірте правила щодо оплати – чи то за подання запитів, чи то за отримання інформації за них. І якщо державна установа раптом почне вимагати у вас гроші, ви знатимете свої права. Ви можете просити про електронні форми документів, щоб уникнути затрат на копіювання та поштову пересилку. Для цього треба згадати у запиті, що ви хочете мати інформацію в електронному форматі. В такий спосіб ви уникнете платні, хіба що, звісно, ця інформація не представлена в цифровій формі, хоч у наш час зазвичай є можливість відсканувати ще не оцифровані документи і надіслати їх приєднаним файлом по електронній пошті.

Знайте ваші права

Перш ніж почати, дізнайтеся про те, на що ви маєте право. Тоді ви будете знати, з чого ви виходите, і що повинні й не повинні робити державні установи. Наприклад, більшість законів про свободу інформації встановлюють період часу, за який установа має надати вам відповідь. У різних країнах та за різними законами цей період становить від кількох днів до одного місяця. Подбайте про те, щоб дізнатися про цей термін перш ніж надсилати запит, і зробіть відмітку, коли ви його надіслали.

Урядові структури не зобов’язані обробляти для вас дані, але повинні надати вам усі дані, які в них є, і якщо ці дані мають у них бути для виконання їхніх законних повноважень, вони обов’язково повинні надати їх вам.

Заявіть про те, що ви знаєте ваші права

Зазвичай закон не вимагає, щоб ви згадували в запиті про закони про доступ до інформації або про свободу інформації, але це бажано, бо показує, що ви знаєте ваші законні права. І це, імовірно, сприятиме коректній обробці ваших запитів відповідно до закону. Ми зазначаємо, що у запитах до Європейського Союзу важливо згадати, що це є запит відповідно до ЗСІ, і краще окремо згадати про директиву 1049/2001.

Спрощуйте

У всіх країнах краще починати з простого запиту про інформацію і потім додавати нові питання після того, коли ви отримали «стартові» дані. У цей спосіб ви уникнете ризику наразитися на затягування з відповіддю державної установи, бо це нібито «складний запит».

Зосереджуйтесь

На запит про інформацію, яку має певна владна установа, імовірно, відповідь надійде швидше, ніж на запит, який потребує пошуку серед усіх владних інстанцій. Запит, де крім владної установи бере участь ще третя сторона-консультант (наприклад, приватна компанія, що надає інформацію, інший уряд, причетний до цієї теми) може опрацьовуватися особливо довго. Будьте наполегливі.

Мисліть документоцентрично

Спробуйте встановити, які саме дані беруться до уваги. Наприклад, якщо вам до рук потрапив порожній бланк, який поліція заповнює у випадку ДТП, ви можете встановити з нього, яку інформацію вони фіксують чи не фіксують з приводу аварій.

Будьте конкретними

Перш ніж подати ваш запит, подумайте: а чи не може він бути сприйнятим хоч якось двозначно? Це особливо важливо, якщо ви плануєте порівнювати дані від різних державних установ. Наприклад, якщо ви запитуєте цифрові дані за останні три роки, одні установи можуть надіслати вам інформацію за останні три календарні роки, інші – за три фінансові роки, і ви не зможете прямо порівняти ці дані. Якщо ви хочете сховати ваш справжній запит у більш загальному, робіть цей запит достатньо широким, щоб він охопив потрібну вам інформацію, але не настільки широким, щоб він став нечітким або викликав небажання на нього відповідати. На конкретні та чіткі запити, як правило, надходять швидші та кращі відповіді.

Подавайте декілька запитів

Якщо ви не певні того, куди подавати ваш запит, ніщо не перешкоджає вам подати запити до двох, трьох чи більшої кількості установ одночасно. У деяких випадках різні установи дадуть вам різні відповіді, але це насправді може стати в пригоді, бо ви отримаєте повнішу картину про інформацію, наявну з тієї теми, яку ви досліджуєте.

Подавайте міжнародні запити

Все більшу кількість запитів можна подавати в електронній формі, тож не має значення, де ви живете. І навпаки, якщо ви не живете в країні, куди ви хочете подати запит, іноді є можливість надсилати запити до посольства, а вже воно перешле їх до уповноваженої державної установи. Спершу вам слід перевірити, чи відповідне посольство це робить – іноді персонал посольства не пройшов навчань щодо законів про права на інформацію, і якщо проблема саме в цьому, то надійніше послати запит безпосередньо до державної установи.

Робіть пробні запити

Якщо ви плануєте надіслати один і той же запит до багатьох державних установ, почніть з відправки початкової версії до кількох установ – як пробу. Це покаже вам, чи ви використовуєте правильну термінологію щодо матеріалу, який ви хочете отримати, чи можливо отримати відповідь на ваші запитання, і в такий спосіб ви можете відредагувати запит, якщо це потрібно, перш ніж розсилати його іншим.

Враховуйте винятки

Якщо ви вважаєте, що ваш запит може потрапити під дію тих чи інших винятків, тоді, готуючи питання, відокремлюйте «чутливі» питання про потенційно секретну інформацію від іншої інформації, яка, за здоровим глуздом, не повинна потрапити під якісь застереження. Тоді розмежуйте ці питання і надішліть два запити окремо.

Просіть доступу до архівів

Якщо ви живете поблизу від місця зберігання інформації (наприклад, у столиці), ви також можете попросити про доступ до оригінальних документів. Це може стати в пригоді під час дослідження інформації, що міститься у великій кількості документів, які вам варто було б проглянути. Такий перегляд має бути безкоштовним і його повинні організувати за раціональний період часу та в зручній для вас формі.

Зберігайте запити!

Відправляйте запити в письмовій формі і зберігайте «тверду» чи цифрову копію, щоб у майбутньому ви могли показати, що відправляли запит, якщо раптом ви подаватимете скаргу на те, що вам не відповіли. Це також дає вам докази того, що ви подавали запит, якщо ви хочете включити цей факт до вашої публікації.

Дійте відкрито

Пришвидшіть отримання відповіді, повідомивши про те, що ви подали запит: якщо напишете чи використаєте в телесюжеті згадку про те, що ви відправили запит, це може змусити урядову установу опрацювати цей запит та відповісти на нього. Ви можете доповнити вашу публікацію повідомленням, коли і яку відповідь на запит ви отримали – або ж якщо термін пройшов і відповіді нема, ви можете і це перетворити на сюжет для публікації. Додаткова вигода від таких дій – це навчання громадян про право на доступ до інформацію та про те, як це працює на практиці.

Існує кілька чудових сервісів, які ви можете використати для підготовки запитів та отримання відповідей, придатних для загального перегляду в Інтернеті. Таких, як What Do They Know? («Що вони знають?») для державних установ Великобританії, Frag den Staat ("Запитай державу") для держустанов Німеччини та Ask the EU («Запитай ЄС») для установ Євросоюзу. Проект Alaveteli допомагає створити аналогічні сервіси в десятках інших країн світу.

Залучайте колег

Якщо ваші колеги скептично ставляться до цінності запитів про доступ до інформації, один з найкращих способів їх переконати – це написати статтю, засновану на інформації, отриманій з використанням ЗСІ. Згадка у результуючій статті чи телесюжеті про те, що ви застосували цей закон, також рекомендується як спосіб пропагування його цінності та підвищення рівня усвідомлення громадою цього свого права.

Вимагайте «сирі» дані з першоджерел

Якщо ви хочете проаналізувати, дослідити чи якось опрацювати дані за допомогою комп’ютера, вам слід чітко вимагати даних у електронному форматі, придатному для машинного зчитування. Ви можете заявити це, наприклад, повідомивши, що вам потрібні дані про бюджет у форматі, «придатному для аналізу в бухгалтерських програмах». Ви можете також недвозначно запитувати про інформацію в «деталізованій» чи «структурованій» формі. Про це можна більше прочитати в цьому документі.

Питайте про те, які організації не підпадають під закони про свободу інформації

Вам, можливо, слід дізнатися про неурядові організації, приватні компанії, релігійні та інші організації, які не повинні оприлюднювати документацію відповідно до ЗСІ. Однак є можливість отримати інформацію про них, звернувшись до держустанов, які підпадають під дію ЗСІ. Наприклад, ви можете запитати урядовий департамент чи міністерство про те, чи вони фінансували чи мали якісь інші стосунки з певною приватною компанією чи НУО, і вимагати відповідні документи. Якщо вам потрібна додаткова допомога щодо того, як готувати запити за ЗСІ, ви також можете проконсультуватися з сервісом Legal Leaks toolkit for journalists.

Цей розділ написали Хелен Дарбішир (Access Info Europe), Дьордь Падейскі (стипендіат Knight Journalism, Стенфордський університет), Мартін Розенбаум (BBC) та Фабріціо Скролліні (Лондонська школа економіки та політичних наук)

Борітеся – поборете! Закон про доступ до інформації працює

Використання законодавства про свободу до інформації – або воббінг (wobbing), як це часто називають, - чудовий інструмент. Але він вимагає навиків і, зазвичай, наполегливості. Ось три приклади з мого досвіду журналіста-розслідувальника, які ілюструють сильні та проблемні сторони воббінгу.

Ілюстрація 56. Веб-сайт «Фермерські субсидії» (Farmsubsidy.org)

Приклад 1: Фермерські субсидії

Щороку Євросоюз виплачує майже €60 мільярдів фермерам та сільськогосподарській галузі. Щороку. Це триває з кінця 1950-х років, і політичний сюжет цих дій подавався так, що субсидії допомагають найбіднішим фермерам. Однак перше ж «проривне» застосування закону про свободу інформації (ЗСІ) у Данії в 2004 році показало, що цей був міфічний сюжет. Малі фермерські господарства ледь зводили кінці з кінцями і скаржилися на це приватно і відкрито, а насправді більшість грошей ішла кільком великим землевласникам та сільськогосподарській промисловості. Тож цілком очевидним було моє бажання встановити, а чи не властива подібна практика іншим країнам Європи?

Улітку 2004 рок я надіслала запит про дані до Європейської Комісії. Кожного року в лютому ЄК отримує дані від держав-членів. Ці дані показують, хто звертався по фінансування від ЄС, скільки коштів отримали бенефіціари, і чи отримали вони ці кошти на фермерську діяльність, розвиток регіону чи експорт порошкового молока. На той час ЄК отримувала ці дані на компакт-дисках у форматі CSV. Даних багато, але в принципі працювати з ними легко. Якщо ви їх отримали, справу зроблено.

У 2004 році Комісія відмовилася оприлюднити ці дані; головною причиною було названо те, що їх завантажили в базу даних, звідки їх неможливо вилучити без значних зусиль. Цей аргумент європейський омбудсмен назвав адміністративним зловживанням. Зараз усі ці документи можна знайти на сайті wobbing.eu. А у 2004 році в нас не було час на юридичну тяганину. Нам були потрібні дані.

Тож ми уклали загальноєвропейське партнерство, щоб здобути ці дані по кожній країні окремо. Колеги з Британії, Швеції та Данії отримали дані в 2005 році. Фінляндія, Польща, Португалія, регіони Іспанії, Словенія та інші країни також відкрили цю інформацію. Навіть у проблемній в цьому сенсі Німеччині мені вдалося «прорватися» та отримати деякі дані по землі Північна Рейн-Вестфалія в 2007 році. Я мусила подати судовий позов, щоб отримати ці дані – але в результаті вийшло кілька непоганих публікацій у журналі «Штерн» та «Штерн-онлайн».

Чи випадково, що Данія та Великобританія першими відкрили їхні дані? Не обов’язково. Якщо дивитися на ширшу політичну картину, фермерські субсидії на той час розглядалися в контексті перемовин по ВТО, і ці субсидії потрапили під тиск. Данія та Британія належать до найбільш ліберальних країн Європи, тож це могло бути результатом політичних вітрів, що дули в напрямку прозорості в цих країнах.

На цьому історія не завершується, більше епізодів та даних ви знайдете на farmsubsidy.org.

Урок: дійте колективно. У нас у Європі є вражаюче розмаїття законів про свобод інформації, і в різних країн у різні часи є різні політичні інтереси. Застосовуйте це на вашу користь.

Приклад 2: Побічні ефекти

Коли йдеться про приймання лікарських препаратів, ми всі перетворюємося на піддослідних кроликів. У ліків можуть бути побічні ефекти. Ми всі про це знаємо, ми шукаємо баланс між потенційними вигодами та потенційними ризиками, і приймаємо рішення. На жаль, часто це рішення не засноване на поінформованості.

Підлітки, що приймають таблетки від прищів, сподіваються отримати гладеньку шкіру, а не розлад у настрої. Але саме це сталося з одним препаратом – молодь після його прийому ставала депресивною і навіть схильною до самогубств. Про небезпеку цього конкретного побічного ефекту – а це очевидний журналістський сюжет – дізнатися було непросто.

Існують дані про побічні ефекти ліків. Виробники мусять регулярно подавати інформацію про виявлені побічні ефекти до установ з охорони здоров’я. Ці дані зберігаються в національних чи європейських установах після того, коли препарат отримав дозвіл на вихід на ринок.

І знову перша перемога на національному рівні була здобута в Данії. Під час міжнаціонального дансько-голландсько-бельгійського дослідження свою інформацію відкрили й Нідерланди. Ще один приклад інформаційного колективізму: нашій справі дуже допомогло те, що ми могли вказати голландським урядовцям на доступність аналогічної інформації в Данії.

Але історія виявилася правдивою: в Європі були приклади суїцидальних настроїв серед молоді, і, на жаль, випадки самогубства в кількох країнах як наслідок вживання цих ліків. Журналісти, науковці та родини молодих жертв докладали зусиль, щоб отримати доступ до цієї інформації. Європейський омбудсмен допоміг просунути вимогу прозорості до Європейської медичної агенції, і виглядає так, що його дії були успішними. Тож зараз справа за журналістами – отримати ці дані та старанно проаналізувати їх. Чи ми справді піддослідні кролики, як це сказав один дослідник, чи все ж механізми контролю працюють?

Уроки: якщо справа йде про прозорість, «ні» - це не відповідь. Будьте наполегливі та повертайтеся періодично до цього сюжету. Справи згодом можуть змінитися і дозволити здійснити кращу журналістську роботу на основі кращого доступу до даних.

Приклад 3: Контрабанда смертю

Новітня історія може бути вкрай болісною для цілих націй, особливо після воєн та в перехідні періоди. Тож як журналісти можуть отримати дані для розслідування того, чи перебувають зараз при владі спекулянти зброєю на війнах минулого десятиліття? Це завдання поставила перед собою команда словенських, хорватських та боснійських журналістів.

Команда почала розслідування торгівлі зброєю в країнах колишньої Югославії під час дії ембарго ООН на початку 1990-х. В основі їхньої роботи були документи від парламентських розслідувань з цієї теми. Щоб задокументувати шляхи постачання зброї та зрозуміти структуру торгівлі, потрібно було відстежувати рух транспорту за номерами суден у портах та номерами вантажних автомобілів.

Парламентська комісія в Словенії провела розслідування щодо спекуляції зброєю під час Балканських воєн, але так і не склала висновку. Однак залишився надзвичайно цінний «слід» із розсекречених документів та даних, в тому числі 6 тисяч сторінок, які словенська команда отримала через запит по ЗСІ.

У цьому випадку дані необхідно було вилучити з документів та відсортувати в базах даних. Доповнивши цю інформацію наступними даними, аналітичними та дослідницькими матеріалами, журналісти змогли визначити численні шляхи незаконної торгівлі зброєю.

Команда досягла успіху, результати її роботи були унікальними і принесли їм їхню першу премію. Але більш важливим є значення цієї теми для цілого регіону, і те, що її можуть підхопити журналісти в інших країнах, через які йшов смертельний вантаж.

Уроки: Знайдіть гарний «сирий» матеріал, навіть якщо ви знайдете його в несподіваних місцях, і поєднайте його з існуючими загальнодоступними даними.

Бріджит Алфтер, Journalismfund.eu

Як отримати дані з Інтернету

Ви перепробували все що могли, але не спромоглися отримати потрібні вам дані. Ви знайшли ці дані в Інтернеті, але, на жаль, нема можливості їх завантажити, а операція «скопіювати/вставити» не спрацювала. Нічого страшного, є й інші способи вилучення даних. Наприклад, ви можете:

• Отримати дані з веб-орієнтованих інтерфейсів прикладних програм (API) – таких як інтерфейси онлайнових баз даних та багатьох сучасних веб-програм (включно з Твіттером, Фейсбуком та багатьома іншими). Це фантастичний спосіб доступу до урядових чи комерційних даних, так само як і до даних із сайтів соціальних медіа.

• Вилучити дані з PDF-файлів. Це дуже складно, тому що PDF – це мова опису сторінок, призначена для принтерів, і вона не подає багато інформації про структуру даних у самому документі. Вилучення інформації з PDF не входить до тем цієї книги, але існують інструменти та посібники, спроможні допомогти вам у цьому.

• Вилучити дані з екранів веб-сайтів (скрин-скрейпінг, screen scraping – прим.). Під час скрин-скрейпінгу ви вилучаєте структурований контент із звичайної веб-сторінки або за допомогою програми-утиліти, або написавши невелику за обсягом програму. Попри те, що цей метод є дуже потужним і широко застосовується, він вимагає певного розуміння того, як працює веб.

При наявності всіх цих передових технічних можливостей не слід забувати про прості варіанти: часом є сенс витратити трохи часу на пошук файла з даними, придатними для машинного зчитування, або зателефонувати в установу, де є потрібні вам дані.

В цьому розділі ми розглянемо дуже простий приклад вилучення даних з веб-сторінки у форматі HTML.

Що таке дані, придатні для машинного зчитування?

Мета більшості цих методик – отримати доступ до даних, придатних для машинного зчитування. Ці дані створені для обробки на комп’ютері, а не для представлення користувачеві-людині. Структура цих даних пов’язана з інформацією, що в них міститься, а не з остаточною формою представлення цих даних. Приклади даних, що придатні для машинної обробки – це файли в форматі CSV, XML, JSON та Excel, тоді як формати на зразок документів Word, сторінок HTML та PDF більше зосереджені на візуальному представленні інформації. PDF, наприклад, це мова, яка безпосередньо адресована вашому принтеру, вона відображує розташування ліній та точок на сторінці, а не окремих символів.

Скрейпінг веб-сайтів: навіщо?

Всі це колись робили: ви заходите на веб-сайт, бачите цікаву таблицю і намагаєтеся скопіювати її до таблиці Excel, щоб ви могли додати до неї якісь цифри або зберегти її на потім. Але часто це не спрацьовує так як треба, або ж інформація, якої ви потребуєте, розкидана по великій кількості веб-сайтів. Копіювання вручну часто стає дуже марудним, тож є сенс написати трохи програмного коду, який це зробить за вас.

Перевага скрейпінгу в тому, що ви можете робити це з буквально будь-яким веб-сайтом – від сайтів з прогнозом погоди до сайтів з урядовими витратами, навіть якщо ці сайти не мають інтерфейсу API для доступу до «сирих» даних.

Що можна вилучити, а що ні

Звісно, у скрейпінгу є обмеження. Ось деякі фактори, що ускладнюють це завдання:

• Погано відформатований HTML-код, з малою кількістю структурованої інформації або взагалі без неї. Наприклад, старі урядові веб-сайти.

• Системи автентифікації користувачів, мета яких – перешкодити автоматичному доступу. Наприклад, системи кодів CAPTCHA або системи платного доступу.

• Системи, що працюють в режимі сесій і використовують куки (cookies) браузера, щоб стежити за тим, що робить користувач.

• Відсутність повних списків даних та можливостей для пошуку за груповими (шаблонними ) символами.

• Блокування системними адміністраторами доступу до масиву даних.

Ще один набір обмежень – це законодавчі бар’єри: у деяких країнах існують авторські права на бази даних, які можуть обмежити ваше право на повторне використання опублікованої в онлайні інформації. Іноді ви можете прийняти рішення ігнорувати цю ліцензію і все одно робити своє – залежно від вашого законодавства, у вас можуть бути на це особливі права як у журналіста. Скрейпінг урядових сайтів з вільним доступом не становить проблем, але перед публікацією варто все ретельно перевірити. Комерційні організації – та певні неурядові організації – реагують менш толерантно і можуть спробувати заявити, що ви «шкодите» їхнім системам. Інша інформація може зачіпати права на захист приватності осіб і тому порушувати законодавство про приватність даних або про професійну етику.

Інструменти, які допоможуть вам вилучати дані

Існує багато програм, які можна використати для вилучення масивів даних із веб-сайтів, зокрема, розширення до браузерів та деякі веб-сервіси. Залежно від вашого браузеру, інструменти на зразок Readability (допомагає вилучати текст із веб-сторінки) або DownThemAll (дає змогу завантажити багато файлів за один раз) можуть стати в пригоді під час автоматизації деяких марудних завдань. Розширення Scraper до браузера Chrome було створене спеціально для вилучення таблиць із веб-сайтів. Орієнтовані на розробників розширення на зразок FireBug (для браузера Firefox, аналогічні вже входять до складу браузерів Chrome, Safari та IE) дають вам змогу точно відстежувати, як структурований веб-сайт і які комунікації відбуваються між вашим браузером та сервером.

ScraperWiki – це веб-сайт, який дозволяє вам кодувати програми-скрейпери на різних мовах програмвання, включно з Python, Ruby та PHP. Якщо ви хочете почати скрейпінг без клопотів із встановленням відповідного програмного оточення на вашому комп’ютері, це саме цей спосіб. Інші веб-сервіси, такі як Google Spreadsheets та Yahoo! Pipes, також дозволяють вам здійснювати певне вилучення інформації з інших веб-сайтів.

Як працює веб-скрейпер?

Веб-скрейпери – це зазвичай маленький за об’ємом код, написаний на мові програмування, такій як Python, Ruby чи PHP. Обрання правильної мови – це загалом питання, пов’язане із тією спільнотою, до якої у вас є доступ: якщо у вашій редакції чи місті є хтось, хто вже використовує одну зі вказаних мов, тоді є сенс застосувати саме її.

Хоч деякі зі згаданих вище інструментів скрейпінгу, що працюють по принципу «виділення мишкою», можуть стати в пригоді на початку, реальна складність із скрейпінгом веб-сайту – це звернення до потрібних сторінок та потрібних елементів на цих сторінках з метою вилучення потрібної інформації. Це завдання стосується не програмування, а радше розуміння структури веб-сайту та бази даних.

Показуючи веб-сайт, ваш браузер майже завжди використовує одну з двох технологій: протокол http є способом зв’язку із сервером та запитів про специфічні ресурси, такі як документи, зображення чи відео. HTML – це мова, за допомогою якої скомпоновані веб-сайти.

Анатомія веб-стор.інки

Будь-яка HTML-сторінка структурована як ієрархія компонентів (які у HTML визначаються як теги (“tags”)). Великий компонент може включати значне число менших – наприклад, таблиця має багато менших елементів: рядки та колонки. Є багато типів тегів, що виконують різні функції – деякі створюють клітини, інші – таблиці, зображення чи лінки. Теги також можуть мати додаткові властивості (тобто, бути унікальними ідентифікаторами), і можуть належати до груп під назвою «класи», що дає змогу визначати та вилучати індивідуальні елементи у документі. Пошук відповідних елементів у такий спосіб та вилучення їхнього змісту – це ключ до написання програми-скрейпера.

Перегляд елементів веб-сторінки: все можна розкласти на «клітини», що входять до складу інших «клітин».

Для того, щоб вилучати інформацію з веб-сторінок, вам треба дещо знати про різні типи елементів, які можуть бути в HTML документі. Наприклад, елемент table обрамляє всю таблицю, у якій є елементи tr (table row, рядок таблиці) для рядків, а ті, в свою чергу, містять елемент td (table data, дані таблиці) для кожної клітини. Найпоширеніший тип елемента, який вам трапиться, - це div, який може означати буквально будь-який блок контенту. Найпростіший спосіб отримати відчуття цих елементів – це використати панель інструментів веб-розробника у вашому браузері: вони дадуть вам змогу «зависати» над будь-якою частиною веб-сторінки і бачити, як виглядає код, що відповідає за цю частину.

Теги працюють як закладки, позначаючи початок та кінець блока. Наприклад, тег em i позначає частину тексту, виділеного курсивом, а /i /em позначає кінець цієї секції. Все просто.

Приклад: вилучення даних про атомні інциденти за допомогою мови програмування Python

Портал Міжнародної агенції з атомної енергії, присвячений радіаційним інцидентам в усьому світі, має назву NEWS (і ця назва є потужним претендентом на членство в Клубі Дивних Назв!). Веб-сторінка подає списки інцидентів у простому, схожому на блог стилі, який легко піддається скрейпінгу.

Для початку, створіть новий скрейпер мовою Python на ScraperWiki, і ви отримаєте текстову область, яка загалом порожня, за винятком деякого «шаблонного» коду. В іншому вікні браузера відкрийте сайт IAEA та увімкніть панель інструментів веб-розробника у вашому браузері. У режимі перегляду “Elements” (елементи) спробуйте знайти HTML-елементи, які позначають один із заголовків новин. Панель інструментів розробника у вашому браузері допоможе вам пов’язати елементи на веб-сторінці з HTML-кодом, який відповідає цим елементам.

Дослідження цієї сторінки покаже, що заголовки позначені елементами h4 в межах тегу table. Кожна подія – це рядок, позначений тегом

, який також містить опис та дату. Якщо ми хочемо вилучити заголовки всіх інцидентів, нам треба знайти спосіб почергово виділяти кожен рядок у колонці і брати з нього весь текст, що міститься в елементах заголовка.

Щоб перетворити цей процес у код, нам слід усвідомити всі потрібні для цього кроки. Відчути ці необхідні кроки можна за допомогою простої гри: у вікні вашої ScraperWiki спробуйте написати окремі інструкції для себе, для кожної операції, яку ви збираєтеся виконати під час створення цього скрепера, подібно до інструкцій в кулінарному рецепті (на початку кожного рядка ставте символ «хеш» (#), щоб повідомити Python про те, що це не справжній комп’ютерний код. Наприклад:

# Переглянути всі рядки в таблиці

Намагайтеся бути настільки точними, наскільки це можливо, і не думайте, що програма знає хоч щось про сторінку, з якої ви збираєтеся вилучати інформацію.

Якщо ви написали цей псевдо-код, давайте порівняємо його з дійсним кодом нашого першого скрейпера:

import scraperwiki
from lxml import html

У цій першій частині ми імпортуємо існуючий функціонал з т.зв. бібліотек – фрагментів заздалегідь написаного коду. Scraperwiki дає нам змогу завантажувати веб-сайти, а lxml – це інструмент для структурного аналізу HTML-документів. Для вас є гарні новини: якщо ви пишете скрейпер на Python в середовищі ScraperWiki, ці два рядки будуть незмінними.

url = "http://www-news.iaea.org/EventList.aspx"
doc_text = scraperwiki.scrape(url)
doc = html.fromstring(doc_text)

Після цього у програмі оголошується ім’я (змінної): url, і цій змінній в якості значення присвоюється інтернет-адреса веб-сторінки IAEA. Це повідомляє скрейперу, що така сторінка існує і ми збираємося присвятити їй увагу. Зверніть увагу, що інтернет-адреса сама по собі вказана в лапках, бо це не частина програмного коду, а текстовий рядок, послідовність символів.

Після цього ми використовуємо змінну під назвою url як параметр, що передається до функції scraperwiki.scrape. Ця функція виконає певну визначену роботу – в даному випадку, вона завантажить веб-сторінку. Коли ця операція завершена, результат буде присвоєно іншій змінній, doc_text. Ця змінна doc_text тепер міститиме весь текст веб-сайта – не у візуальній формі, яку ви бачите у вашому браузері, а як початковий код, включно з усіма тегами. Оскільки таку форму представлення не дуже просто розбирати на складові, ми використаємо ще одну функцію, html.fromstring, щоб згенерувати особливу форму представлення, де ми можемо легко звертатися до елементів, так звану об’єктну модель документа (DOM).

for row in doc.cssselect("#tblEvents tr"):
link_in_header = row.cssselect("h4 a").pop()
event_title = link_in_header.text
print event_title

На цьому завершальному етапі ми використовуємо DOM, щоб знайти кожен рядок у нашій таблиці і вилучити з її заголовка назву інциденту. Тут застосовані два нові концепти – оператор циклу for та елемент вибірки (.cssselect). Оператор циклу for виконує те, що зрозуміло з його назви; він по черзі обходить список елементів, присвоюючи кожному тимчасовий псевдонім (у цьому випадку – row), і після цього виконує для кожного елемента список інструкцій.

Інший новий концепт, елемент під назвою selection, застосовує спеціальну мову для пошуку елементів у документі. Т.зв. селектори CSS (каскадних стилів документа) зазвичай застосовуються для того, щоб додавати інформацію про формат до HTML-елементів, і їх можна використати для того, щоб точно вилучити певний елемент із веб-сторінки. У цьому випадку (рядок 6) ми обираємо #tblEvents tr, який відповідає кожному тегові tr у елементі table з ідентифікатором (ID) tblEvents (хеш-символ # просто позначає ID). Зверніть увагу, що це видасть список елементів tr.

Як видно з наступного рядка (рядок 7), ми застосовуємо новий селектор, щоб знайти будь-які теги a (які позначають гіперлінк) у тегах (заголовок). Та нам потрібен лише один елемент (є лише один заголовок у рядку), тому нам слід взяти його з вершини списку, який видасть наш селектор, за допомогою функції .pop().

Зверніть увагу, що деякі елементи у DOM містять звичайний текст, тобто, текст, який не є частиною мови розмітки сторінок, і ми можемо отримати доступ до нього за допомогою виразу [element].text (рядок 8). І насамкінець, у рядку 9 ми друкуємо цей текст у консоль ScraperWiki. Якщо ви натиснете «пуск» у вашому скрейпері, у меншому вікні почергово будуть з’являтися назви атомних інцидентів, отримані з веб-сайту IAEA.

Ілюстрація 58. Скрейпер у роботі (ScraperWiki)

Тепер ви бачите, як діє простий скрейпер: він завантажує веб-сторінку, перетворює її у формат DOM, і після цього дає вам змогу вибирати та вилучати певні елементи змісту. Маючи цей шаблон, ви можете спробувати знайти вирішення деяких інших проблем, використовуючи документацію по ScraperWiki та Python:

• Чи можете ви знайти адресу лінка у заголовку кожного інциденту?

• Чи можете ви вибрати клітину, де міститься дата та місце інциденту, використавши назву CSS класу цієї клітини та вилучивши текст із цього елемента?

• ScraperWiki надає невелику базу даних до кожного скрейпера, щоб ви могли зберегти в ній результати; скопіюйте відповідний приклад з їхньої документації та змініть його так, щоб він зберігав назву інцидентів, лінки та дати.

• У списку подій є багато сторінок; чи можете ви вилучити інформацію з декількох сторінок, щоб отримати також і минулі інциденти?

Коли ви будете шукати вирішення цих завдань, ознайомтеся із ScraperWiki: тем є багато корисних зразків у вже існуючих скреперах – і досить часто отримані дані також заслуговують на увагу. Таким чином, вам не треба буде починати ваш скрейпер «з чистого аркуша»: просто оберіть подібний, модифікуйте його та адаптуйте до вашої проблеми.

Фридрих Лінденберг, фундація Open Knowledge

Веб як джерело даних

Як можна більше дізнатися про те, що існує тільки в Інтернеті? У цьому розділі я ознайомлю вас із інструментами, які можуть надати вам більше інформації про те, що ви шукаєте: чи це адреса електронної пошти, веб-сайт, зображення чи стаття у Вікіпедії.

Веб-інструментарій

Для початку ось кілька сервісів, які можна застосувати, щоб більше дізнатися про сайт цілком, а не про його окрему сторінку.

Whois

Якщо ви перейдете на адресу whois.domaintools.com (або просто введете whois www.example.com у програмі Terminal на комп’ютері «Мак»), ви зможете отримати базову реєстраційну інформацію для будь-якого веб-сайту. У нещодавні роки деякі власники сайтів обрали «приватну» реєстрацію, яка приховує ці деталі від перегляду, але в багатьох випадках ви побачите ім’я, адресу, email та телефонний номер особи, яка зареєструвала цей сайт. Ви також можете вводити IP-адреси в цифровому вигляді й отримувати дані про організацію чи особу, яка є власником цього сервера. Це особливо зручно тоді, коли ви хочете відстежити більше даних про користувача чи сервіс, який розсилає небажану інформацію або веде шкідливу діяльність, бо більшість веб-сайтів записують IP-адреси будь-кого, хто заходить на них.

Blekko

Пошуковий механізм Blekko пропонує нетиповий погляд на внутрішню статистику, зібрану на сайтах, відвіданих цим пошуковиком. Якщо ви введете доменне ім’я, а за ним рядок ‘/seo’, ви отимаєте сторінку з інформацією про цю адрес. Перша вкладка на ілюстрації 59 показує, які інші сайти містять лінки на цю доменну адресу, у порядку їхньої популярності. Це стане у великій пригоді, коли ви захочете зрозуміти, наскільки відомим є сайт, або якщо ви бажаєте з’ясувати, чому він має високий рейтинг у пошукових результатах Google – а тому, що вони базуються на цих внутрішніх лінках. Ілюстрація 61 показує, які ще веб-сайти працюють на цій же машині. Це типовий прийом шахраїв та спамерів – вдавати легітимність, створивши багато сайтів, які посилаються один на одного. Вони виглядають як незалежні домени і можуть навіть мати різні реєстраційні дані, але часто вони працюють на одному сервері, бо це значно дешевше. Ця статистика дозволяє вам зрозуміти приховану бізнесову структуру сайту, який ви досліджуєте.

Ілюстрація 59. Пошуковий механізм Blekko (Blekko.com)

Ілюстрація 60. Зрозуміти причини популярності в Інтернеті: хто на кого посилається. Інша корисна вкладка називається tab is "Crawl stats" (статистика пошуковика), особливо розділ "Cohosted with"(«спільні хости») (Blekko.com)

Ілюстрація 61. Виявляємо веб-спамерів та шахраїв (Blekko.com)

Compete.com

Досліджуючи соціальний зріз американських споживачів, Compete.com будує детальну статистику використання більшості веб-сайтів, і деякі базові подробиці вони надають безкоштовно. Виберіть вкладку ‘Site Profile’ («профіль сайту») й увійдіть у домен (Ілюстрація 62). Ви тоді побачите графік трафіку на цьому сайті протягом останнього року, включно з цифрами, скільки людей його відвідували і як часто (див. Ілюстрацію 63). Так як ці дані базуються на результатах опитувань, цифри приблизні, але я виявив, що вони досить точні, коли порівняв їх із даними внутрішньої аналітики. Зокрема, вони можуть бути гарним джерелом інформації під час порівняння двох сайтів, і хоч абсолютні цифри, імовірно, будуть відсутні по обох сайтах, це все ж дає добре представлення, як вони відрізняються за популярністю. Ресурс, однак, веде огляд лише американських споживачів, тож по сайтах, які переважно зорієнтовані на міжнародну аудиторію, даних буде небагато.

Ілюстрація 62. Сервіс профілю сайту на Compete.com’s (Compete.com)

Ілюстрація 63. Що в моді? На що є попит? «Гарячі точки» Інтернету (Compete.com)

Google’s Site Search

Функція, яка може бути надзвичайно корисною, коли ви намагаєтеся дослідити весь контент сайту за певною доменною адресою, - це ключове слово ‘site:’. Якщо ви додасте до пошукового рядка ‘site:example.com’, Google видасть результат тільки з визначеного вами сайту. Ви можете ще більше звузити результати, включивши префікс сторінок, у яких ви зацікавлені, наприклад, ‘site:example.com/pages/’, і ви побачите тільки ті результати, які відповідають цьому шаблону. Це може дуже стати в пригоді, коли ви намагаєтеся знайти інформацію, до якої власники відкрили доступ, але не показали це на веб-сторінці, тож підбір правильних ключових слів може виявити дуже навіть викривальний матеріал.

Веб-сторінки, картинки та відео

Іноді вас цікавить діяльність навколо певної статті, а не весь веб-сайт. Інструменти, вказані нижче, дають вам змогу побачити під різними кутами, як люди читають, реагують, копіюють та обмінюються контентом у Інтернеті.

Bit.ly

Я завжди звертаюся до bit.ly, коли хочу дізнатися, як люди обмінюються між собою певним лінком. Щоб скористатися цим, уведіть адресу URL, яка вас цікавить. Тоді клацніть на лінку ‘Info Page+’. Ви перейдете на сторінку з повною статистикою (хоч, можливо, вам буде потрібно вибрати спочатку ‘aggregrate bit.ly link’, якщо ви зареєстровані на цьому сервісі). Це дасть вам розуміння того, наскільки популярною є ця сторінка, включно з активністю на Facebook та Twitter, а нижче ви побачите обговорення цього лінку, надане backtype.com. Я знаходжу таке поєднання даних по трафіку та обговорення дуже помічним, коли намагаюся зрозуміти, чому сайт чи веб-сторінка мають популярність, і хто насправді є фанами цієї сторінки. Так, це дало мені вагомі свідчення того, що поширене уявлення про «низових» активістів та Сару Пейлін не відповідало дійсності.

Twitter

Із поширенням використання цього сервісу мікроблогів він стає більш корисним в якості «датчика» того, як люди обмінюються окремими фрагментами контенту та обговорюють їх. Пошук публічного обговорення лінку виглядає оманливо просто – ви просто вводите у вікно пошуку URL-адресу, яка вас цікавить, а тоді натискаєте ‘more tweets’ («більше твітів»), щоб побачити повний результат.

Кеш Google

Коли сторінка викликає суперечності, видавці можуть видалити її або змінити без попередження. Якщо ви підозрюєте, що стикнулися з такою проблемою, у першу чергу слід звернутися до кешу Google, де сторінка зберігається у тому вигляді, який вона мала під час останніх відвідин пошукового робота. Частота відвідин постійно зростає, тож вам може найбільше пощастити, якщо ви спробуєте цей спосіб протягом кількох годин після внесення гіпотетичних змін. Введіть потрібну URL в пошуковому вікні Google, потім наведіть мишкою на цей лінк і справа від нього з’явиться подвійна стрілочка «>>». Клацніть мишкою по стрілочці (або наведіть на неї), і справа у вікні з’явиться сторінка у формі попереднього графічного перегляду, і якщо вам пощастить, зверху буде маленький лінк ‘Cache’ (кеш). Клацніть по ньому, щоб побачити зроблену Google «копію» цієї сторінки. Якщо вона не завантажується, ви можете переключитися на більш примітивну текстову форму сторінки, клацнувши на інший лінк вгорі на сторінці з повним кешем. Вам слід буде зробити екранну копію або скопіювати той необхідний вам контент, який ви знайшли, бо він під час наступного заходу пошукового робота він буде втрачений.

Сервіс Wayback Machine сайту Internet Archive

Якщо ви хочете дізнатися про те, як певна сторінка змінювалася протягом тривалого періоду часу, тобто, за місяці чи роки, Internet Archive веде сервіс під назвою Wayback Machine, який періодично робить «знімки» найбільш популярних сторінок в Інтернеті. Заходите на сайт, вводите лінк, який хочете дослідити, і якщо по ньому є попередньо збережені копії, вам покажуть календар, щоб ви могли вибрати період часу, який збираєтеся переглянути. Сервіс покаже вам версію сторінки приблизно такою, якою вона була в той час. Часто там буде відсутнє форматування чи ілюстрації, але зазвичай цього достатньо, щоб зрозуміти, на чому зосереджувався зміст цієї сторінки на той час.

Перегляд початкового коду

Це такий собі «постріл здалеку», але варто знати, що розробники часто залишають коментарі чи інші ремарки в HTML-коді, яким записана будь-яка веб-сторінка. В залежності від вашого браузера пункт ‘View source’ («переглянути початковий код»), який дає вам змогу переглядати «сирий» HTML, може знаходитися в різних меню, але він там буде обов’язково. Вам не треба розуміти, що означають ділянки коду, призначені для комп’ютера, - просто звертайте увагу на фрагменти тексту, які часто розкидані поміж ними. Навіть якщо це просто нотатки про авторські права або згадка про автора сторінки, це часто може надати важливі підказки про те, хто створив сторінку і з якою метою.

TinEye

Іноді вам вкрай потрібно знати джерело походження картинки, але без чіткої текстової атрибуції нема очевидного способу зробити це за допомогою традиційних пошуковиків на зразок Google. TinEye пропонує спеціалізований процес «зворотного пошуку зображення», де ви надаєте наявне у вас зображення, а він шукає інші картинки, які виглядають подібно. Так як для порівняння використовується технологія розпізнавання зображення, метод працює навіть тоді, коли копію було обрізано, спотворено чи стиснено. Це може бути вкрай ефективно в ситуації, коли в підозрюєте, що зображення, як видають за оригінал або новинку, насправді таким не є, - бо цей метод може привести вас до справжнього джерела.

YouTube

Якщо ви клацнете на іконці ‘Statistics’ у нижньому правому куті будь-якого відеоролика, ви зможете отримати багатий набір інформації про тих, хто дивився цей ролик протягом часу його існування. І хоч ця інформація не повна, вона є корисною для орієнтовного розуміння того, ким є глядачі цього ролика, звідки вони, і коли відбувався перегляд.

Електронні листи

Якщо вам доводиться досліджувати електронні листи, вам часто хочеться знати більше деталей про особу та місцезнаходження відправника. Готового програмного інструмента, розрахованого на те, щоб допомогти в цій справі, немає, але вам можуть стати в пригоді знання основ про приховані заголовки, які є в кожному електронному листі. Вони аналогічні до штемпелів на паперових листах, і можуть розкрити навдивовижу багато про відправника. Зокрема, вони часто включають IP-адресу комп’ютера, з якого був відправлений електронний лист, - щось дуже подібне на визначник телефонного номера. Ви можете запустити сервіс whois по цьому IP, щоб дізнатися, якій організації належить цей комп’ютер. Якщо виявиться, що це провайдери на зразок Comcast чи AT&T, які надають користувачам послуги інтернет-зв’язку, тоді ви можете відвідати MaxMind, щоб визначити приблизне місцезнаходження відправника. Щоб побачити такі ж заголовки в поштовому сервісі Gmail, відкрийте листа та зайдіть у меню поруч із пунктом «Відповісти» зверху справа і виберіть пункт ‘Show original’ («Показати оригінал»). Тоді відкриється нова сторінка з прихованим контентом. На початку буде кількадесят рядків із словами, що закінчуються двокрапкою. ІР-адреса, яка вам потрібна, може бути в одному з них, але це залежатиме від того, як саме відправлявся лист. Якщо його відправлено з Hotmail, там буде ‘X-Originating-IP:’, але якщо він надійшов з Outlook чи Yahoo, він буде у першому рядку, який починається словом ‘Received:’. Коли я запустив Whois по цій адресі, він повідомив, що адреса належить британському провайдеру Virgin Media, тож я використав сервіс геолокації MaxMind і виявив, що лист надійшов із мого рідного міста Кембріджа. Це означає, що я маю достатньо підстав для впевненості, що це дійсно лист від моїх батьків, а не від людей, що видають себе за них!

Тренди

Якщо ви «копаєте» широку тему, а не конкретний сайт чи предмет, то ось кілька інструментів, які допоможуть вам зорієнтуватися.

Трафік по статтях Wikipedia

Якщо вас цікавить, як змінювалася з часом цікавість громади до певної теми чи особи, ви можете отримати дані перегляду по днях щодо будь-якої сторінки Вікіпедії на сайті stats.grok.se. Цей сайт зроблений наспіх, але трохи «покопавши», ви зможете знайти там потрібну вам інформацію. Уведіть ім’я, яке вас цікавить, щоб отримати помісячний перегляд трафіку на цій сторінці. Буде виведено графік, який покаже кількість переглядів сторінки щодня протягом визначеного вами місяця. На жаль, ви можете переглядати лише один місяць, тож вам доведеться обирати новий місяць і знову проводити пошук, щоб побачити зміни за довший період.

Google Insights

Отримати чітку картину пошукових схильностей суспільства можна за допомогою сервісу Insights від Google. Уведіть пару типових пошукових запитів, наприклад ‘Justin Bieber vs Lady Gaga’, і ви побачите графік із порівнянням кількості пошукових звернень за певний проміжок часу. Є багато опцій, які дають змогу конкретизувати ці дані, від звуження географічних координат до більш деталізованого періоду часу. Єдине розчарування – це відсутність абсолютних (кількісних) показників, ви отримуєте лише порівняння процентних даних, яке часом важко інтерпретувати.

Ілюстрація 64. Google Insights (Google)

Піт Уорден, незалежний аналітик даних та програміст

Краудсорсинг даних у Guardian Datablog

За Вікіпедією, краудсорсинг (crowdsourcing, «колективне збирання інформації») – це процес розподіленого вирішення проблем чи виробництва, який передбачає передачу завдань на виконання мережі людей, яку ще називають «гурт». Далі читайте уривок з інтерв’ю Саймона Роджерса про те, як у Guardian Datablog застосували краудсорсинг для висвітлення скандалу з витратами парламентарів, теми вживання наркотиків та листів до Сари Пейлін.

Ілюстрація 65. Відредагована копія документа про побічні витрати парламентарія Стівена Паунда (Guardian)

Часом до вас потрапляє тонна файлів, статистичних даних чи звітів, які неможливо опрацювати одній людині. Так само ви можете роздобути матеріали, які нечитабельні або в поганому форматі, і ви мало що можете з цим зробити. І тут у пригоді може стати краудсорсинг.

Що вже точно є в Guardian, так це багато читачів, і багато пар очей. Якщо є цікавий проект, де нам потрібен їхній внесок, ми можемо попросити їх про допомогу. Саме це ми зробили у проекті про витрати британських парламентарів. У нас було 450 тисяч документів та дуже мало часу на роботу. Тож чи є кращій спосіб, ніж запропонувати це завдання нашій читацькій аудиторії?

Проект «Витрати парламентарів» відкрив багато прихованих фактів. Ми отримали більше тем для публікацій, ніж даних. Проект був винятково успішним у сенсі інтернет-трафіку. Людям він справді сподобався.

Наразі ми ведемо проект із MixMag про вживання наркотиків, який теж був феноменальним. Виглядає, що він буде масштабнішим за огляд злочинності в Британії за показниками кількості людей, які взяли в ньому участь, що просто прекрасно.

Ці два проекти поєднує те, що вони присвячені питанням, які справді хвилюють людей, і тому люди охоче витрачають на них свій час. Значний обсяг роботи з краудсорсингу, ініційованої нами, було виконано завдяки допомозі від «фанатиків». У проекті про витрати парламентарів спочатку був потужний сплеск трафіку, який згодом згас. Але у нас все ще є люди, які з одержимістю переглядають кожну сторінку, шукаючи в ній аномалії чи теми для статей. Одна особа опрацювала 30 тисяч сторінок. Вони знаються на цій справі.

Ми також застосовували краудсорсинг у проекті, присвяченому листам до Сари Пейлін. І знову це дуже допомогло в процесі просіювання сирої інформації в пошуках журналістських тем.

Якщо говорити про створення сюжетів для статей, то в нашому випадку краудсорсинг спрацював дуже добре. Але в сенсі генерації даних ми не дуже активно застосовували краудсорсинг.

Деякі з наших проектів із краудсорсингу, які справді добре спрацювали, були більш подібні на старомодні опитування. Коли ви запитуєте людей про їхній досвід, їхні життя і діяльність, це працює дуже добре, бо люди не схильні тут щось вигадувати. Вони кажуть те, що відчувають. А коли ми просили людей начебто виконати замість нас нашу роботу, тут треба було знаходити такий базовий підхід, за якого ви могли б довіряти тим даним, які створили люди для вас.

Щодо надійності даних, то я гадаю, що метод, використаний у проекті Old Weather, - це те що треба. Вони брали десять людей для опрацювання кожної позиції, що є гарним способом забезпечити точність. У проекті «Витрати парламентарів» ми намагалися мінімізувати ризик того, що парламентарі виходили б в онлайн та редагували свої власні записи, щоб виглядати в них краще. Але остаточного захисту від подібних дій нема. Можна лише відстежувати певні URL-адреси, або чи не надходять дані з району SW1 у Лондоні. Тож тут справа хитріша. Дані, які ми отримували, не завжди були надійними. І хоч статті вийшли чудові, ми не отримали «сирих» даних, якими можна було б із упевненістю користуватися.

Якщо б я давав пораду завзятим журналістам даних, які хочуть застосувати краудсорсинг задля збору даних, я б рекомендував їм робити це по такій темі, яка справді хвилює людей, і яка продовжуватиме їх хвилювати й після того, коли вона зникне з заголовків на перших сторінках. Ще допомагає залучати людей організація краудсорсингу у формі, подібній до гри. Коли ми вдруге готували публікацію про витрати, це було більше схоже на гру, де люди отримували окремі завдання. Це справді допомогло – давати людям специфічні завдання. Велика відмінність тут ось у чому: я вважаю, якщо ви просто даєте людям гору інформації, щоб вони її опрацювали, і кажете «ану працюйте», це виглядатиме як важка і невдячна робота. Тому я вважаю, що дуже важливо, щоб це був цікавий процес.

Маріанн Бучар, блог «Журналістика даних», інтерв’ю із Саймоном Роджерсом (Guardian)

Як Datablog використав колективний збір інформації для висвітлення теми квитків на Олімпіаду

Як на мене, проект із краудсорсингу, що отримав найбільшу кількість відгуків, - це проект, присвячений темі квитків на Олімпіаду. Тисячі людей у Великобританії намагалися роздобути квитки на Олімпійські ігри-2012 і були дуже обурені тим, що не отримали нічого. Люди зробили замовлення вартістю в кількасот фунтів, а їм сказали, що вони нічого не матимуть. Але насправді ніхто не знав, чи це просто кілька осіб голосно висловлювали невдоволення, а насправді більшість була цілком щаслива. Тож ми спробували знайти спосіб дізнатися про це.

Ілюстрація 66. Скільки квитків на Олімпіаду ви отримали?: дані читачів (Guardian)

Ми вирішили, що найкраще з того, що ми можемо зробити за відсутності будь-яких надійних даних з цієї теми, - це запитати людей. І ми подумали, що до цього треба підійти легко, бо це не буде збалансована вибірка.

Ми створили форму в Google і поставили в ній дуже конкретні запитання. Це насправді була довга форма, в ній запитувалося, на яку суму люди замовили квитки, скільки списали з їхніх карток, на які події вони ходили, і далі в такому ж сенсі.

Ми виставили результат як маленьку картинку на першій сторінці сайту, і її почали поширювати справді дуже швидко. Я вважаю, що це одна з найважливіших речей, ти не можеш просто думати «що мені потрібно знати для моєї статті», слід думати «про що люди хочуть мені розповісти просто зараз». І тільки коли ви усвідомите, про що саме люди хочуть розповісти, краудсорсинг буде успішним. Обсяг відгуків у цьому проекті, який був однією з наших перших спроб колективного збору даних, був просто гігантським. У нас була тисяча відповідей менше ніж за годину, і сім тисяч до кінця першого дня.

Тож, зрозуміло, тоді ми вирішили представити ці результати трохи серйозніше. Початково в нас не було гадки про те, чи добре все пройде. Тож ми додали кілька роз’яснень: читачі Guardian можуть бути заможнішими за інших людей, люди, які отримали менше, ніж сподівалися, можуть охочіше спілкуватися з нами і таке інше.

Ми не знали, наскільки вартісними будуть результати. Коли ми завершили, в нас було добрих сім тисяч записів як підґрунтя для статті, і ми виявили, що десь половина людей, які звернулися по квитки, не отримала нічого. Ми використали цю інформацію, і через те, що так багато людей взяли участь у опитуванні попереднього дня, результати викликали значний інтерес.

Через кілька тижнів вийшов офіційний підсумковий звіт, і наші цифрі були приголомшливо близькі до його цифр. Ми майже точно влучили в ціль. Я гадаю, певною мірою нам пощастило, але це ще й тому, що так багато людей взяли участь у опитуванні.

Якщо подібне питання ставити у коментарях до статті, ви будете обмежені в тому, що можна зробити з результатами. Тож починати слід з таких міркувань: «Який найкращий засіб для того, що я хочу взнати?» Чи це стрічка коментарів? Чи треба написати програму? І якщо ви пишете програму, то вам треба подумати: «А чи варто це того, щоб чекати? І чи це варто тих ресурсів, які потрібні на це?».

У нашому випадку ми використали сервіс Google Forms. Якщо хтось заповнює форму, ви бачите результат у вигляді рядка в таблиці. Це означає, що навіть коли таблиця доповнювалася, навіть коли результати ще надходили, можна було відкрити таблицю й відразу побачити всі результати.

Я міг б спробувати виконати роботу в Google, але я завантажив таблицю в Microsoft Excel і тоді виконував операції на зразок сортування від меншого до більшого, пошуку людей, які вирішили ввести текстом, а не цифрами суму того, скільки грошей вони потратили, і виправляв це все. Я вирішив виключати з таблиці якомога менше. Тож замість того, щоб приймати лише правильно введені відповіді, я намагався виправити інші. Люди наводили дані в іноземній валюті, тож я конвертував їх у фунти стерлінгів, і це було досить-таки марудно.

Але загальний аналіз було виконано за кілька годин, і я викинув очевидно безглузді відповіді. Багато людей вирішили заповнити форму і при цьому вказати, що вони нічого не витратили на квитки. Це трохи комічно, але нехай. Загалом таких відповідей було менше сотні з понад семи тисяч.

Було кількадесят людей, які ввели очевидно фальшиві, дуже завищені суми, намагаючись спотворити результати. Такі, як десять мільйонів фунтів. Тож це змусило мене застосувати ті ж принципи роботи з даними, які ми застосовуємо щодня. Я зробив те, що називається «зведена таблиця». Я застосував усереднення даних. Щось таке.

Ми не мали гадки, яку динаміку продемонструє цей проект, тож над ним працював лише я разом із редактором блогу «Спорт». Ми взялися до справи спільно і думали, що це може бути цікавий задум. Ми зробили це, від початку до кінця, за 24 години. У нас виникла ідея, ми обговорили її за ланчем, ми поставили форму на першу сторінку сайту, ми побачили, що це виявилося популярним, ми протримали її на першій сторінці протягом решти дня, і представили результат в онлайні наступного раку.

Ми вирішили використати сервіс Google Docs, бо він забезпечує повний контроль над результатом. Мені не потрібно було використовувати сторонні аналітичні інструменти. Я міг легко ввести дані до бази даних чи електронної таблиці. Коли ви починаєте використовувати спеціалізоване програмне забезпечення для опитувань, ви зазвичай будете змушені використовувати лише цей інструментарій. Якби інформація, про яку ми запитували, була б особливо делікатного характеру, можливо, ми б подумали, чи використовувати Google, і придумали б щось «своє». Але загалом було дуже легко поставити форму Google на стартову сторінку Guardian, і користувач фактично не помічав, що ми її використовуємо. Тож це дуже зручно.

Що можна порадити журналістам даних, які хочуть застосувати краудсорсинг: вам потрібно дуже чітко визначити те, про що хочете довідатися. Запитуйте про ті речі, на які може бути багато варіантів відповідей. Спробуйте встановити загальну демографічну картину щодо тих людей, з ким ви спілкуєтеся, щоб зрозуміти, чи не є ваша вибірка нерепрезентативною. Якщо ви запитуєте про кількісні дані, то спробуйте вказати в інструкції, що їх треба подавати в цифрах, що слід використовувати одну валюту тощо. Багато хто цього не зробить, але чим більше людей ви проінструктуєте, тим краще. І завжди, завжди додавайте поле для коментарів, бо багато людей стануть вводити інші дані лише тому, що насправді їм хочеться поділитися своєю точкою зору з цієї теми. Особливо коли йдеться про досвід чи обурення споживачів.

Маріанн Бучар, блог «Журналістика даних», інтерв’ю із Джеймсом Боллом (Guardian)

Використання та поширення даних: старі закони, приховані доповнення та реальність

У цьому розділі ми побіжно розглянемо стан законодавства, пов’язаного з даними та базами даних, а також як ви можете відкрити доступ до своїх даних за допомогою вже існуючих публічних ліцензій та юридичного інструментарію. І нехай це не розхолодить вашого ентузіазму до журналістики даних. Юридичні обмеження щодо даних зазвичай не стануть вам на перешкоді, і ви легко зможете подбати про те, що вони не стануть на перешкоді й іншим, які захочуть використати опубліковані вами дані.

Констатуємо очевидний факт: ще ніколи не було так просто отримувати дані. Як це було до появи практики широкої публікації даних у Інтернеті: навіть якщо ви встановили, який саме набір даних вам потрібний, ви мусили запитувати тих, у кого була копія, щоб він надав її вам, і це типово передбачало документальні звернення та особистий візит. Тепер вам треба, щоб ваш комп’ютер зробив запит їхньому комп’ютеру, щоб той надіслав копію на ваш комп’ютер. Концептуально це виглядає подібно, але ви відразу маєте копію, а вони (автор чи видавець) нічого не робили, і, можливо, навіть уявлення не мають про те, що ви завантажили копію.

А як оцінюється завантаження даних за допомогою програми (що іноді називають «скрейпінг») з точки зору правил користування? Зверніть увагу на попередній параграф: ваш браузер є саме такою програмою. Чи можуть правила користування дозволяти доступ лише певним типам програм? Якщо у вас є забагато часу та коштів на те, щоб читати ці документи і, можливо, попросити поради в адвоката, то звісно ж, так і робіть. Але зазвичай достатньо просто не бути придурком: якщо ваша програма шкодить чужому сайту, доступ із вашої мережі до нього можуть заблокувати, і, можливо, так вам і треба. Зараз існує великий практичний досвід щодо отримання доступу до даних та скрейпінгу в Інтернеті. Якщо ви плануєте це робити, то прочитайте приклади на сайті на кшталт ScraperWiki, і це дасть вам відправну точку.

Як тільки ви отримали певні дані, що вас цікавлять, ви можете будувати до них запити, детально вивчати, сортувати, візуалізувати, знаходити кореляції та застосовувати будь-які методи аналізу над вашою копією цих даних. Ви можете публікувати результати вашого аналізу, в якому можна цитувати будь-які дані. Це право загалом виражене в поширеній фразі «свобода фактів» (подібно до свободи слова), але, можливо, ця фраза поширена лише серед тих, хто забагато думає про законність баз даних, або, говорячи ще більш широко (і більш розлого), про владу над даними.

А що як ви, будучи фаховим (або таким, що подає надії стати фаховим) журналістом даних, захочете опублікувати не тільки ваш аналіз, включно з деякими фактами чи даними, але повні бази/набори даних, використані вами – а можливо, й доповнені вами – на додачу до вашого аналізу? А можливо, ви просто займаєтеся впорядкуванням даних і не проводили ніякого аналізу – це добре, світові потрібні люди, що дбають про дані. Якщо ви використовуєте дані, зібрані кимось іншим, тут може бути проблема. (Якщо ваша база даних повністю створена вами, все одно прочитайте наступний абзац як мотивацію до практики поширення даних, про яку йдеться в абзаці, наступному за наступним).

Якщо ви знайомі з тим, як закони про копірайт обмежують використання творчих робіт – у випадку, коли власник копірайту не дав дозволу використовувати цю роботу (або ця робота перебуває у всезагальній власності, або ж ваше використання підпадає під винятки та обмеження на зразок права на добросовісне використання), а ви все одно її використали – розповсюдили, виконали тощо - власник прав може змусити вас припинити ці дії. Попри те, що факти належать усім, зібрання фактів можуть підпадати під аналогічне обмеження, хоча тут у відповідних законах є більше варіацій, ніж в законах про авторське право на творчі роботи. Якщо коротко, база даних може бути суб’єктом авторського права як творча робота. У багатьох юридичних системах діє принцип «створено в поті чола», тобто, просте укладання бази даних, навіть без будь-яких творчих складників, перетворює її на суб’єкт копірайту. Зокрема, в США, потрібний вищий рівень мінімальної творчої складової, щоб почав діяти копірайт (якщо вам цікаво, подивіться класичну справу Фейста про телефонну книгу). Але в деяких юридичних системах існують також «права на бази даних», які обмежують їхнє використання окремо від законів про копірайт (хоч часто ці норми накладаються одна на одну у сенсі того, що під них підпадає, особливо там, де фактично нема «порогу» креативності, потрібного для застосування копірайту). Найвідоміша з них – це закон Європейського Союзу про права на sui generis (унікальні) бази даних. Повторюємо знову, вам слід, особливо якщо ви в Європі, переконатися, що ви маєте дозвіл публікувати базу даних, отриману з якогось іншого джерела, перш ніж ви це зробите.

Очевидно, що такі обмеження не сприяють зростанню екосистеми журналістики даних (втім, це не означає, що вони загалом не є корисними для суспільства – так, вчені-соціологи та інші заявили Євросоюзу, що їхня діяльність неможлива без запровадження принципу sui generis, і наступні дослідження показали, що вони мали рацію). На щастя, будучи видавцем бази даних, ви можете зняти з неї такі обмеження (виходячи того, що в ній нема елементів, щодо яких ви не маєте дозволу на їхнє подальше поширення). Ви можете зробити це, оприлюднивши вашу базу даних під публічною ліцензію або передати її в усезагальну власність (public domain) – подібно до того, як багато програмістів оприлюднюють свій програмний код під вільною ліцензією чи ліцензією з відкритим початковим кодом, щоб інші могли писати на цій основі власний код (оскільки журналістика даних часто включає не тільки дані, але й програмний код, вам, звісно ж, слід публікувати й код також, щоб ваша підбірка даних та аналіз до них могли бути відтвореними). Є багато причин на те, щоб відкрити доступ до ваших даних. Наприклад, ваша аудиторія може створити нові візуалізації чи програми, на які ви можете дати лінк – так як зробив Guardian з їхньою візуалізацією даних Flickr pool. Ваші набори даних можна буде поєднати з іншими наборами, так, щоб читачі отримали краще розуміння теми. Те, що інші можуть зробити на основі ваших даних, може дати вам ідеї нових публікацій або ж інших проектів із журналістики даних. І безперечно, вам будуть вдячні за це.

Ілюстрація 67. Ярлики відкритих даних (Open Knowledge Foundation)

Якщо ви усвідомили, що публікація робіт під публічною ліцензією – це необхідність, виникає питання: а яка це має бути ліцензія? На це хитре питання часто дає відповідь той проект чи спільнота, на чиїй роботі ви будуєте свою, або до чиєї роботи ви хочете долучитися своєю роботою – використовуйте ту ж ліцензію, що й вони. Якщо хочете глибше з’ясувати це питання, починайте з набору вільних та відкритих ліцензій – таких, де будь-хто має дозвіл на будь-яке використання (тут може вимагатися, щоб для поширення був вказаний автор). Те, що визначення «відкритого програмного забезпечення» та «вільного відкритого коду» роблять для програмного забезпечення, визначення «відкритих знань» (Open Knowledge Definition) робить для всіх інших типів знань, включно з базами даних: воно описує, що саме робить роботу відкритою, і що відкрита ліцензія дозволяє чинити іншим користувачам.

Ви можете зайти на сайт Open Knowledge Definition і побачити актуальний набір ліцензій, які відповідають цьому визначенню. Загалом є три основні класи відкритих ліцензій.

• Передача у всезагальну власність, яка також виступає як ліцензія з максимальним обсягом дозволеного; на ці роботи не накладаються ніякі умови.

• Ліцензія на дозвіл використання, або ліцензія з вказівкою автора; єдина суттєва умова тут – це назвати автора роботи.

• Копілефт, взаємні ліцензії або ліцензії на однотипне поширення; вони також вимагають, щоб змінені роботи, якщо вони публікуватимуться, розповсюджувалися на умовах такої ж ліцензії.

Зверніть увагу: якщо ви використовуєте набір даних, опублікований кимось іншим під відкритою ліцензією, розглядайте попередній абзац як дуже коротку інструкцію про те, як виконувати умови цієї відкритої ліцензії. Ліцензії, які вам трапляться найчастіше, від Creative Commons, Open Data Commons чи різних урядових структур зазвичай включають підсумкову частину, у якій ви легко можете побачити суттєві умови використання продукту під цією ліцензією. Зазвичай ліцензію вказують на веб-сторінці, з якої можна завантажити набір даних (або «вилучити» з веб-сторінки, бо самі веб-сторінки можуть містити набори даних), або у помітному місці в самому наборі даних, залежно від формату. Там позначено й те, що вам також слід робити, якщо ви відкриваєте свої бази даних.

Повернемося до початку: а що як база даних, яку вам треба отримати, не представлена в онлайні або щодо неї діє якийсь із видів контролю доступ? Спробуйте, на додачу до запиту про доступ до вас особисто, попросити, щоб ці дані були відкриті для повторного використання. Можете вказати, які гарні речі можуть реалізуватися за допомогою їхніх даних, якщо вони це дозволять.

Якщо ви ділитеся даними зі світом, варто мати на увазі, що деякі набори даних можуть підпадати під дію законів про приватність та інші застереження чи обмеження. Дійсно, лише через те, що принцип відкритих даних усуває багато технічних перешкод та обмежень, пов’язаних з авторськими та суміжними правами, ви не повинні ігнорувати інші закони, що діють в цих ситуаціях. Але як це завжди було, існує дуже багато можливостей, а часом, і захисних норм для журналістів, якщо ваш здоровий глузд підкаже потребу розслідувати саме ці дані.

Хай щастить! Але найімовірніше, щастя радше знадобиться вам на інших етапах вашого проекту, аніж у залагодженні (низьких) правових ризиків.

— Майк Лінксваєр, Creative Commons

Як зрозуміти дані

Ну ось ви отримали ваші дані – і що тепер з ними робити? Що в них шукати? Які інструменти застосовувати? Цей розділ починається з кількох ідей, як покращити вашу обізнаність щодо даних, підказок, як працювати з цифрами та статистикою, та тих речей, які слід мати а увазі, працюючи із невпорядкованими, недосконалими та часто не задокументованими наборами даних. Далі ми навчимося, як вишукувати в даних сюжети для статей, дізнаємося про улюблений інструментарій журналістів даних і про те, як використовувати візуалізацію даних, щоб глибше проникнути в тему, яку ви досліджуєте.

Дані для чайників: лікнеп за три прості кроки

Так само, як слово «грамотність» означає «здатність читати й отримувати з прочитаного знання, логічно писати та критично осмислювати друкований матеріал», грамотність у даних - це здатність використовувати дані для пошуку знань, створювати логічні дані та критично осмислювати їх. Вона включає обізнаність у статистиці, а крім цього, розуміння, як працювати з великими наборами даних, як вони були створені, як поєднувати різні набори даних та як їх інтерпретувати.

Ілюстрація 68. Копаючи дані (JDHancock)

Університет журналістики Пойнтера (Poynter’s News University) пропонує курси з математики для журналістів, на яких репортери отримують допомогу в розумінні таких понять, як процентні зміни та середні числа. Вельми цікаво, що ці ж поняття в той же час викладають поблизу від приміщення університету, у школах Флориди, для учнів п’ятих класів (віком 10-11 років), як про це свідчить навчальна програма.

Те, що журналісти потребують допомоги по темах з математики, які зазвичай вивчаються у середніх класах школи, показує, наскільки далекі редакції від грамотності в даних. І тут не обходиться без проблем. Як може журналіст даних використати групу цифр по темі глобального потепління, якщо він не знає, що таке довірчий інтервал?

Як може репортер даних писати статтю про розподіл рівня доходів, якщо він не може відрізнити середнього значення від медіани?

Журналістові й справді не потрібно мати вищу статистичну освіту, щоб ефективніше працювати з даними. Коли маєш справу з цифрами, то кілька простих прийомів можуть допомогти у написанні значно кращої публікації. Як каже професор інституту Макса Планка Герд Гігеренцер, кращі інструменти не гарантують кращої журналістики, якщо використовувати їх без розуміння суті.

Навіть якщо у вас нема жодних знань із математики та статистики, ви легко можете стати загартованим журналістом даних, якщо поставите собі три прості питання.

1. Як були зібрані дані

Дивовижне зростання ВВП

Найлегший спосіб похизуватися ефектними даними – це сфабрикувати ці дані. Це звучить банально, але такі часто цитовані дані, як, наприклад, дані про валовий внутрішній продукт (ВВП), цілком можуть бути підробленими. Колишній посол Британії в Узбекистані Крейг Мюррей свідчить в своїй книзі «Вбивство в Самарканді» про те, що рівень росту ВВП в Узбекистані є предметом інтенсивних переговорів між місцевим урядом та міжнародними установами. Інакше кажучи, вони не мають нічого спільного з місцевою економікою.

ВВП використовують в якості індикатора номер один, тому що він потрібний урядам для відстеження їхнього головного джерела доходів - податку на додану вартість. Якщо уряд не фінансується з ПДВ, або якщо бюджет такого уряду не є публічним, в нього нема жодного резону збирати дані про ВВП, і краще просто їх сфабрикувати.

Злочинність завжди зростає

«Кримінал у Іспанії виріс на три відсотки», - пише видання «Ель Паіс». «Брюссель став жертвою росту злочинності серед нелегальних мігрантів та наркоманів», - повідомляє RTL. Така репортерська практика, що базується на зібраній поліцією статистиці, є типовою, але вона мало що повідомляє про справжній рівень насильства.

Ми можемо довіряти даним Європейського Союзу, вони не підроблені. Але на поліційну статистику впливає система заохочень. Якщо якість роботи поліціянта визначають за кількістю затримань, він схильний повідомляти якомога більше про інциденти, які не вимагають розслідування. Зразок такого злочину – це паління марихуани. Цим пояснюється те, чому у Франції злочини, пов’язані з наркотиками, зросли вчетверо за останні 15 років, тоді як рівень споживання наркотиків залишався незмінним.

Що ви можете зробити

Якщо ви сумніваєтеся у достовірності цифр, завжди проводьте подвійну перевірку, так само, як ви б це робили, маючи справу з цитатою слів політика. У випадку з Узбекистаном достатньо буде телефонного дзвінка будь-кому, хто прожив там певний час («Чи справді виглядає так, що країна стала втричі багатшою порівняно з 1995 роком, як про це кажуть офіційні цифри?»).

У випадку з даними поліції соціологи часто проводять дослідження віктимізації, у яких запитують людей, чи ставали вони жертвами злочину. Дані цих досліджень набагато стійкіші, ніж дані поліції. Можливо, саме з цієї причини ці дані не потрапляють до заголовків публікацій.

Є інші засоби точного встановлення достовірності даних, такі як закон Бенфорда, але ніякий із них не замінить вашого власного критичного мислення.

2. Чому це нас учить?

Ризик розсіяного склерозу подвоюється для тих, хто працює вночі

Безперечно, будь-який адекватний німець перестане працювати в нічні зміни, прочитавши такий заголовок. Але стаття не повідомляє нам, який ризик тут існує насправді.

Візьмімо 1000 німців. Один із тисячі протягом життя захворіє на розсіяний склероз. Тепер, якщо кожен із цієї 1000 німців працював би в нічну зміну, кількість випадків розсіяного склерозу зросла б з 1 до 2. Додатковий ризик захворіти на РС, працюючи позмінно, становить 1 на 1000, а не 100%. Зрозуміло, що така інформація значно корисніша для тих, хто обдумує своє працевлаштування.

В середньому один з п’ятнадцяти європейців є повністю неграмотним

Наведений вище заголовок викликає жах. І він абсолютно правдивий. Із 500 мільйонів європейців десь 36 мільйонів не вміють читати. І ці 36 мільйонів також мають вік до 7 років (дані Євростату).

Коли ви пишете про щось середньостатистичне, завжди думайте – «середньостатистичне щодо чого»? Чи є відповідне населення однорідним за складом? Нерівномірний розподіл пояснює, наприклад, те, чому більшість людей водить авто краще, ніж вказують середньостатистичні показники. Більшість людей за все життя або взагалі не потрапляють в аварію, або потрапляють лише один раз. А в небагатьох необережних водіїв аварій багато, і це піднімає середній рівень аварійності значно вище, ніж це трапляється з більшістю людей. Те ж саме правдиве для розподілу доходів: більшість людей заробляє менше, ніж середньостатистичний дохід.

Що ви можете зробити

Завжди беріть до уваги показники розподілу та бази. Перевірка середнього та медіанного значення, так само як і моди ) (найчастотніше значення в розподілі) допоможе вам краще зрозуміти дані. Знання порядку величини полегшує розуміння контексту, як у випадку з розсіяним склерозом. І насамкінець, використання у статті натуральних частот (один зі ста) значно легше сприймається читачем, ніж процентні дані (1%).

3. Наскільки надійною є інформація?

Проблема з розміром вибірки

«80% людей незадоволені судовою системою», - йдеться в дослідженні, про яке пише видання Diaro de Navarra із Сарагоси. І як можна екстраполювати 800 опитаних осіб на 46 мільйонів іспанців? Кожному ясно, що все це порожня балаканина.

Зовсім ні. Коли ви проводите статистичне дослідження серед значної кількості людей (понад кілька тисяч), вам рідко коли знадобиться більше тисячі респондентів, щоб отримати рівень похибки нижче 3%. Це означає, що якщо ви повторите опитування на цілком іншій вибірці, то в 9 випадках з 10 отримані відповіді будуть в межах 3% інтервалу з результатами, які ви отримали першого разу. Статистика – це потужна штука, і рідко коли вину за сумнівні результати опитувань можна покласти на розмір вибірки.

Пиття чаю знижує ризик інфаркту

Статті про корисність пиття чаю трапляються повсякчас. Ця коротка замітка в Die Welt, де йдеться, що чай знижує ризик інфаркту міокарду, не є винятком. І хоч ефекти від вживання чаю ретельно вивчалися, багато з досліджень не беруть до уваги фактори стилю життя, такі, як дієта, рід діяльності чи заняття спортом.

У більшості країн чай п’ють представники вищого класу, які дбають про своє здоров’я. Якщо дослідники не враховують фактори стилю життя під час дослідження впливу чаю, вони неспроможні сказати нічого більше, ніж «багаті люди мають краще здоров’я – і вони, імовірно, п’ють чай».

Що ви можете зробити

Математика, що стоїть за кореляціями та рівнем похибки у дослідженні впливу чаю, є зазвичай вірною, принаймні у більшості випадків. Але якщо дослідники не беруть до уваги взаємні кореляції (наприклад, пиття чаю корелює із заняттям спортом), їхні результати матимуть невисоку цінність.

Журналістам нема сенсу сумніватися в кількісних результатах статистичних досліджень, таких, як розмір вибірки, - хіба що в них є серйозні підстави для цього. Втім, легко виявити, що дослідники не взяли до уваги важливі компоненти інформації.

Ніколя Кайзер-Бріл, Journalism++

Як працювати з цифрами в журналістиці: корисні поради

• Найкраща рекомендація по роботі з даними - отримуйте від цього задоволення. Дані можуть здаватися чимось неприступним. Але дозвольте їм залякати вас, і ви нічого не досягнете. Поводьтеся з ними як з об’єктом гри та досліджень, і вони з дивовижною легкістю відкриють вам свої таємниці та сюжети для статей.

То ж поводьтеся з ними так само, як ви поводитеся з іншими фактами, без страху чи благоговіння. Зокрема, трактуйте їх як вправа на розвиток уяви. Будьте креативними, придумуючи альтернативні сюжети, які можуть відповідати цим даним і краще пояснюватися ними, а тоді перевіряйте ці сюжети на предмет додаткових доказів. «Який інший сюжет може це пояснити?» - корисне привід подумати над тим, як ця цифра, ця очевидно завелика або неправильна цифра, цей безсумнівний доказ того чи цього може насправді не бути ні тим, ні іншим.

• Не плутайте скептичне ставлення до даних із цинічним ставленням. Скептицизм – це корисно, цинізм – це коли ви просто склали руки й здалися. Якщо ви вірите в журналістику даних, а це саме так, інакше б ви не читали цю книгу, тоді ви маєте вірити що дані – це щось значно краще, ніж просто брехня та велика брехня з відомого вислову, або шокуючі факти для сенсаційних заголовків. Дані часто дають нам глибокі знання, якщо користуватися ними ретельно. Нам не слід бути ні цинічними, ні наївними, але пильними.

• Якщо я повідомлю вам, що під час економічної кризи зріс рівень пияцтва, ви можете відповісти мені, що причиною цього є загальна депресія. Якщо я скажу, що рівень пияцтва знизився, ви можете сказати, що це через брак коштів у людей. Іншими словами, те, про що говорять дані, нічого не змінює в тій інтерпретації, яку ви маєте намір застосувати, а саме – що справи так чи інакше є жахливими. Якщо дані показують зростання – це погано, якщо спад – це теж погано. Ідея тут ось яка: якщо ви вірите в дані, то дайте їм сказати своє слово до того, як почне говорити ваш настрій, переконання чи очікування. Навколо є стільки даних, що ви зазвичай зможете знайти підтвердження ваших початкових переконань, якщо трохи пошукаєте. Інакше кажучи, журналістика даних, принаймні для мене особисто, має невелику цінність, якщо журналіст при цьому не має широких поглядів. Вона об’єктивна рівно настільки, наскільки ви намагаєтеся зробити її об’єктивною, а не тому, що базується на цифрах.

• Непевність - це не проблема. Ми асоціюємо цифри з чимось авторитетним та однозначним. Проте так само часто відповіддю на питання є те, що відповіді нема, або найкраща знайдена нами відповідь ні в які ворота не пролазить у сенсі точності. Я гадаю, що про це треба говорити відверто. Якщо це виглядає як вірний спосіб знищення теми статті, то я заперечу, що це вірний спосіб ставити нові питання. Так само може існувати більш ніж один прийнятний спосіб компонувати дані. Цифри не повинні бути або правдивими, або неправдивими.

• Розслідування – це теж сюжет для статті. Із історії про те, як ви намагалися про щось довідатися і як просувалися від одного доказу до іншого, може вийти чудова журналістика – і це ж іще більшою мірою стосується доказів, отриманих із даних, де одної цифри рідко буває достатньо. Різні джерела створюють нові кути розгляду, нові ідеї, глибше розуміння. Варто поміркувати, чи не занадто ми поведені на тому, щоб бути авторитетними і повідомляти людям готову відповідь – і тим самим позбавляємо себе шансу показати їм хід наших пошуків.

• Найкращі питання – це найдавніші питання: а чи справді ця цифра позначає щось велике? Звідки вона взялася? Ви впевнені, що вона називає кількість саме того, що ви мали на увазі? Це загалом лише пропозиція подумати над даними, подумати про те, що не вписується в картину, якщо розглядати лише одну цифру, про ускладнення, властиві реальному життю, про широкий діапазон інших можливих порівнянь на інших часових проміжках, про географічні особливості; коротше кажучи, подумати про контекст.

Майкл Бластленд, журналіст-фрилансер

Основні етапи роботи з даними

Є принаймні три головні принципи, які вам слід усвідомити, починаючи проект із журналістики даних

• Перш ніж надсилати запит про дані, підготуйте список питань, на які ви хочете отримати відповідь.

• Дані часто є невпорядкованими і потребують очистки.

• Дані можуть містити незадокументовані особливості.

Ілюстрація 69. Невпорядковані дані

Знайте питання, на які хочете отримати відповідь

Багато в чому робота з даними подібна до інтерв’ю з живою людиною. Ви ставите даним запитання і отримуєте дані, щоб з’ясувати відповіді. Але так само як людина, в якої ви берете інтерв'ю, може відповісти лише про те, про що в нього або неї є інформація, так і набір даних може відповісти лише на ті запитання, щодо яких є відповідні записи й відповідні змінні в базі даних. Це означає, що вам треба ретельно зважити, на які питання вам слід знайти відповідь, перш ніж ви почнете добувати ваші дані. Загалом це «робота навпаки». Спочатку складіть список підкріплених даними тверджень, які ви хочете включити до вашої публікації. Тоді вирішіть, які цифри та записи бази даних вам слід отримати та проаналізувати, щоб зробити ці твердження.

Розглянемо як приклад дані про місцеву злочинність. Припустимо, що ви хочете написати статтю, яка розглядає типові закономірності злочинів у вашому місті, і твердження, які ви хочете зробити, включають дані про час доби та день тижня, у який найчастіше трапляються різні види злочинів, так само як і те, які райони міста є «гарячими зонами» щодо різних категорій злочинів.

Ви усвідомите, що ваш запит про дані повинен включати в себе дату та час повідомлення про злочин, вид злочину (вбивство, крадіжка, пограбування тощо), а також адресу місця скоєння злочину. Тож, Дата, Час, Категорія злочину та Адреса – це той мінімальний обсяг змінних, які потрібні вам, щоб отримати відповіді на ваші запитання.

Але майте на увазі, що є набір потенційно цікавих запитань, на які ваш набір даних із чотирьох змінних НЕ МОЖЕ ВІДПОВІСТИ, такі як раса та стать постраждалих, повна вартість вкраденого майна, або які офіцери поліції здійснюють найбільше арештів. Ви також, можливо, отримаєте записи лише щодо певного періоду часу, наприклад, за останні три роки, і це означатиме, що ви нічого не зможете сказати про те, чи змінювалися типові закономірності скоєння злочинів протягом довшого періоду часу. Ці запитання можуть не входити до «поля зору» вашої статті, і тоді все гаразд. Але вам навряд чи захочеться зануритися в аналіз даних і раптово вирішити, що вам потрібно знати, який відсоток злочинів у різних частинах міста закінчується арештом.

Звідси урок: часто виглядає гарною ідеєю робити запит про ВСІ змінні та записи в базі даних, а не про витяг з неї, який може дати відповіді до вашої поточної статті (насправді отримання всіх даних є дешевшим, ніж отримання вибірки, якщо вам доведеться платити агенції за програмування, пов’язане з вилученням цієї вибірки). Ви завжди можете отримати вибірку даних самостійно, а маючи доступ до повного набору даних, зможете знайти відповідь на нові запитання, які можуть постати під час вашої роботи над матеріалом, і навіть згенерувати нові ідеї для статей-продовжень. Може статися так, що деякі конфіденційні дані, такі, як імена жертв чи таємних інформантів поліції, за законом заборонено оприлюднювати. Але навіть часткова база даних значно краща, ніж ніякої бази даних взагалі, принаймні доти, доки ви розумієте, на які запитання ця відредагована база даних може дати відповідь, а на які ні.

Очистка невпорядкованих даних

Одна з найбільших проблем роботи з базами даних – це те, що повсякчас вам доведеться використовувати для аналітичних потреб дані, зібрані для бюрократичних потреб. І проблема тут в тому, що стандарт точності для цих двох потреб є цілком відмінним.

Наприклад, основна функція бази даних системи кримінального правосуддя – це подбати, щоб обвинувачуваного Джонса доправили з в’язниці до судді Сміта у час розгляду справи. Для цієї мети не має великого значення те, що дата народження Джонса вказана неточно, що в назві вулиці помилка, або навіть те, що ініціали по батькові наведені невірно. Загалом система може використовувати навіть ці неідеальні дані, щоб доправити Джонса до суду під головуванням Сміта у призначений час.

Але такі помилки можуть спотворити спроби журналіста знайти певні узагальнення в цій базі даних. Через це найперша велика справа, яку вам слід зробити, отримавши нову базу даних, - це перевірка, наскільки впорядкованими є дані в ній, і виправлення цих даних. Гарний швидкий спосіб знаходити ці невпорядкованості – це створити таблицю частот категоріальних змінних, тих, які, як очікується, матимуть порівняно невелику кількість відмінних значень (використовуючи Excel, наприклад, це можна зробити за допомогою функцій Filter чи Pivot Tables по кожній із категоріальних змінних.

Розглянемо поле бази даних «Стать», це легкий приклад. Ви можете виявити, що ваше поле «Стать» містить будь-який із перелічених варіантів значень: наприклад, Чоловіча, Жіноча, Ч, Ж, 1, 0, ЧОЛОВІЧА, ЖІНОЧА тощо, включно з помилковим написанням, напр. «жиноча». Інша відома база даних, де спостерігаються подібні проблеми, - це записи фінансування виборчих кампаній в США. Тут у полі «Фах» може стояти «Юрист», «Адвокат», «Адв», «Правник» та аналогічне розмаїття варіацій та помилок правопису; знову ж таки, весь сенс у тому, щоб стандартизувати назви фаху, привівши їх до коротшого списку варіацій.

Очистка даних стає навіть більш проблематичною, коли справа доходить до імен. Чи є «Джозеф Т. Сміт», «Джозеф Сміт», «Т.Дж. Сміт», «Джоз. Сміт» та «Джо Сміт» однією й тією ж особою? Можливо, вам доведеться переглянути інші змінні, такі як адреса чи дата народження, або навіть провести глибше дослідження інших записів бази даних, щоб це з’ясувати. Але інструменти на зразок Google Refine можуть зробити завдання з очистки та стандартизації більш швидким та менш марудним.

Дані можуть містити незадокументовані особливості

Розетським каменем будь-якої бази даних є так званий словник даних. Зазвичай, цей файл (це може бути текстовий файл чи PDF, а може навіть й електронна таблиця) повідомить вам, як відформатовано файл із даними (текст із розмежуванням, текст у колонці, таблиця Excel, база даних dBase, тощо), послідовність полів, назву кожного поля та тип кожного поля (текстовий, ціле число, десяткове число тощо). Ця інформація допоможе вам правильно імпортувати файл із даними у аналітичну програму, яку ви хочете застосувати (Excel, Access, SPSS, Fusion Tables, будь-які з варіацій бази даних SQL, тощо).

Інший ключовий елемент словника даних – це пояснення усіх кодів, застосованих для певних полів. Наприклад, поле «Стать» може бути закодованим так, що 1 означає «Чоловіча», 0 – «Жіноча». Злочини можуть бути закодовані відповідно до статей кримінального кодексу по кожному виду злочину. Записи в базі даних лікарні можуть використовувати сотні 5-символьних цифрових кодів, що вказують на діагнози пацієнта, який проходив курс лікування. Без словника даних ці набори даних важко або навіть неможливо аналізувати належним чином.

Але навіть якщо словник даних у вас під рукою, можуть виникнути проблеми. Подібне сталося з репортерами флоридської газети Miami Herald кілька років тому, коли вони проводили аналіз відмінностей у важкості покарань, які різні судді призначали особам, заарештованим за водіння під дією алкоголю чи наркотиків. Журналісти отримали записи про покарання від судової установи та аналізували цифри за трьома полями із словника даних: тривалість тюремного присуду, тривалість попереднього ув’язнення та розмір штрафу. Ці цифри суттєво відрізнялися в різних суддів, даючи репортерам фактаж для статті про те, що деякі судді є суворими, а деякі – поблажливими.

Втім, близько 1-2 відсотків справ у кожного судді не містили записів про тюремний термін, тривалість попереднього ув’язнення чи штраф. Тож у діаграму, яка наводила співвідношення покарань по кожному судді, увійшла дуже незначна кількість справ, відмічених як «Покарання не призначено». Коли статтю та діаграму було опубліковано, судді буквально завили від обурення, заявивши, що Miami Herald звинуватила їх у порушенні закону штату, який вимагав, щоб кожна особа, визнана винною у водінні в нетверезому стані, повинна бути покарана.

Тож репортери знову повернулися до клерка з судової установи, який надав їм файл даних, і запитали, що було причиною цієї помилки. Їм пояснили, що «сумнівні» справи стосувалися незаможних підзахисних, заарештованих уперше. Зазвичай їм присуджувався б штраф, але в них не було грошей. Тож судді присуджували їх до громадських робіт, таких як прибирання сміття вздовж доріг. Як виявилося, закон, що вимагав покарання, був прийнятий вже після того, як створили структуру бази даних. Тож усі клерки в суді знали, що в їхніх даних нулі в усіх трьох полях «тюрма», «попереднє ув’язнення», «штраф» означали громадські роботи. Але це НЕ БУЛО позначено в словнику даних, і через це Miami Herald була змушена вносити виправлення до статті.

Урок із цієї ситуації: завжди запитуйте установу, яка надає вам дані, чи нема в цих даних якихось незадокументованих елементів: чи це новостворені коди, які не ввійшли до словника даних, зміна у форматуванні файлу чи будь-що інше. Крім цього, завжди переглядайте результати свого аналізу й запитуйте себе: «А чи має це сенс?» Репортери з Miami Herald створювали діаграму в умовах браку часу і були так зосереджені на визначенні середнього рівня суворості покарань у кожного з суддів, що не звернули уваги на кілька випадків, де покарань, здавалося, не було взагалі. Їм треба було запитати себе, чи таке взагалі можливе, що всі судді порушують закон штату, хай навіть у крихітних обсягах.

Стів Дойг, школа журналістики імені Уолтера Кронкайта університету штату Аризони

Хлібина за 32 фунти стерлінгів

Стаття у Wales on Sunday про те, скільки уряд Уельсу витрачає на рецептурне постачання хворим спеціальних продуктів харчування, позбавлених клейковини, вийшла під заголовком із цифрою 32 фунти стерлінгів за хлібину. Насправді ж це були 11 хлібин вартістю £2.82 кожна.

Ілюстрація 70. Рецептурна видача безклейковинного хлібу коштує платникам податків з Уельсу £32 (WalesOnline)

Дані, що містилися в письмовій відповіді асамблеї Уельсу та статистичному звіті уельської Національної служби охорони здоров’я, наводили цю цифру як вартість рецептурного призначення. Втім, вони не давали додаткового визначення в словнику даних про те, що саме містилося в рецепті, або окремої колонки з кількістю одиниць, що видавалися за рецептом.

Виникло припущення, що рецепт стосувався лише одної хлібини, а не упаковки з кількома хлібинами, як це було насправді.

Жодна людина – ні ті, хто готував письмову відповідь, ні прес-служба, яка її опрацьовувала, не звернули увагу на питання кількості аж до наступного понеділка після виходу статті.

Тож не розраховуйте, що примітки до наданих держустановами даних посприяють вам із поясненням, яку саме інформацію вам надали. Не сподівайтеся, що люди, відповідальні за дані, зрозуміють, що у них є помилка, навіть якщо ви повідомите їм ваші хибні припущення, зроблені на основі цих даних.

Зазвичай газети прагнуть тем із яскравими заголовками, тож якщо тільки нема очевидних протиріч до такої інтерпретації, завжди легше взяти те, що дає гарний заголовок, і не перевіряти його занадто пильно, ризикуючи «провалити» тему статті – особливо в умовах дедлайну.

Але на журналістах лежить відповідальність за перевірку сенсаційних тверджень, навіть якщо це означатиме, що їхня стаття не вийде на перші місця в списку новин.

Клер Міллер, WalesOnline

Починайте з даних, завершуйте статтею

Якщо ви хочете привернути увагу ваших читачів, вам слід вразити їх цифрою в заголовку, яка змусить їх підскочити на місці. Слід зробити так, щоб вони могли прочитати цю статтю, майже не усвідомлюючи, що в основі її лежить база даних. Зробіть ваш текст захопливим і, роблячи це, не забувайте, яка ваша читацька аудиторія.

Приклад такого підходу можна знайти в проекті, виконаному в Бюро журналістських розслідувань із використанням системи фінансової прозорості Європейської комісії. Стаття була створена на основі бази даних, до якої ми підійшли зі специфічним набором запитів.

Ми здійснювали пошук в даних за ключовими словами на зразок «коктейль», «гольф» та «неформальне засідання». Це дало нам змогу з’ясувати, скільки обійшлися ці статті витрат Єврокомісії, і згенерувало численні запитання та теми для подальших статей.

Але ключові слова не завжди дають вам те, чого ви хочете: іноді треба сісти й подумати над тим, про що ви насправді запитуєте. Під час проекту нам також хотілося дізнатися, скільки члени ЄК витрачають на подорож приватними літаками, але так як у наборі даних не було фрази «приватний літак», ми мусили дізнаватися назву постачальників цих послуг у інший спосіб. Як тільки ми взнали, що послуги приватних авіаперевезень Комісії надає компанія "Abelag", ми змогли створити запит до даних і дізнатися, скільки грошей було витрачено на послуги, надані Abelag.

У такий спосіб ми чітко визначили мету для запиту до бази даних: знайти цифру, яка увійде до яскравого заголовка.

Інший підхід: визначте «чорний список» і шукайте винятки з нього. Простий спосіб отримати з даних сюжети для статей – це знати, чого в цих даних не повинно бути! Гарний приклад того, як це працює, - це спільний проект із вивчення структурних фондів Євросоюзу, спільно виконаний Financial Times та Бюро журналістських розслідувань.

Ми застосовували до даних запити, що базувалися на власних правилах Єврокомісії про те, які компанії та організації не мають права отримувати кошти зі структурних фондів. Один з прикладів – це фінансування виробників тютюну та продукції з нього.

За допомогою запитів до бази даних, що містили назви тютюнових компаній, постачальників тютюну та фірм, що вирощують тютюн, ми знайшли в даних, що компанія British American Tobacco отримала €1.5 мільйони на завод у Німеччині.

Так як це суперечило правилам фінансування від Єврокомісії, у цих даних швидко знайшлася тема для статті.

Ви ніколи не знаєте, що саме виявите в базі даних, тож просто пошукайте. Дійте енергійно, і цей підхід зазвичай найкраще спрацьовує тоді, коли ви намагаєтеся ідентифікувати очевидні прикмети, які виявляються за допомогою фільтрування даних (найбільші цифри, екстремуми, найчастотніші цифри тощо).

Келейнн Барр, Citywire

Дані як сюжет

Жуналістика даних часом створює враження, що вона головним чином має справу з представленням даних – наприклад, візуалізаціями, які являють собою швидкий та потужний спосіб представлення цифрових величин, або інтерактивними базами даних з можливістю пошуку в них, які дають змогу людям знайти, там, скажімо, їхню власну вулицю чи лікарню. Все це може бути дуже вартісним, але так само, як і інші форми журналістики, журналістика даних – це також і сюжети для статтей. Тож які типи журналістських тем ви можете знайти в даних? На основі свого досвіду роботи в ВВС я склав «типологічний список» різноманітних тем, заснованих на даних.

Я гадаю, що цей список варто тримати в голові, не тільки тоді, коли ви аналізуєте дані, але і на етапі, що передує цьому - коли ви збираєте дані (чи то шукаєте бази даних у публічному доступі, чи готуєте запити відповідно до закону про свободу інформації).

1. Вимірювання

Найпростіша тема – підрахунок чи загальна сума.
«Органи місцевої влади загалом по країні витратили Х мільйонів фунтів стерлінгів на скріпки для паперів».

Але зазвичай складно зрозуміти, мало це чи багато. Тому вам потрібний контекст, який може надати:

2. Пропорція

«Минулого року місцеві органи влади витратили на купівлю скріпок дві третини коштів, виділених на придбання канцтоварів».

Або:

3. Внутрішнє порівняння

«Місцеві органи влади витратили на купівлю скріпок для паперів більше, ніж на доставку продуктів харчування літнім людям».

Або

4. Зовнішнє порівняння

«Місцева влада витрачає на скріпки для паперів удвічі більше коштів, ніж весь національний бюджет допомоги закордонним країнам».

Або можуть бути інші способи дослідження даних за допомогою контексту чи порівнянь:

5. Зміни протягом часу

«Витрати місцевої влади на скріпки для паперів зросли втричі за останні чотири роки».

6. «Турнірні таблиці»

Розподіл за різними «лігами» зазвичай здійснюється за географічним принципом або за назвами установ, і ви маєте переконатися, що базис для порівнянь є справедливим, тобто, ви врахували чисельність місцевого населення.

«Міська рада Борсетширу витрачає на скріпки для паперів для кожного зі своїх співробітників більше коштів, ніж будь-яка інша місцева установа, - і це вчетверо більше, ніж у середньому по країні.

Або ви можете розподілити теми, пов’язані з даними, на групи:

7. Аналіз за категоріями

«Місцеві ради, очолювані Партією червоних, витрачають на скріпки для паперів на 50% більше, ніж ради, очолювані Партією жовтих».

Або ви можете пов’язати різні чинники за допомогою цифр:

8. Асоціація

«Ради, очолювані політиками, які отримували пожертви від компаній-виробників канцтоварів, витрачають на паперові скріпки більше коштів: у середньому витрати зростають на £100 на кожен фунт стерлінгів, отриманий в якості пожертви».

Але, звісно ж, завжди слід пам’ятати, що кореляція та причиново-наслідковий зв’язок – це не одне й те ж.

Тож якщо ви ведете розслідування витрат на скріпки для паперів, вам також слід знайти такі цифри:

• Загальний обсяг витрат, який дозволить зрозуміти контекст?

• Географічні/історичні/інші категоріальні дані, які дадуть вам матеріал для порівнянь?

• Додаткові дані, потрібні, щоб забезпечити коректність порівняння, такі як чисельність населення?

• Інші дані, які можуть надати цікавий аналіз, щоб порівняти чи співвіднести з ним дані про витрати?

Мартін Розенбаум, BBC

Журналісти даних розповідають про свої улюблені інструменти

Псссс. З таким звуком розкривається герметична обгортка, у яку запаковані ваші дані. І що тепер? Що саме ви будете шукати? І які інструменти ви використаєте під час пошуку? Ми попросили фахівців із журналістики даних розповісти нам дещицю про те, як вони працюють із даними. Ось що вони повідомили.

Ліза Еванс, The Guardian

У проекті Guardian Datablog ми орієнтуємося на взаємодію з нашими читачами – і те, що ми даємо їм можливість оперативно використовувати нашу журналістику даних, означає, що вони мають змогу будувати щось своє на фундаменті нашої роботи і часом помічати таке, чого не помітили ми. Тож чим інтуїтивнішими є інструменти для роботи з даними, тим краще. Ми намагаємося підібрати такий інструментарій, з яким може впоратися будь-хто, і при цьому не потрібно вчити мову програмування, проходити спеціальні тренінги чи платити за інструменти чималі гроші .

Наразі ми вельми інтенсивно використовуємо продукти Google заме з цих міркувань. Всі набори даних, які ми впорядковуємо та публікуємо, доступні в форматі електронних таблиць Google Spreadsheet. Це означає, що люди, які мають екаунт Google, можуть завантажувати ці дані, імпортувати їх до свого власного екаунта, робити власні діаграми, сортувати дані, створювати зведені таблиці, або ж вони можуть імпортувати дані до іншого інструментарію, обраного ними. Коли ми створюємо теплокарти у Fusion, то викладаємо у вільний доступ контурні KML-файли, щоб читачі могли завантажувати їх і створювати свої власні теплокарти, і, можливо, додавати додаткові шари даних поверх оригінальної карти від Datablog. Інша приємна риса цих інструментів Google – це те, що вони працюють на багатьох платформах, з яких наші читачі заходять на блог, - таких, як настільні комп’ютери, мобільні телефони та планшети.

На додач до Google Spreadsheets та Fusion ми в нашій повсякденній роботі використовуємо ще два інструменти. Перший – це tableau для візуалізації багатовимірних наборів даних, а другий – ManyEyes для швидкого аналізу даних. Ні той, ні інший не є ідеальним, тож ми працюємо над кращими інструментами візуалізації, які сподобалися б нашим читачам.

Синтія О’Мурчу, Financial Times

Чи я колись збираюся стати програмістом? Та мабуть що ні. Я зовсім не вважаю, що всім журналістам слід знати програмування. Але я справді вважаю, що для них було б дуже доречно мати загальні уявлення про те, чого можна досягти за допомогою програмування, і як розмовляти з програмістами.

Якщо ви починаєте, то поспішайте повільно. Вам слід переконати ваших колег та редакторів, що робота з даними надасть вам теми, яких ви не знайдете у інший спосіб, і тому цим варто зайнятися. Як тільки вони побачать цінність такого підходу, ви зможете розширити його у більш складні статті та проекти.
.
Моя порада - це вивчити Excel і підготувати для початку кілька простих статей. Починайте з малого і просувайтеся до аналіз баз даних та картографії. Ви стільки всього можете зробити в Excel – це надзвичайно потужний інструмент, і більшість людей не використовують і частини його функціональності. Якщо ви маєте змогу, пройдіть навчальний курс з Excel для журналістів, подібний до того, який пропонує Центр журналістських розслідувань.

Ставтеся з повагою до інтерпретації даних: не підходьте до цього легковажно. Будьте ретельні. Звертайте увагу на деталі та критично оцінюйте результати. Робіть нотатки про те, як ви обробляли дані, і зберігайте копію оригінальних даних. Помилитися легко. Я завжди виконую свій аналіз двічі чи тричі – щоразу практично від початку. Ще краще буде, якщо ваш редактор чи хтось іще проаналізує ці дані окремо і порівняє результат.

Скотт Клейн, ProPublica

Здатність написати та запустити в роботу складний програмний продукт так само швидко, як журналіст може написати статтю, - це нова ідея. Зазвичай на це йшло значно багато часу. Все змінилося завдяки розробці двох середовищ швидкого програмування - Django and Ruby on Rails. Обидві належать до вільного/відкритого програмного забезпечення і були вперше запущені в середині 2000-х років.

Django, «надбудова» над мовою програмування Python, був творений Адріаном Головатим і редакційною командою Lawrence Journal-World у Лоуренсі, штат Канзас. Ruby on Rails була розроблена в Чикаго Девідом Хейнмеєром Ханнсоном та компанією з веб-програмування 37Signals.

Хоч обидва середовища по-різному підходять до концепції «Модель-вид-контроллер», вони чудові й дозволяють дуже швидко розробити навіть дуже складну веб-програму. Вони беруть на себе частину рудиментарної роботи з побудови програми. Речі на кшталт створення та отримання інформації з бази даних та пов’язування URL-адрес із специфічним кодом у програмі вбудовані в середовище, тож розробникам не потрібно писати код, щоб виконувати такі-от базові речі.

Попри те, що в США не було формального опитування команд, що створюють програми в редакціях, загалом відомо, що більшість команд використовують одне з цих двох середовищ для журналістських програм, що працюють з базами даних. У ProPublica ми застосовуємо Ruby on Rails.

Розвиток сервісів швидких веб-серверів (“slice”) також позбавив нас частини тих завдань, які перетворювали впровадження веб-програми на повільний процес.

Окремо від цього, ми застосовуємо для роботи з даними цілком стандартні інструменти: Google Refine та Microsoft Excel для очистки даних; SPSS та R для статистичних досліджнь; ArcGIS та QGIS для картографії та геоінформаційних систем (GIS); Git для управління початковим кодом; TextMate, Vim та Sublime Text для написання коду; так комбінацію MySQL, PostgreSQL та SQL Server для баз даних. Ми створили наше власне середовище JavaScript під назвою“Glass”, яке допомагає нам дуже швидко розробляти на JavaScript «важкі» програми, які виконуються на клієнтському комп’ютері.

Черил Філіпс, Seattle Times

Частенько найкращим інструментом є найпростіший інструмент – силу електронних таблиць легко недооцінити. Та коли я використала електронні таблиці у той час, коли все інше було під DOS, то завдяки цьому змогла зрозуміти складну формуло партнерської угоди між власниками команди «Техаські рейнджери» - тоді, коли серед головних власників був Джордж Дабл’ю Буш. Таблиця допомагає мені виявити відхилення значень чи помилки в обрахунках. Сказавши це, зазначу, що мій улюблений інструментарій має ще більше можливостей – це SPSS для статистичного аналізу та програми з прив’язки даних до картографії даних, які дозволяють мені бачити географічні закономірності.

Грегор Айш, фундація Knowledge Foundation

Я великий шанувальник Python. Python – це чудова відкрита мова програмування, яку легко читати і якою легко писати (тобто, вам не треба ставити крапку з комою після кожного рядка). Більш важливим є те, що Python має гігантську базу користувачів, а отже, додаткові модулі (їх називають «пакети») буквально під усе, що може вам знадобитися.

Django – це інструмент, який, на мою думку, іноді може знадобитися журналістам даних. Це середовище для розробки веб-програм на Python, точніше, інструмент, для створення великих веб-програм, орієнтованих на роботу з базами даних. Вона однозначно «заважка» для невеликої інтерактивної інфографіки.

Я також використовував QGis – це програма з відкритою ліцензією, яка надає широкий діапазон функціональності, пов’язаної з геоінформаційними системами (картографія) і потрібної журналістам даних, які повсякдень працюють із географічними даними. Якщо вам потрібно перевести геопросторові дані з одного формату в інший, тоді QGis – це те, що вам потрібно. Вона може впоратися з майже будь-яким форматом географічних даних (Shapefiles, KML, GeoJSON, …). Якщо ви хочете «вирізати» кілька регіонів, у QGis можна робити й це. До тогож навколо QGis існує велика спільнота, тож ви знайдете тонни документації, на кшталт веб-підручників.

Мову R було створено головним чином і як інструмент наукової візуалізації. Важко знайти такий метод візуалізації чи техніку оцінки даних, яка б уже не була вбудована в R. R – це всесвіт у собі, мекка візуального аналізу даних. Єдиний недолік – вам потрібно вивчити ще одну мову програмування, бо в R є власна мова. Але як тільки ви почали рух вгору по навчальній кривій, для вас не буде інструмента, потужнішого за R. Досвідчені журналісти даних можуть використати R для аналізу гігантських наборів даних, які перевищують обмеження Excel (наприклад, у вас є таблиця з мільйоном рядків).

Що в R справді добре – це те, що ви можете зберігати точний «протокол» того, що ви робите з даними протягом усього процесу – від зчитування файлу в форматі CSV до генерування діаграм. Якщо дані змінюються, ви можете заново згенерувати діаграму одним кліком мишки. Якщо когось зацікавила цілісність ваших діаграм, ви можете представити точне джерело, яке дає змогу будь-кому відтворити точно цю діаграму самостійно (чи, може, знайти зроблені вами помилки).

NumPy + MatPlotLib – це спосіб виконати те ж саме з використанням Python. Цей варіант з’являється тоді, якщо ви вже добре знаєте Python. Фактично, NumPy та MatPlotLib – це два приклади пакетів у Python. Їх можна застосувати для аналізу та візуалізації даних, і обидва обмежені сферою статичної візуалізації. Їх неможливо використати для створення інтерактивних діаграм з підказками та більш просунутими елементами.

Я не користуюся MapBox, але чув, що це чудовий інструмент, якщо ви хочете створити більш складні карти на базі OpenStreetMap. Він дає вам змогу, наприклад, оформити на власний смак стилі карти (кольори, позначки тощо). Супровідний інструмент до MapBox має назву Leaflet. Leaflet в основі своїй є більш високорівневою JavaScript-бібліотекою для картографії, за допомогою якої можна легко переходити від одного до іншого постачальника карт (OSM, MapBox, Google Maps, Bing, …).

RaphaelJS – це загалом низькорівнева бібліотека візуалізації, яка дає вам змогу працювати з базовими графічними примітивами (такими, як кола, лінії, текстові написи), анімувати їх, додавати взаємодію між ними тощо. У ній немає таких речей, як готова стовпчикова діаграма – вам доведеться малювати прямокутники самостійно.

Втім, у Raphael гарне те, що все, створене вами, буде також працювати й під Internet Explorer. Так не вийде у багатьох інших (чудових) бібліотек візуалізації на кшталт d3. Прикро, але багато користувачів усе ще користуються ІЕ, і жодна редакція не може дозволити собі ігнорувати 30% користувачів.

Крім використання RaphaelJS, є ще варіант – створювати для ІЕ резервну версію у Flash. Сааме так зазвичай роблять у New York Times is doing. Це означає, що кожну програму вам доведеться розробляти двічі.

Я все ще не маю певності, який процес створення візуалізації для ІЕ чи сучасних браузерів є «найкращим». Часто виявляється, що програми у RaphaelJS можуть працювати жахливо повільно у ІЕ, - у десять разів повільніше, ніж коли вони виконуються у Flash на сучасних браузерах. Тож резервна версія під Flash може бути кращим варіантом, якщо ви хочете створити високоякісні анімовані візуалізації для користувачів усіх браузерів.

Стів Дойг, школа журналістики імені Уолтера Кронкайта при університеті штату Аризона

Мій повсякденний інструмент – це Excel, за допомогою якого можна вирішити більшість проблем комп’ютерної журналістики, і перевагами якого є легкість вивчення та доступність більшості репортерів. Коли мені треба об’єднати таблиці, я зазвичай використовую Access, але потім експортую злиті таблиці знову до Excel для подальшої роботи. Я застосовую ArcMap від ESRI для географічного аналізу; це потужний інструмент, який використовують агенції, що збирають геокодовані дані. TextWrangler чудовий для дослідження текстових даних з хитрим форматуванням та структурою, і в ньому можна виконувати складні операції пошуку та заміни за допомогою шаблонних команд. Коли потрібні статистичні методики на зразок лінійної регресії, я використовую SPSS; ця програма має дружелюбне меню, що дозволяє роботу за принципом «наведи й клацни». Для справді важких завдань, на кшталт обробки наборів даних із мільйонами записів, яким може знадобитися серйозна фільтрація та програмна зміна полів, я використовую програмне забезпечення SAS.

Браян Боєр, Chicago Tribune

Наш улюблений інструментарій – це Python та Django для аналізу, вилучення та маніпуляцій із даними, та PostGIS, QGIS і MapBox для будівництва справді головоломних веб-карт. R ТА NumPy + MatPlotLib наразі змагаються за зверхність у нашому інструментарії для дослідницького аналізу даних, хоч нашим улюбленим і найостаннішим знаряддям є домашня розробка: CSVKit. Майже все, що ми робимо, розміщене в хмарі.

Анжеліка Перальта Рамос, La Nacion (Аргентина)

У La Nacion ми використовуємо:

• Excel для очистки, впорядкування та аналізу даних;

• Google Spreadsheets для публікації та зв’язку із сервісами на зразок Google Fusion Tables чи Junar Open Data Platform;

• Junar для поширення наших даних та вбудовування їх у наші статті та публікації в блогах.

• Tableau Public для інтерактивної візуалізації даних;

• Qlikview, дуже швидкий інструмент бізнесової аналітики, який ми використовуємо для аналізу та фільтрації великих наборів даних.

• NitroPDF для перетворення PDF-файлів у текстові та excel файли.

• Google Fusion Tables для візуалізації карт.

Педро Маркун, Transparência Hacker

Оскільки ми є «низовою» спільнотою без будь-якого технічного ухилу, ми в Transparency Hackers використовуємо розмаїття інструментів та мов програмування. Кожен член має свій власний набір уподобань, і це розмаїття є водночас нашою силою та слабкістю. Дезто з нас розбудовує середовище ‘Transparency Hacker Linux Distribution’, до якого можна під’єднатися будь-де та почати роботу з даними. У цьому наборі інструментів є кілька цікавих функцій та бібліотек для обробки даних, Refine, RStudio та OpenOffice Calc (останній часто не беруть до уваги фахівці, але він справді корисний для швидких чи простих завдань). Ми також досить часто використовуємо Scraperwiki для швидкого створення прототипів та збереження результатів із даними в онлайні.

Є багато інструментів візуалізації та створення графіків, які нам до вподоби. Python та NumPy вирізняються своєю потужністю. Кілька людей у спільноті пробували освоїти R, але в підсумку цього я все ще вважаю, що рештою у більшості проектів застосовується d3, Flot and RaphaelJS. Насамкінець, ми багато експериментували зі створенням, карт, і було справді цікаво працювати з Tilemill.

Візуалізація як спосіб розуміння даних

Візуаліація має критичне значення для аналізу даних. Вона – це перша лінія атаки, що розкриває складну внутрішню структуру даних, яку неможливо усвідомити в інший спосіб. Ми виявляємо факти, про який не могли й уявити, а виявивши – беремося за їх розгляд. Вільям С. Клівленд, «Візуалізуючи дані»

Дані самі по собі – як послідовність бітів та байтів, що зберігається у файлі на жорсткому диску комп’ютера – є невидимими. Щоб побачити їх та зрозуміти їхнє значення, нам потрібно візувалізувати ці дані. У цій главі я маю намір використовувати ширше визначення терміну «візуалізація», яке включає навіть просте текстове представлення даних. Наприклад, елементарне завантаження бази даних у програму електронних таблиць вже можна розглядати як візуалізацію даних. Невидимі дані раптом перетворюються на видиму «картину» на екрані нашого комп’ютера. Отже, запитання не в тому, чи слід журналістові візуалізувати дані, а в тому, який вид візуалізації є найбільш придатним у тій чи іншій ситуації

Інакше кажучи, мова йде про те, коли є сенс виходити за межі табличної візуалізації? Коротка відповідь така – майже завжди. Одних лише таблиць однозначно замало для того, щоб дати нам загальне представлення про базу даних. І таблиці самі по собі не дозволяють нам відразу ж визначати певні закономірності в наборі даних. Найбільш типовий приклад – це географічні закономірності, які можна спостерегти тільки після того, як дані будуть візуалізовані за допомогою карти. Але є й інші типи закономірностей, про які йтиметься далі в цій главі.

Застосування візуалізації для пошуку ідей

Нереалістично очікувати, що інструментарій та техники з візуалізації даних автоматично завалять вас сюжетами для публікацій, отриманими з баз даних. Не існує правил чи «протоколів», які гарантують вам статтю. Натомість я вважаю, що краще шукати в них «ідеї», які в руках гарного журналіста вміло вплітаються в сюжети статей.

Кожна нова візуалізація, імовірно, дасть нам якісь ідеї щодо наших даних. Деякі з цих ідей можуть бути вже відомими (але, можливо, наразі не доведеними), тоді як інші можуть бути цілком новими або навіть несподіваними. Деякі нові ідеї можуть означати початок нової статті, тоді як інші можуть бути наслідком помилок в даних, які, з високою імовірністю, виявляться під час візуалізації даних.

Для того, щоб пошук ідей у даних став більш ефективним, я рекомендую наступну корисну процедуру.

Ілюстрація 71. Ідеї, отримані з даних: візуалізація (Грегор Айш)

Кожен з етапів цієї процедури буде розглянуто далі.

Як візуалізувати дані

Візуалізація надає унікальний метод бачення бази даних. Візувалізувати дані можна в найрізноманітніші способи.

Таблиці є дуже потужними, коли ви маєте справу з порівняно малою кількістю позицій даних. Вони показують категорії та кількісні дані в найбільш структурованій та організованій формі, і розкривають свій повний потенціал у поєднанні із можливістю сортувати та відфільтровувати дані. На додачу до цього Едвард Тафт рекомендує включати невеликі діаграми у колонки з даними, наприклад, один стовпчик на рядок, або маленький лінійний графік (відомий також як спарклайн, sparkline). Але як вже було сказано у вступі, таблиці, без сумніву, мають свої обмеження. Вони прекрасно показують вам одновимірні дані (наприклад, перша десятка чогось), але погано пристосовані для порівняння різновимірних даних (наприклад, зміна чисельності населення в країні протягом часу).

Ілюстрація 72. Рекомендації Тафта: спарклайни (Грегор Айш)

Графіки та діаграми загалом дають вам змогу вказувати різні виміри у ваших даних у формі візуальних пропорцій геометричних форм. Про ефективність тих чи інших візуальних властивостей написано дуже багато, і коротко це можна сформулювати так: колір – це складно, позиція – це все. У діаграмі розсіювання http://en.wikipedia.org/wiki/Scatter_plot , наприклад, два виміри прив’язані до координат по осях Х та У. Ви навіть можете додати третій вимір – за допомогою кольору чи розміру наведених символів. Лінійні графіки особливо зручні для показу змін за певний період часу, тоді як стовпчикові діаграми ідеальні для порівняння категоріальних даних. Елементи діаграм можна розміщувати поверх один одного. Якщо ви хочете порівняти малий набір груп у ваших даних, є потужний спосіб це зробити, показавши кілька екземплярів подібних графіків (цей тип графіків має назву small multiples ). В усіх графіках чи діаграмах ви можете використовувати різні види масштабування, щоб відобразити різні аспекти ваших даних (тобто, лінійний чи логарифмічний масштаб).

Фактично, більшість із даних, з якими ми маємо справу, у той чи інший спосіб пов’язані з реальними людьми. Сила карт у тому, що вони прив’язують дані до нашого власного фізичного світу. Уявімо базу даних злочинів, яка містить географічну прив’язку. Для вас критично важливо бачити, де відбулися ці злочини. Також карти можуть висвітлити географічні закономірності в даних, наприклад, зміну тренду від Півночі до Півдня, або від міських до сільських регіонів.

Ілюстрація 73. Фонова картограма (Грегор Айш)

Якщо мова зайшла про взаємні зв’язки, то четвертим найбільш важливим є граф. Графи показують взаємні зв’язки (дуги) між вашими елементами даних (вузлами). Розташування вузлів обраховують за допомогою простіших або складніших алгоритмів побудови графів, що дозволяє нам відразу ж бачити структуру певної мережі. Вся хитрість у візуалізації графів загалом полягає в тому, щоб знайти правильний спосіб моделювання самої мережі. Не всі бази даних містять взаємні зв’язки, і навіть якщо й містять, вони можуть бути не найцікавішими для розгляду. Часто від журналіста залежить визначення дуг між вузлами. Ідеальний приклад – це соціальний граф Сенату США, де дуги поєднують сенаторів, які однаково голосували в понад 65% випадків.

Ілюстрація 74. Соціальна мережа сенату (slate.com)

Аналізуйте та інтерпретуйте те, що ви бачите

Ось ви візуалізували ваші дані – і на наступному етапі ви маєте про щось довідатися з картини, яку створили. Запитайте себе:

• Що я бачу в цій ілюстрації? Це те, на що я розраховував?

• Чи є тут якісь цікаві закономірності?

• Що це означає в контексті даних?

Іноді у вас може вийти візуалізація, яка, попри її зовнішню красу, не скаже вам нічого цікавого про ваші дані. Але майже завжди будь-яка візуалізація вас чомусь навчить, хай і чомусь тривіальному.

Документуйте ваші ідеї та етапи роботи

Якщо розглядати цей процес як подорож базою даних, документація – це ваші дорожні нотатки. Вони повідомлять вам, куди ви мандрували, що ви там побачили і як ви приймали рішення щодо наступних кроків. Ви навіть можете почати документування ще до того, як вперше кинули погляд на дані.

Коли ми у більшості випадків починаємо роботу з базою даних, якої не бачили раніше, ми вже сповнені очікувань та припущень про ці дані. Зазвичай існує причина, чому ми зацікавилися набором даних, який взялися розглядати. Тому є сенс почати документування із записів цих попередніх думок. Це допоможе визначити наші наміри та зменшити ризик неправильної інтерпретації даних, - коли ми знаходимо в них те ж, що і збиралися знайти початково.

Я справді вважаю, що документування – це найважливіший етап цього процесу; і це також той етап, який ми зазвичай схильні пропускати. Як ви побачите в прикладі, наведеному нижче, описаний процес включає значні обсяги графічних робіт та аналізу даних. Перегляд набору з 15 діаграм може збити з пантелику, особливо якщо з моменту їх створення пройшов час. Фактично, ці графіки чи діаграми мають цінність тільки тоді (для вас чи будь-якої іншої людини, яку ви хочете ознайомити з вашими знахідками), якщо вони подані в тому ж контексті, в якому їх створювали.

Отже, вам треба витратити час, щоб занотувати собі таке:

• Навіщо я створив цю діаграму?

• Що я зробив з даними, щоб її створити?

• Про що повідомляє ця діаграма?

Трансформуйте дані

Природно, що на основі ідей, які ви отримали від попередньої візуалізації, у вас може виникнути ідея, на що треба подивитися далі. Ви могли виявити певні цікаві закономірності в базі даних, які вам захочеться дослідити більш детально.

Можливі трансформації:

Зміна масштабу

Щоб подивитися на певну рису в сукупності візуалізацій, з'єднайте багато елементів бази даних у єдину групу

Фільтрація

Щоб (тимчасово) усунути ті елементи бази даних, які перебувають поза вашим головним фокусом

Усунення «викидів»

Щоб позбавитися від окремих елементів даних, які не є репрезентативними для 99% бази даних

Уявімо, що ви візуалізували граф, і у вас вийшло ніщо інше, як плутанина вузлів, пов’язаних сотнями дуг (дуже поширений результат під час візуалізації так званих щільно пов’язаних мереж). Типовим трансформаційним етапом тут буде фільтрація деяких дуг. Якщо, наприклад, ці дуги репрезентують потік коштів від країн-донорів до країн-реципієнтів, ми можемо усунути всі потоки, які «менші» за певну суму грошей.

Якими інструментами користуватися

Питання про інструментарій не належить до простих. Кожен існуючий інструмент із візуалізації даних у чомусь кращий за інші. Візуалізація та аналіз даних повинні виконуватися просто й дешево. Якщо зміна параметрів візуалізацій займає у вас години часу, вам, можливо, не слід так багато експериментувати. Звісно ж, це не означає, що вам не треба вчитися, як використовувати цей інструмент. Але як тільки ви навчитеся, він буде справді ефективним.

Зазвичай має сенс обирати інструментарій, який поєднує можливості й аналізу даних, і візуалізації. Розмежування цих задач на окремі інструменти означає, що вам часто доведеться імпортувати та експортувати дані. Ось короткий перелік інструментів, придатних для обробки та візуалізації даних:

• Електронні таблиці - LibreOffice, Excel чи Google Docs.

• Середовище для статистичного програмування - R (r-project.org) чи Pandas (pandas.pydata.org)

• Геоінформаційні системи (GIS) - Quantum GIS, ArcGIS, GRASS

• Бібліотеки візуалізацій - d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)

• Інструменти для обробки даних - Google Refine, Datawrangler

• Середовище для візуалізацій, де не використовується програмування - ManyEyes, Tableau Public (tableausoftware.com/products/public)

Приклади візуалізацій у наступній главі були створені за допомогою R, яка є таким собі швейцарським армійським ножиком у справі (наукової) візуалізації даних.

Приклад: дослідження пожертв на виборчу кампанію в США

Поглянемо на базу даних фінансування президентської кампанії в США, яка містить дані про близько 450 тисяч пожертв кандидатам на пост президента. Файл у форматі CSV має розмір 60 мегабайт – завеликий, щоб легко працювати з ним у програмі на кшталт Excel.

На першому етапі я чітко запишу мої «стартові» припущення про базу даних пожертв на президентські вибори:

• Обама отримує найбільше пожертв (бо він президент і має найбільшу популярність)

• Кількість пожертв зростає із наближенням дати виборів

• Обама отримує більше малих пожертв, ніж кандидати від республіканців

Щоб отримати відповідь на перше питання, нам слід трансформувати дані. Замість окремих пожертв нам треба мати повну суму, пожертвувану кожному кандидату. Після візуалізації результатів у відсортованій таблиці ми маємо підтвердження, що Обама зібрав найбільше грошей:

Кандидат Сума ($)

Обама, Барак 72,453,620.39

Ромні, Мітт 50,372,334.87

Перрі, Рік 18,529,490.47

Пол, Рон 11,844,361.96

Кейн, Герман 7,010,445.99

Гінгріч, Ньют 6,311,193.03

Поленті, Тімоті 4,202,769.03

Хантсмен, Джон 2,955,726.98

Бахман, Мішель 2,607,916.06

Санторум, Рік 1,413,552.45

Джонсон, Гері Ерл 413,276.89

Ромер, Чарльз Е Бадді ІІІ 291,218.80

МакКоттер, Тадеус Г 37,030.00

І хоч ця таблиця показує максимальні та мінімальні суми й порядок їх розташування, вона небагато повідомляє про внутрішні закономірності у рейтингу кандидатів. Ілюстрація 75 подає інший вигляд цих даних, діаграму, яка має назву «точкова діаграма», і де ми можемо бачити все, що вказане в таблиці, плюс закономірності. Наприклад, точкова діаграма дозволяє нам відразу бачити відстані між Обамою та Ромні та Ромні й Перрі, і для цього не потрібно віднімати цифри (Примітка: точкова діаграма була створена за допомогою R. Лінки на програмний код наведено наприкінці цієї глави).

Ілюстрація 75. Візуалізація як спосіб показу внутрішніх закономірностей (Грегор Айш)

А зараз давайте створимо ширшу картину на основі цієї бази даних. На першому етапі я зробив спрощену графічну візуалізацію усіх пожертв за весь період часу. Ми бачимо, що майже всі пожертви є дуже-дуже маленькими порівняно з трьома справді великими «викидами» даних. Подальше дослідження виявляє, що ці величезні пожертви надходять від фонду “Obama Victory Fund 2012” (також відомому як Super PAC) і були зроблені 29 червня ($450 тис.), 29 вересня ($1.5 млн) and 30 грудня ($1.9 млн).

Ілюстрація 76. Три виразні «викиди» в даних (Грегор Айш)

І хоч пожертви від Super PACів є найбільшою темою в даних, також може бути цікаво поглянути за межі цієї теми. Ідея в тому, що ці великі пожертви спотворюють бачення маленьких пожертв, які надходять від окремих осіб, тож ми усунемо перші з даних. Цю трансформацію зазвичай називають усуненням викидів. Повторивши візуалізацію, ми бачимо, що більшість пожертв перебуває в діапазоні $10 тис та -$5 тис.

Ілюстрація 77. Вилучення викидів (Грегор Айш)

Згідно з існуючими обмеженнями на розмір пожертв, фізичні особи не можуть жертвувати більше ніж 2500 доларів на кожного кандидата. Як бачимо, є численні пожертви, які перевищують цей ліміт. Зокрема, нашу увагу привертають дві великі пожертви, зроблені в травні. Вони дзеркально відображені у негативних сумах (поверненнях коштів) за червень та липень. Подальші дослідження даних виявляють такі транзакції:

• 10 травня Стівен Джеймс Девіс із Сан-Франциско, співробітник Banneker Partners (адвокат), пожертвував Обамі $25,800.

• 25 травня Синтія Мерфі з Літтл-Рок, співробітниця Murphy Group (піар-компанія) пожертвувала Обамі $33,300.

• 15 червня сума у $30,800 була повернута Синтії Мерфі, що зменшило обсяг пожертви до $2500.

• 8 липня сума у $25,800 була повернута Стефану Джеймсу Девісу, що зменшило обсяг його пожертви до 0 доларів.

Чим цікаві ці цифри? $30,800, які повернули Синтії Мерфі, відповідають максимальній сумі, яку фізичні особи протягом року можуть пожертвувати національній політичній партії. Можливо, вона просто хотіла поєднати дві пожертви в одній транзакції, і це не пройшло. $25,800, які повернулися до Стівена Джеймса Девіда, імовірно, дорівнюють $30,800 мінус $5000 (ліміт пожертв будь-якій іншій політичній партії).

Ще одна цікава знахідка в останній візуалізації – це горизонтальна лінія, яка відображає пожертви республіканським кандидатам на суму $5000 та -$2500. Щоб побачити їх детальніше, я візуалізував лише пожертви республіканцям. Отриманий графік є ідеальним прикладом тих закономірностей у даних, які неможливо помітити без візуалізації.

Ілюстрація 78. Вилучення викидів - 2 (Грегор Айш)

Ми бачимо, що є багато пожертв кандидатам-республіканцям на суму 5 тисяч доларів. Фактично, за даними таких пожертв є 1243, це лише 0,3% від загальної кількості пожертв, але так як вони рівномірно розподілені в часі, то виникає лінія на візуалізації. У ній цікавим є те, що пожертви від фізичних осіб обмежені сумою в 2500 доларів. Отже, кожен долар, що перевищує цей ліміт, був повернений жертводавцям, і це утворило ще одну лінію із сумою -$2500. І навпаки, серед пожертв Бараку Обамі аналогічної закономірності нема.

Ілюстрація 79. Вилучення викидів - 3 (Грегор Айш)

Тож, могло бути цікаво дізнатися, чому тисячі жертводавців-республіканців не помітили, що існує ліміт пожертв для фізосіб. Щоб проаналізувати цю тему глибше, нам слід подивитися на загальну кількість пожертв у розмірі 5 тисяч доларів на кожного кандидата.

Ілюстрація 80. Пожертви на кандидата (Грегор Айш)

Зрозуміло, що це досить-таки спотворений вигляд, бо в ньому не врахована загальна сума пожертв, отримана кожним кандидатом. Наступний графік показує відсоток пожертв у 5 тисяч доларів на кожного кандидата.

Ілюстрація 81. Звідки походять сенаторські кошти?: пожертви на кандидата (Грегор Айш)

Який звідси урок

Зазвичай подібний візуальний аналіз нової бази даних схожий на захопливу подорож до невідомої країни. Ви починаєте як іноземець, у якого є лише дані й припущення щодо них, але з кожним зробленим вами кроком, з кожним згенерованим графіком ви отримуєте нові ідеї по цій темі. На основі цих ідей ви приймаєте рішення про наступні кроки і про те, які теми варті подальшого дослідження. Як ви могли побачити в цій главі, процес візуалізації, аналізу та трансформації даних можна повторювати майже до нескінченності.

Отримайте початковий код

Усі графіки та діаграми, використані в цій главі, були створені за допомогою чудового і потужного програмного засобу R. Його розробили передусім як інструмент наукової візуалізації, і важко знайти таку технологію візуалізації чи аналізу даних, яку б уже не вбудували до R. Тим, хто цікавиться візуалізацією та аналізом даних за допомогою R, я надаю початковий код графіків та діаграм, створених для цієї глави. Також існує широке розмаїття книжок та посібників з цієї теми.

dotchart: пожертви кандидатам

plot: всі пожертви за весь час

plot: пожертви від уповноважених виборчих комітетів

Грегор Айш, фундація Open Knowledge

Як повідомляти дані

Ви ретельно розглянули ваші дані й вирішили, що в них є дещо цікаве, про що варто написати, – тож як донести це до публіки? Цей розділ відкривають короткі історії про те, як провідні журналісти даних доносили свої дані до читачів – від інфографіки до відкритих платформ даних та лінків для завантаження. Після цього ми ширше розглянемо те, як розробляти журналістські програми і що має бути на вході та на виході візуалізацій даних. Насамкінець, ми розглянемо, що ви можете зробити задля мобілізації аудиторії навколо вашого проекту.

Як донести дані до публіки

Є багато різних шляхів представлення ваших даних громадськості – від публікації «сирих» баз даних разом із статтями до створення красивих візуалізацій та інтерактивних веб-програм. Ми запитали провідних журналістів даних про те, як доносити дані до публіки.

Візуалізувати чи не візуалізувати?

Є ситуації, коли дані можуть розповісти історію краще за слова чи фотографії, і ось чому терміни на зразок «журналістська веб-програма» чи «візуалізація даних» останнім часом так активно обговорюють в редакціях. Також це зацікавлення підігріває купа нових (і переважно безкоштовних) інструментів та технологій, розроблених для того, щоб спростити навіть найменш технічно обдарованим журналістам перетворити дані на об’єкт візуальної розповіді.

За допомогою програми на зразок Google Fusion Tables, Many Eyes, Tableau, Dipity тощо стало легше, ніж будь-коли, створювати карти, діаграми, графіки та навіть повномасштабні програми, засновані на даних, які перед цим належали виключно до компетенції фахівців. І хоч зараз бар’єр на шляху початківців більше схожий на такого собі «лежачого поліцейського», перед журналістами зараз постає питання не так про те, чи можна перетворити вашу базу даних на візуалізацію, а про те, чи слід взагалі це робити. У багатьох сенсах погана візуалізація є гіршою, ніж відсутність будь-якої візуалізації.

Арон Пілхофер, New York Times

Використовуйте анімацію

Компактний сценарій, гарно розрахована за часом анімація та чіткі пояснення – застосувавши все це в анімованій графіці, можна «оживити» складні цифри чи ідеї, провівши вашу аудиторію через зміст статті. Відеолекції Ганса Рослінга є гарним прикладом того, як дані оживають та розповідають історію на екрані. «Індекс кидання черевиками» від журналу Economist - чи згодні ви з їхньою методологією, чи ні – є, на мою думку, гарним прикладом використання відео для оповіді сюжету, заснованого на цифрах. Таку графіку ви не захочете, чи не зможете представляти у формі статичного зображення. Занадто багато всього там відбувається. Але розбудовуючи її крок за кроком, ви отримаєте розуміння того, як і навіщо вони взялися за цей індекс. За допомогою динамічної графіки та анімованих уривків ви зможете посилити те, що почує ваша аудиторія на аудіо доріжці, а відеопояснення нададуть вам дуже потужний спосіб розповісти історію, яка надовго затримається в пам’яті.

За допомогою стислого сценарію, гарно розпланованої анімації та чітких пояснень мультиплікаційна графіка може допомогти

Лулу Пінні, ВВС

Розкажіть світові

Наш робочий процес зазвичай починається в Excel. Це напрочуд легкий спосіб швидко визначити, чи містять дані щось цікаве. Якщо в нас є відчуття, що в них щось таки є, тоді ми звертаємося до відділу новин у редакції. Нам справді пощастило, що ми в Guardian сидимо поруч із редакцією головних новин. Тоді ми дивимося, як це візалізувати чи подати на веб-сторінці. Після цього ми пишемо текст, який це супроводжує. Коли я його пишу, то зазвичай поруч із текстовим редактором у мене відкрита скорочена версія електронної таблиці. Зазвичай я виконую в ній певний аналіз під час написання статті, щоб знайти цікаві моменти. Тоді я публікую постинг на сайті і витрачаю певний час на повідомлення про нього в Твіттері, пишу до різних людей і дбаю про те, щоб на нього вели лінки з усіх потрібних місць.

Половина трафіку на деякі з наших постингів приходить із Twitter та Facebook. Ми пишаємося тим, що середня кількість часу, проведеного на статті в Guardian Datablog, становить 6 хвилин, порівняно із 1 хвилиною для решти веб-сайту Guardian. 6 хвилин – це гарний результат, і час, проведений на сторінці є одним із ключових параметрів, за яким ми аналізуємо трафік.

Це також допомагає переконувати наших колег у цінності того, що ми робимо. Це, і ще великі статті, засновані на аналізі даних, над якими ми працювали і про які знають усі: урядові витрати (COINS), Wikileaks та заворушення в Британії. Для проекту з дослідження витрат на COINS у нас було 5-6 спеціально виділених журналістів із Guardian, які працювали над оцінкою даних, опублікованих урядом Великобританії. Ще одна команда з 5-6 людей працювала в нас тоді, коли уряд Британії оприлюднив дані про витрати на суму вище 25 тисяч фунтів – включно з такими відомими журналістами, як Поллі Кертіс. Wikileaks також був великим проектом, з великою кількістю статей про Ірак та Афганістан. Бунти – також досить великі, з понад 550 тисячами заходів на сайт протягом двох днів.

Але йдеться не лише про короткотермінове збільшення відвідуваності: завдання в тому, щоб бути надійним джерелом корисної інформації. Ми стараємося, щоб у цьому місці ви могли отримати якісну, змістовну інформацію про теми, які ми висвітлюємо.

Саймон Роджерс, The Guardian

Публікація даних

Ми часто ставимо дані на сайт як візуалізацію, а також у такій формі, яка дозволяє легке завантаження бази даних. Наші читачі можуть досліджувати дані, на яких засновані статті, шляхом або взаємодії з візуалізацією, або самостійно використовуючи ці дані в інший спосіб. Чому це так важливо? Це збільшує прозорість Seattle Times. Ми показуємо читачам ті ж дані, які ми використовували для наших аргументованих висновків. І хто їх використовує? Однозначно наші критики, а також ті, хто просто цікавиться статтею та всіма відгалуженнями її теми. Надаючи доступ до даних, ми також маємо змогу отримати від тих самих критиків та читацького загалу підказки про те, що ми могли пропустити і що ще ми можемо дослідити – все це має вартість для впливової журналістики.

Шеріл Філіпс, Seattle Times

Відкривайте ваші дані

Надання новим споживачам легкого доступу до даних, які ми використовуємо в нашій роботі, - це правильно відразу з декількох причин. Читачі можуть самостійно переконатися, що ми не ґвалтуємо дані, щоб отримати некоректні висновки. Відкриття наших даних – це традиція соціальних наук, завдяки якій читачі мають змогу відтворювати результати нашої роботи. Заохочення читачів вивчати дані може генерувати підказки, що приведуть до статей-продовжень. Насамкінець, заохочені читачі, яких зацікавили ваші дані, зазвичай повертаються до вас знову й знову.

Стів Дойг, школа журналістики імені Уолтера Кронкайта при університеті штату Аризона

Починайте з відкритої платформи даних

У La Nación публікація відкритих даних є невід’ємною частиною нашої діяльності у сфері журналістики даних. У Аргентині не прийнято закону про свободу інформації й нема національного порталу даних, тож ми потужно підтримуємо надання нашим читачам доступу до даних, використаних нами в статтях.

Відповідно, ми публікуємо сирі структуровані дані на нашій інтегрованій платформі Junar, а також у Google Spreadsheets. Ми явно надаємо можливість та заохочуємо інших до повторного використання наших даних, і ми надаємо пояснення, як це робити, за допомогою документації та навчального відео.

Більше того, ми представляємо деякі з цих баз даних та візуалізацій у нашому блозі даних NACION. Ми робимо це задля пропаганди журналістики даних та інструментарію з публікації даних у Аргентині, й показуємо іншим, як ми зібрали наші дані, як ми їх використовуємо і як вони також можуть використати ці ж дані.

З часу відкриття цієї платформи у лютому 2012 року, ми отримали пропозиції та ідеї щодо баз даних, переважно від науковців та дослідників, а також від студентів університетів, які щоразу висловлюють нам велику вдячність, коли ми у відповідь надаємо їм рішення або певну базу даних. Люди також охоче коментують наші дані на Tableau, і кілька разів ми були найбільш коментованими та мали найбільшу кількість переглядів на цьому сервісі. У 2011 році ми мали 7 із 100 візуалізацій з найбільшою кількістю переглядів.

Анжеліка Перальта Рамос, La Nación, Аргентина

Наближаючи дані до людей

У той самий час, як дискусія навколо «великих даних» набирає все більшого усвідомлення, одна суттєва складова в ній є очевидно відсутньою – а саме, людський елемент. Хоча багато хто з нас вважає, що дані – це відсторонені, автономні цифри, насправді вони являють собою вимірювання реальних (і наближених до людей) явищ. Дані прив’язані до реальних життів реальних людей, і коли ми маємо справи з числами, ми повинні брати до уваги системи реального світу, з яких ці числа походять.

Візьмімо як приклад дані про місцезнаходження, які просто зараз збирають сотні мільйонів телефонів та інших мобільних пристроїв. Нескладно розглядати ці дані (цифри, які представляють широту, довготу та час) як «цифрові відходи», але вони насправді є кристалізованими моментами з наших особистих біографій. І хоч вони можуть здаватися сухими та «клінічними», якщо зчитувати їх у формі електронної таблиці, та коли ми даємо людям змогу розмістити їхні власні дані на карті та відтворювати їх, перед ними неначе програються їхні спогади –яскраві та «людиноцентричні».

Наразі дані про місцезнаходження використовує багато «третьосторонніх» учасників – розробники програмного забезпечення, великі бренди та рекламісти. Власниками та розпорядниками цих даних є «друга сторона» (телекомунікаційні компанії та служби, що адмініструють пристрої), натомість «перша сторона» в цьому рівнянні – ви – не має ні доступу, ні контролю над цією інформацією. У дослідницькій групі NYTimes ми запустили прототип проекту під назвою OpenPaths (openpaths.cc), який має на меті дати громадськості змогу досліджувати власні дані про місцезнаходження, а також оцінити концепцію володіння цими даними. Зрештою, люди повинні мати контроль над цими цифрами, які так тісно пов’язані з їхніми життями та досвідом.

Журналісти відіграють дуже важливу роль у висвітленні притаманної даним людяної складової. Роблячи це, вони мають силу змінити громадське розуміння – і даних, і систем, з яких з’являються ці цифри.

Джер Торп, запрошений художник даних у дослідницькій групі New York Times

Відкриті дані, відкритий код, відкриті новини

2012 рік має всі підстави стати роком відкритих новин. Це є центром нашої редакційної ідеології та ключовим месиджем у нашому поточному брендінгу. З цього стає очевидним, що нам потрібен відкритий процес для журналістики даних. Цей процес має не тільки живитися відкритими даними, але забезпечуватися вільним доступом до інструментарію. На кінець року ми сподіваємося супроводжувати кожну опубліковану нами візуалізацію доступом і до даних, на основі яких її створено, і до коду, який її генерує.

Багато інструментів, які наразі застосовуються для візуалізацій, мають закритий код. Інші супроводжуються ліцензійними обмеженнями, які забороняють використання похідних даних. Бібліотеки з відкритим кодом, які все ж існують, часом якісно вирішують одну проблему, але неспроможні запропонувати ширшу методологію. Усе це разом ускладнює людям процес використання робіт, зроблених іншими. Це закриває спілкування, а не відкриває його. Щоб покласти цьому край, ми розробляємо набір відкритих інструментів для інтерактивного представлення журналістських сюжетів - Miso Project (@themisoproject).

Ми обговорюємо цю роботу з низкою інших медійних організацій. Потрібне залучення спільноти, щоб усвідомити повний потенціал програмного забезпечення з відкритим кодом. Якщо ми матимемо успіх, це надасть нашим стосункам з читачами фундаментально відмінної динаміки. Їхній внесок може просунутися далі за коментування – у продовження нашої роботи, виправлення помилок чи повторне використання даних у неочікуваний спосіб.

Аластер Дент, Guardian

Додавайте лінк «Завантажити»

Протягом останніх років я мав справу з кількома гігабайтами даних у різних проектах чи статтях, від сканів надрукованих на друкарській машинці таблиць з 1960-х років до 1,5 гігабайтів телеграм, опублікованих на Wikileaks. Зазвичай було складно переконати редакторів систематично публікувати джерело цих даних у відкритому та доступному форматі. Щоб обійти цю проблему, я додавав лінк «Завантажити дані» до статей, вказуючи на архіви, що містили файли або відповідні документи Google docs. Зацікавлення потенційних користувачів цими даними відповідало тому, що ми спостерігаємо у програмах, спонсорованих урядом (тобто, було дуже, дуже низьким). Втім, кілька випадків повторного використання надали нове бачення або активізували спілкування, і це виправдовує кілька додаткових хвилин, витрачених на проект.

Ніколя Кайзер-Бріл, Journalism++

Усвідомлюйте можливості

Знайте ваші можливості. Є велика відмінність між хакерством для задоволення та проектуванням, яке забезпечує масштабованість та продуктивність. Подбайте про те, щоб співпрацювати з людьми, які мають відповідні вашому проекту навички. Не забувайте про дизайн. Зручність користування, враження користувачів та дизайн представлення можуть суттєво вплинути на успіх вашого проекту.

Крис Ву, Hacks/Hackers

Як написати програму з журналістики даних

Програми із журналістики даних – це ніби вікна до даних, які лежать в основі статті. Це можуть бути бази даних з можливістю пошуку в них, ефектні візуалізації або щось інше на додачу. Але нема значення, якої форми вони набудуть – комп’ютерні програми з журналістики даних заохочують читачів взаємодіяти з даними у такому контексті, який має дня них значення: знаходити закономірності у статистиці злочинності в їхньому регіоні, перевіряти, чи не припускався місцевий лікар медичних помилок, або ж шукати, хто фінансує політиків, за яких вони збираються голосувати.

Ілюстрація 82. Моніторинг клінік, що здійснюють діаліз (ProPublica)

Окрім того, що вони являють собою високотехнологічну інфографіку, найкращі програми з журналістики даних є «довгограючими» продуктами. Вони продовжують жити поза межами циклу новин, і зазвичай це відбувається тому, що вони допомагають читачам вирішувати проблеми з реального життя або дають відповіді на питання в такий корисний чи новаторський спосіб, який перетворює їх на ресурси тривалого користування. Коли журналісти з ProPublica хотіли дослідити безпечність американських клінік, що здійснюють нирковий діаліз, вони написали програму, яка допомагала користувачам пересвідчитися, чи безпечні клініки у їхніх власних містах. Надання такого важливого та релевантного сервісу створює стосунки з користувачами, які простягаються значно далі, ніж це могла б забезпечити сама тільки стаття з розповіддю.

І в цьому полягає водночас складність та перспективність розробки найпередовіших журналістських програм: треба створити щось таке, що матиме довготривалу цінність. Чи програміст ви, чи менеджер, - будь-яка дискусія про те, як створити якісну журналістську програму повинна починатися з ментальності розробки продукту: фокусуйтеся, неначе лазер, на користувачі, і працюйте так, щоб отримати максимум з кожного витраченого долара. Тож перш ніж братися за роботу, слушно поставити самому собі три запитання:

Хто входить до моєї аудиторії і які її потреби?

Програми з журналістики даних не створюються не задля статті як такої – вони створюються задля користувача. Залежно від проекту, користувач може бути пацієнтом-діалізником, який хоче знати про те, наскільки безпечною є його клініка, або власником будинку, який не знає про ризики землетрусів поблизу його оселі. Нема значення, хто це, -будь-яка дискусія про розробку журналістської програми, як і будь-якого якісного продукту, повинна починатися з людей, які будуть цим користуватися.

Одна програма може обслуговувати інтереси різних користувачів. Наприклад, проект під назвою Curbwise, розроблений Omaha (Nebraska) World-Herald, обслуговує власників будинків, яким здається, що вони переплачують податки; зацікавлених мешканців, які хочуть знати вартість нерухомості поблизу від них; та фахівців з нерухомості, які хочуть відстежувати останні угоди з продажів. У кожному зі згаданих випадків програма задовольняє певну потребу, завдяки чому до неї повертаються користувачі.

Власники будинків, наприклад, можуть потребувати допомоги в зборі інформації про нерухомість, розташовану неподалік, щоб мати змогу оскаржити несправедливо високі податки. Збір цієї інформації потребує значного часу та зусиль – цю проблему Curbwise вирішує, надаючи користувачам зручний звіт про всю інформацію, якої вони потребуватимуть для оскарження податків на нерухомість у місцевих органах влади. Curbwise продає цей звіт за 20 доларів, і люди платять за нього, бо він вирішує реальну проблему їхнього життя.

Хай ваша програма вирішує проблему реального життя, як це робить Curbwise, або ж доповнює сюжет статті цікавою візуалізацією, - завжди беріть до уваги людей, які користуватимуться нею. І тоді зосереджуйтеся на розробці та створенні тих функцій, які базуються на їхніх потребах.

Скільки часу мені слід на це витратити?

Програмісти, що працюють в редакціях, подібні до води в пустелі: вони всім потрібні і їх не вистачає на всіх. Розробка журналістських програм означає балансування між щоденними редакційними потребами та довготерміновими зобов’язаннями, потрібними для створення справді якісного продукту.

Уявімо, що ваш редактор приходить до вас із ідеєю: міська рада наступного тижня призначає голосування про те, чи зносити кілька історичних будівель у вашому місті. Він пропонує написати просту програму, яка дасть змогу користувачам бачити місцезнаходження цих будівель на карті.

У вас є кілька варіантів як у програміста. Ви можете напружити свої фахові м’язи і розробити красиву карту, власноруч написавши програму. Або можете використати існуючі інструменти, такі як Google Fusion Tables чи картографічні бібліотеки з відкритим кодом, і завершити цю роботу за пару годин. Перший варіант дасть вам кращу програму; але другий може залишити вам більше часу на розробку чогось іншого, із більшими шансами мати триваліший вплив.

Лише тому, що до статті пасує складна, красива журналістська програма, це зовсім не означає, що вам слід її писати. Критично важливим є баланс пріоритетів. Вся хитрість тут у тому, щоб пам’ятати, що кожна створена вами програма має свою ціну: а саме, інша потенційно важливіша програма, над якою ви могли б працювати натомість.

Як я можу підняти продукт на наступний рівень?

Розробка високоякісної програми з журналістики даних може потребувати значних витрат часу та коштів. Ось чому завжди виправдовують себе запитання: а чи виправдано це? Як перетворити одноразовий проект на щось особливе?

Створення тривалого проекту, який переживе новинний цикл, - це один варіант. Але це також може бути розробка інструментарію, який надалі економитиме ваш час (і який слід надати у вільне використання іншим!), або використання поглибленої аналітики у вашій програмі, яка забезпечить більше знань про вашу аудиторію.

Багато організацій створюють карти соціологічних опитувань, які показують демографічні зміни у їхніх містах. Але коли команда програмістів у Chicago Tribune створювала свої карти, вони піднесли їх на новий рівень, розробивши інструментарій та техніки для швидкого створення подібних карт, який вони надали в розпорядження інших організацій.

У організації, де я працюю, Центрі журналістських розслідувань, ми поєднали просту базу даних, обладнану можливістю пошуку, із витонченою інфраструктурою відстеження подій, яка дала нам змогу, серед іншого, дізнатися про те, наскільки люди цінують інтуїтивність та дослідницькі можливості наших журналістських програм.

І хоч це й звучить дещо по-бухгалтерськи, завжди думайте про повернення ваших інвестицій. Вирішуйте універсальну проблему; створюйте новий спосіб залучення користувачів; передавайте частину ваших робіт у відкритий доступ; використовуйте аналітику, щоб більше дізнатися про ваших користувачів; або навіть знаходьте варіанти, подібні до Curbwise, коли компонент вашої програми може генерувати прибутки.

Підводячи підсумки

Розробка програм із журналістики даних за короткий час пройшла великий шлях. Програми першого покоління були подібні до інфографіки другого покоління – інтерактивні візуалізації даних, поєднані з базами даних, які мали можливість пошуку в них, і розроблені в першу чергу для доповнення сюжету статті. Зараз більшість із цих програм можуть створювати самі журналісти в умовах дедлайну за допомогою відкритого інструментарію, вивільняючи тим самим програмістів для глибших задумів.

Журналістські програми другого покоління, до яких прямує галузь, - це поєднання сили журналістської розповіді та суспільної користі з дисципліною розробки продуктів та досвідом світу технологій. Результатом, без сумніву, стане вибух інноваційних підходів до того, щоб робити дані релевантними, цікавими та особливо корисними нашій аудиторії – і при цьому допомагати журналістам виконувати ті ж завдання.

Чейз Девіс, Центр журналістських розслідувань

Журналістські програми в ProPublica

Журналістська програма – це велика інтерактивна база даних, яка передає журналістський сюжет. Розглядайте її так, як ви розглядали б будь-яку іншу форму журналістики. Вона просто використовує програмне забезпечення замість слів чи ілюстрацій.

Надаючи кожному читачеві дані, які мають для нього специфічне значення, журналістська програма може допомогти йому зрозуміти статтю так, що це матиме для нього особистий зміст. Вона може допомогти читачеві усвідомити його особистий зв’язок із ширшим національним феноменом, і посприяти в поєднанні того, що він знає, з тим, що йому було невідомо, таким чином заохочуючи до глибшого розуміння абстрактних ідей.

Ми схильні розробляти журналістські програми тоді, коли в нас є база даних (або коли ми вважаємо, що зможемо її отримати), яка є національною за масштабами але при цьому достатньо «гранульованою», щоб наводити суттєві деталі.

Журналістська програма повинна розповідати сюжет, і як будь-яка інша гарна стаття, вона потребує заголовка, автора, підзаголовка та врізу. Деякі з цих компонентів важко виокремити у інтерактивній програмі, але вони там є, якщо придивитися уважніше.

Крім цього, журналістська програма повинна бути генеративною – тобто, вона має генерувати нові статті та нову журналістську діяльність. Найкращі програми ProPublica використовувалися як підґрунтя для написання статей у місцевій пресі.

Як приклад розглянемо нашу журналістську програму Dollars for Docs («Долари лікарям»). Вона вперше відстежила мільйони доларів платежів від фармацевтичних компаній лікарям за їхні консультації, рекомендації тощо. Створена нами програма дала змог читачам знайти їхнього власного лікаря та побачити, скільки коштів той отримав. Журналісти з інших видань також користувалися цими даними. Понад 125 місцевих видань, включно з Boston Globe, Chicago Tribune та St. Louis Post-Dispatch, провели журналістські розслідування практики місцевих лікарів, використовуючи дані Dollars for Docs.

Декілька з цих місцевих публікацій були результатом формального партнерства, але більшість постала цілком незалежно – у деяких випадках ми мало що знали, а то й взагалі не знали про те, що над статтею ведеться робота, аж поки ця стаття не виходила. Оскільки ми є малим виданням, але національного масштабу, для нас це критично важливо. Ми не можемо знати місцеву ситуацію в 125 містах, але якщо наші дані допомагають журналістам, які знають місцеву ситуацію, створювати впливові публікації, наша місія виконана.

Ілюстрація 83. Карта Лос-Анджелеса (Los Angeles Times)

Одна з моїх улюблених журналістських програм - це «Карта Лос-Анджелеса» у Los Angeles Times, початок якій поклала колективна робота над картою багатьох районів Лос-Анджелеса, бо до запуску цього проекту не було незалежних, загальноприйнятих меж цих районів. Після цього початкового колективного проекту Los Angeles Times змогла взяти карти районів за основу для потужних проектів із журналістики даних – таких, як рівень злочинності за районами, якість шкільної освіти за районами тощо, - раніше б вони не мали змоги це зробити. Тож проект «Карти Лос-Анджелеса» виявився не тільки широким та специфічним водночас, - він ще й генеративний, і повідомляє людям власні сюжети.

Ресурси, необхідні для розробки журналістських програм, можуть суттєво відрізнятися. У New York Times десятки людей працюють над написанням програм та інтерактивною графікою. Та Talking Points Memo створила передову програму відстеження політичних опитувань, маючи команду з двох людей, і жоден із них не був фахівцем із комп’ютерних технологій.

Як більшість програмістів, що працюють в редакції, ми застосовуємо для розробки програм модифіковану методологію Agile. Ми швидко вносимо зміни та показуємо попередні варіанти іншим людям у редакції, з якими ми співпрацюємо. Найважливіше те, що ми працюємо в тісній взаємодії з журналістами та їхніми попередніми варіантами статей – навіть дуже попередніми. Ми діємо радше як репортери, аніж як традиційні програмісти. На додачу до написання коду ми телефонуємо нашим джерелам, збираємо інформацію та експертні коментарі. Було б дійсно складно розробити гарну журналістську програму на матеріалі, якого ми не розуміємо.

Чому редакціям варто цікавитися виробництвом комп’ютерних програм із журналістики даних? На це є три причини: це гарна журналістика, вона дуже популярна – найпопулярнішими рисами ProPublica є журналістські програми – і якщо цього не зробимо ми, це зробить хтось інший. Подумайте про здобутки, які ми випустимо з рук! І найважливіше, редакціям слід знати, що вони це можуть виконувати. Це легше, ніж здається зі сторони.

Скотт Клейн, ProPublica

Візуалізація як «робоча конячка» журналістики даних

Перш ніж ви спробуєте створити діаграму чи карту на основі ваших даних, поміркуйте хвилинку над тим, скільки ролей виконують статичні та інтерактивні графічні елементи у вашій журналістській роботі.

Візуалізація в журналістиці спроможна:

• Допомогти вам визначити теми та запитання для подальшої роботи над сюжетом

• Визначити відхилення в даних: це може бути ідея для якісної статті або, можливо, помилка у ваших даних

• Допомогти знайти типові приклади

• Показати слабкі місця у вашому репортажі

Візуалізації також виконують багато ролей під час публікації статей:

• Ілюструють твердження, наведене в статті, у більш аргументований спосіб

• Прибирають з тексту непотрібну технічну інформацію

Особливо в тому випадку, коли вони є інтерактивними та дозволяють вести дослідження, візуалізації роблять ваш процес роботи над матеріалом прозорим для читачів.

З цих ролей випливає, що вам слід братися за візуалізації і на ранніх етапах вашої журналістської роботи, незалежно від того, чи ви працюєте над електронними даними, чи над документами. Не розглядайте це як окремий етап, про який варто задуматися вже після того, як стаття загалом написана. Хай ця робота допомагає вам скеровувати вашу журналістську діяльність.

Розпочати – це часом означає просто подати у візуальній формі вже зроблені вами нотатки. Погляньте на інфографіку в Ілюстрації 84, яка була опублікована у Washington Post в 2006 році.

Ілюстрація 84. Як змінювалися субсидії фермерам протягом часу (Washington Post)

Вона наводить ту частину доходу від ферм, яка пов’язана із субсидіями, та ключові події протягом останніх 45 років, що впливали на дохід. На її розробку пішло декілька місяців. Пошук даних, які можна було б використовувати протягом тривалого часу, з однотипними дефініціями та однотипними значеннями, становив суттєву проблему. Дослідження всіх цих піків та «низин» на візуалізації допомогло нам тримати в пам’яті контекст під час нашої журналістської роботи. Це також означало, що одна рутинна частина завдання була загалом завершена ще до того, як були написані статті.

Ось кілька підказок про те, за допомогою візуалізацій почати дослідження ваших баз даних.

Підказка 1. Використовуйте підбірку малих графіків (т.зв. small multiples, щоб швидко зорієнтуватися у великій базі даних

Я використав цю техніку у Washington Post, коли ми досліджували ідею про те, що адміністрація Джорджа Буша роздавала гранти, виходячи з політично ангажованих, а не незалежних міркувань. Більшість із цих програм із допомоги виконувалася за формулою, а інші фінансувалися роками, тож нам було цікаво, чи можна виявити тут якусь закономірність, розглянувши близько 1500 різних довільних потоків.

Ілюстрація 85. Гранти міністерства охорони здоров’я та соціальних служб США: спарклайни допомагають оцінити тему статті (Washington Post)

Я створив графік для кожної програми, де червоні точки вказували на рік президентських виборів, а зелені – на рік виборів до конгресу. Проблема: так, у деяких із цих програм справді спостерігався пік за шість місяців до президентських виборів – червоні точки з піковими цифрами поруч із ними – але це не той рік виборів. Замість перевиборів Джорджа Буша пік стосується президентських виборів 2000 року, коли Білл Клінтон перебував у Білому Домі, а його віце-президент Ел Гор ішов на наступні вибори.

Було справді легко це побачити за допомогою серій графіків, а не у таблиці з цифрами, а інтерактивна форма дала нам змогу перевірити різні типи грантів, регіонів та агенцій. Карти, виконані за принципом small multiples, надають спосіб відтворити час та місце в статичних зображеннях, які легко порівнювати – часом навіть легше, ніж у інтерактивній графіці.

Цей приклад було створено за допомогою короткої програми, написаної мовою PHP, але зараз набагато простіше робити таке за допомогою спарклайнів у Excel 2007 та 2010. Едвард Тафт, експерт з візуалізацій, винайшов ці «глибокі, прості, подібні до слів графіки», щоб передавати інформацію з великих баз даних у режимі «одного погляду». Зараз їх можна побачити всюди, від невеликих графіків під котируваннями на біржі до даних про перемоги та поразки в спорті.

Підказка 2: Розгляньте ваші дані зі сторони і "догори дригом"

Коли ви намагаєтеся зрозуміти, яка саме тема статті пов’язана з набором даних, то не існує неправильних способів розглядати ці дані; спробуйте будь-який підхід, який тільки можете придумати, і ви отримаєте інакшу перспективу. Якщо ви пишете про злочинність, можна поглянути на графік змін у насильницьких злочинах протягом року; іншим може бути зміна у відсотках; ще іншим – порівняння з іншими містами; або це може бути зміна протягом тривалих періодів часу. Використовуйте «сирі» цифри, відсотки та коефіцієнти .

Розгляньте це все у різних масштабах. Намагайтеся дотримуватися правила, що ваша вісь Х має перебувати на нулі. Тоді відступіть від цього правила і подивіться, чи це повідомить вам щось іще. Спробуйте логарифмічну шкалу та квадратні корні для даних, що мають дивний розподіл.

Враховуйте результати досліджень із візуального сприйняття. Експерименти Вільяма Клівленда показали, що око починає помічати зміни в зображенні, коли середній кут становить близько 45 градусів. З цього виходить, що вам слід ігнорувати принцип «завжди починайте з нуля», і замість цього намагатися отримати більш інформативну графіку. Наші дослідження з епідеміології показали, що потрібний рівень знаходиться на межі вашого графіка чи діаграми. Кожен із цих варіантів дозволяє побачити дані в різних перспективах. Коли це перестане повідомляти вам щось нове, ви знатимете, що справу завершено.

Підказка 3: Не робіть припущень

Після того, як ви розглянули ваші дані у різних ракурсах, ви, імовірно, виявили записи в базі даних, які видаються неправильними – ви можете не зрозуміти відразу що вони означають, або там будуть відхилення в даних (т.зв. викиди – прим.), які виглядають так, неначе це помилки, або ж тренди, які мають обернений характер.

Якщо ви хочете підготувати публікацію на основі ваших ранніх досліджень або зробити візуалізацію, вам слід з’ясувати ці питання, і тут не можна робити припущень. Це або підґрунтя для цікавих статей, або помилки; цікавий виклик, кинутий загальним уявленням, або ж просто непорозуміння.

Нема нічого незвичного в тому, що місцеві органи влади надають електронні таблиці, у яких повно помилок, так само легко не зрозуміти урядовий жаргон, використаний у базі даних.

Найперше, поверніться до початків вашої роботи. Чи прочитали ви документацію та застереження до неї, і чи існує ця проблема в оригінальній версії даних? Якщо все «по вашу сторону» виглядає коректно, тоді час сідати на телефон. Вам потрібно все з’ясувати, якщо ви плануєте це використовувати, тому починати треба негайно.

Сказавши це, зауважимо, що не кожна помилка справді щось важить. У базі даних фінансування виборчої кампанії типово мати кількасот поштових індексів, які не існують в природі, у базі даних на сто тисяч записів. До тих пір, поки всі ці індекси не належать до одного міста або не стосуються одного кандидата, ці випадкові помилки в записах насправді нічого не означають.

Вам слід запитати себе: Якщо я хочу використати ці обставини, чи отримають читачі фундаментально точне бачення того, про що повідомляють ці дані?

Підказка 4: Уникайте одержимості надмірною точністю

Протилежна сторона того, що ви не поставили достатньо запитань, - це надмірне захоплення точністю. Ваша дослідницька інфографіка має бути коректною загалом, але не турбуйтеся, якщо у вас різні рівні округлення цифр, якщо вони не становлять у сумі точно 100 відсотків, або якщо ви пропустили дані по року чи двох на проміжку в 20 років.

Насправді ви можете спробувати прибрати мітки та маркери масштабу, як це зроблено на діаграмах угорі, щоб отримати ще краще загальне відчуття даних

Підказка 5: Створюйте хронологію випадків та подій

На початку роботи над будь-якою складною статтею створіть хронологію ключових подій та ситуацій. Для цього завдання можна використати Excel, документ Word чи спеціалізований інструмент на кшталт TimeFlow, але в певний момент ви зрозумієте, яку базу даних можна «підкласти» під цю хронологію. Періодичний перегляд хронології покаже вам, чи існують у вашій статті «дірки», які потребують заповнення.

Підказка 6: Не зволікайте із зустрічами з вашим редакційним відділом графіки, і проводьте їх регулярно

Проведіть «мозковий штурм» про можливі варіанти графіки з редакційними художниками та дизайнерами. Вони матимуть гарні способи поглянути на ваші дані, пропозиції про те, як можна забезпечити інтерактивність, та знання про те, як поєднати дані та статтю. Вашу журналістську роботу значно полегшать знання про те, що вам слід зібрати вже на ранніх етапах, або ви можете попередити вашу команду, що візуалізацію неможливо створити, якщо ви не зберете ці дані.

ПІДКАЗКИ ДО ПУБЛІКАЦІЇ

Ви могли провести за вашим розслідуванням лише кілька днів чи кілька годин, а можливо, ви готували статтю протягом місяців. Але коли настає час її публікувати, два аспекти отримують більшу вагу.

Пам’ятаєте про той пропущений рік, який був у ваших ранніх дослідженнях? Раптом виявляється, що без нього ви не можете просуватися далі. А ті неякісні дані, які ви проігнорували в статті? Вони не даватимуть вам спокою.

Причина в тому, що ви не можете обійти в статті "неякісні" дані. Якщо йдеться про графіку, у вас або є все, що вам потрібно, або у вас нема нічого – середини не існує.

1. Співвідносьте зусилля зі збору даних із розробкою інтерактивної графіки

У інтерактивній графіці нічого не приховаєш. Якщо ви справді маєте намір дати змогу вашим читачам досліджувати дані так, як їм заманеться, тоді кожен елемент цих даних має бути тим, чим він названий. Користувачі можуть виявити будь-яку помилку в будь-який час, і це переслідуватиме вас місяцями та роками.

Якщо ви створюєте вашу власну базу даних, це означає, що вам слід вичитати на предмет помилок, перевірити факти та відредагувати всю базу даних. Якщо ви використовуєте урядові дані, вам слід вирішити, скільки вибіркових перевірок цих даних треба виконати, і що ви плануєте робити, якщо виявите неминучу помилку.

2. Робіть дизайн для двох типів читачів

Графіка – чи це є окрема інтерактивна візуалізація, чи статична візуалізація, яка супроводжує вашу статтю – повинна задовольняти потреби двох відмінних груп читачів. Вона має бути легкою для розуміння з першого погляду, але при цьому досить складною для того, щоб запропонувати щось цікаве людям, які хочуть заглибитися в неї. Якщо ви робите інтерактивну графіку, подбайте про те, щоб ваші читачі отримали з неї щось більше, ніж окрема цифра чи ім’я.

2. Подавайте одну ідею – а тоді спрощуйте її

Ви певні, що хочете, щоб люди бачили лише якусь одну річ? Прийміть рішення про те, яке саме найпотужніше враження має отримати ваш читач, а потім подбайте про те, щоб усе інше зникло. У багатьох випадках це означає вилучення інформації – навіть тоді, коли Інтернет дає вам можливість подати все. За винятком того, якщо ваша головна мета – це прозорість вашого журналістського розслідування, більшість деталей, зібраних у вашій хронології, просто не є достатньо важливими. У статичній графіці це буде страхіття. У інтерактивній – нудьга.

Як вести розповідь за допомогою візуалізацій

Візуалізація даних заслуговує на увагу відразу з декількох причин. Вона не тільки може бути приголомшливо красивою та привертати до себе погляд – тобто, це вартісна соціальна «валюта», яка приваблює читачів та сприяє поширенню інформації, - вона також забезпечує позитивну когнітивну перевагу: половина людського мозку обробляє візуальну інформацію. Коли ви надаєте користувачам інфографіку, ви отримуєте доступ до них по найширшому із каналів людської психіки. Якісно розроблена візуалізація даних може створити в глядачів негайне та глибоке враження і прорватися через нагромадження складного сюжету просто до головної теми.

Але на відміну від інших візуальних медіа – таких як фотографія та відео – візуалізації даних властиве глибоке вкорінення у факти, які є придатними для вимірювання. Маючи естетичну привабливість, вона при цьому менш «заряджена» емоційно, має більше відношення до пролиття світла, аніж до «підігріву» теми. У час вузько сфокусованих ЗМІ, які повсякчас налаштовані на аудиторію з певними світоглядними позиціями, візуалізація даних – як і журналістика даних загалом - надає спокусливу нагоду вести розповідь, яка передовсім спирається на факти, а не на фанатизм.

Понад те, як інші форми журналістської розповіді, візуалізація даних може бути ефективною як для топ-новин – швидко передаючи інформацію, таку як місце катастрофи та кількість жертв – так і для «сюжетних» статей, де завдяки їй можна глибше зануритися в тему та надати нову перспективу, допомогти побачити щось знайоме у цілком новий спосіб.

Побачити відоме у новий спосіб

Ілюстрація 86. Рівень безробіття серед людей, подібних до вас (New York Times)

Спроможність візуалізації даних поставити під сумнів поширені судження можна пояснити на прикладі інтерактивної графіки, опублікованої в New York Times наприкінці 2009 року, через рік після початку глобальної економічної кризи. В ситуації, коли рівень національного безробіття в США перебував у районі 9%, користувачі мали змогу відфільтрувати населення США за різними демографічними та освітніми критеріями фільтрації, щоб побачити, наскільки драматично відрізнявся рівень безробіття. Як виявилося, він перебував у діапазоні від менш ніж 4% для жінок середнього віку з авторитетними дипломами до майже половини усіх чорних чоловіків молодого віку, які не закінчили середньої школи. Більше того, в такій нерівності не було нічого нового – цей факт підкреслювали кілька рядків, де були вказані історичні дані по кожній із цих груп.

Навіть тоді, коли ви вже не її не розглядаєте, якісна візуалізація даних потрапляє до вашої свідомості та залишає там тривалу ментальну модель факту, тренду чи процесу. Уявляєте, скільки людей побачили це завдяки анімації, яку поширили в грудні 2004 року дослідники цунамі, і де показано каскади хвиль, що відходять від епіцентру землетрусу в Індонезії, через Індійський океан, несучи загрозу мільйонам жителів узбережжя Південної Азії та Східної Африки?

Візуалізації даних – та породжені ними естетичні асоціації – можуть навіть стати культурними віхами, як це сталося з репрезентацією глибокого політичного розмежування в США після виборів 2000 та 2004 року, де «червоні» республіканські штати заповнили центральні райони, а «блакитні» демократичні зосередилися на північному сході та далекому заході. І нема значення, що в США до 2000 року ЗМІ та провідні телевізійні мережі довільно переходили від червоного до блакитного кольору під час представлення кожної з цих партій, а іноді навіть змінювали цей колір на протилежний щочотири роки. Через це деякі американці досі згадують про епічну вирішальну перемогу Рональда Рейгана у 49 штатах з 50 в 1894 році як про «блакитну».

Але на кожну інфографіку, що породжує візуальне кліше, припадає інфографіка, яка надає потужні фактичні свідчення. Наприклад, така, як опублікована в New York Times карта 2006 року, де кола різних розмірів показували місця проживання сотень тисяч людей, евакуйованих із Нового Орлеану після повені, - цих людей розкидало по всьому континенту під впливом суміші таких факторів, як родинні зв’язки чи програми переселення. Чи ці «загублені» біженці колись зможуть повернутися додому?

Тож якщо ми зараз обговорюємо силу візуалізацій даних, доречно запитати: коли нам слід їх використовувати, а коли не слід?

Коли слід використовувати візуалізацію даних?

У першу чергу ми розглянемо кілька прикладів того, як візуалізація даних може допомогти вам донести вашу оповідь до читачів.

Показати зміни за певний проміжок часу

Ілюстрація 87.Скільки часу потрібно на розбудову технологічної імперії? (Wall Street Journal)

Імовірно, найбільш типове застосування візуалізацій даних – як це втілено у простенькій «температурній діаграмі» ¬– це показати, як змінилися дані за певний проміжок часу. Зростання населення Китаю з 1960 року, чи сплеск безробіття у 2008 році, - це показові приклади. Але візуалізації даних також можуть потужно представляти зміни протягом часу у інших графічних формах. Португальський дослідник Педро М. Круз використав анімовані колові діаграми, щоб показати драматичний занепад західноєвропейських імперій з початку 19 століття. Британія, Франція, Іспанія та Португалія за ознакою загальної кількості населення лускали неначе бульбашки після того, як заморські колонії здобували незалежність. А потім Мексика, Бразилія, Австралія, Індія, зачекаємо трохи... а ось і багато африканських колоній, через які на початку 1960-х років майже «анульовано» Францію.

Діаграма, опублікована Wall Street Journal, показує, скільки місяців потрібно для того, щоб сто підприємців вийшли на магічну цифру доходів - 50 мільйонів доларів. Візуалізація, створена за допомогою безкоштовного інструменту побудови діаграм та аналізу даних Tableau Public, нагадує сліди багатьох літаків, що злітають у повітря, - деякі швидко, деякі повільніше, деякі важко, - накладені один на одного.

Якщо вже мова зайшла про літаки, то є ще один цікавий графік, який зображує зміни в ринковій частці провідних американських авіакомпаній протягом кількох десятиліть консолідації в галузі. Після того, як адміністрація президента Картера запровадила дерегуляцію пасажирської авіації, велика кількість придбань обтяжених боргами компаній призвела до появи національних перевізників на основі менших регіональних авіакомпаній, як це ілюструє інфографіка від New York Times.

Ілюстрація 88. Злиття авіакомпаній (New York Times)

Порівняти значення

Ілюстрація 89. Скільки коштує війна - в людських життях (ВВС)

Втім, візуалізації даних також блискуче себе проявляють тоді, коли є потреба допомогти читачам порівняти два чи більше окремих значення. Це може бути створення контексту для трагічних втрат військовослужбовців у конфліктах в Іраку та Афганістані (порівнявши їх із десятками тисяч загиблих у В’єтнамі та мільйонами смертей у Другій світовій війні, як це зробила ВВС у анімованому слайд-шоу, що супроводжує їхню базу даних жертв війни); чи візуалізація від National Geographic, де дуже мінімалістичний графік показує, з якою ймовірністю ви помрете від серцевих хвороб (імовірність 1 до 5), інсульту (1 до 24) порівняно, скажімо, з імовірністю загибелі в авіакатастрофі (1 на 5051) чи смерті від укусу бджоли (1 на 5678) – і все це «в тіні» великої дуги, яка репрезентує загальні шанси померти (1:1!). ВВС в співпраці з агенцією Berg Design розробила веб-сайт “Dimensions” («Виміри), де ви можете накласти контури значних світових подій – наприклад, розлиття нафти в Мексиканській затоці, повені в Пакистані тощо – на карту Google вашого регіону (howbigreally.com)

Показати зв’язки

Ілюстрація 90. Зарплатня VS результативність (Ben Fry)

Запуск Францією швидкісних потягів у 1981 році не зробив країну меншою в буквальному сенсі цього слова, але розумна візуалізація може показати, наскільки менше часу тепер потрібно, щоб дістатися до різних місць призначення, ніж це було за «традиційних» поїздів. Сітка, накладена на карту країни, виглядає квадратною на ілюстрації «до того», але стискається в середині до Парижу на ілюстрації «після», показуючи, не лише те, що віддалені місця стали «ближчими», але й те, що найбільший виграш у часі забезпечено для першої частини маршруту, доти, доки поїзди не потраплять на не покращені колії, де вони змушені пригальмовувати.

Щоб побачити приклад порівняння двох окремих змінних, погляньте на діаграму від Ben Fry, яка наводить результати бейсбольних команд вищої ліги у співвідношенні з платнею гравцям. Лінія червоного кольору (платня перевищує результати) чи синього кольору (результати вищі за платню) поєднує ці два значення, забезпечуючи зручний спосіб відчути, власники яких команд шкодують про те, що переплачують своїм дорогоцінним гравцям. Більше того, перегляд цих даних за «лінійкою часу» створює яскраву анімацію того, як відбувається чемпіонський забіг до фінішу у поточному сезоні.

Відстежити потоки

Ілюстрація 91. Тропікана (Sourcemap)

Сара Коен, університет Дьюк

Дизайн за допомогою даних

Подібно до того, як подані зв’язки у графах, блок-схеми також кодують інформацію у з’єднувальних лініях, як правило, за допомогою їхньої товщини та/або кольору. Наприклад, в ситуації кризи в Єврозоні та неспроможності деяких членів ЕС обслуговувати їхні борги, New York Times спробував розплутати мережу взаємних позичок, що пов’язувала між собою країни-члени Євросоюзу та їхніх торгових партнерів по той бік Атлантики та в Азії. У одній «формі» візуалізації товщина лінії позначає суму кредитів, передану від одної країни до іншої, а діапазон кольорів від жовтого до помаранчевого позначає, наскільки «проблемними» є ці позики – тобто, яка імовірність, що їх не повернуть.

По більш позитивній темі журнал National Geographic представив оманливо просту діаграму, що показувала зв’язки трьох міст США – Нью-Йорка, Чикаго та Лос-Анджелеса – з головними виноробними регіонами, і те, які види транспорту використані для постачання продукції з кожного з регіонів, що має наслідком різний рівень викидів вуглекислого газу. Тобто, для нью-йоркців вино Бордо є більш «екологічною» покупкою, ніж, скажімо, каліфорнійське вино.

“SourceMap” («Карта походження»), проект, розпочатий бізнес-школою Масачусетського інституту технологій, використовує блок-схеми, щоб детально розглянути глобальні закупівлі вироблених продуктів, їхніх комплектуючих та сировини. Завдяки цим ґрунтовним дослідженням користувачі тепер мають змогу здійснювати пошук по продукції в діапазоні від черевиків Ecco до апельсинового соку, і дізнаватися, з яких саме куточків світу вони походять, і який буде відповідний рівень викидів двоокису вуглецю.

Показати ієрархічність

Ілюстрація 92. OpenSpending.org (фундація Open Knowledge)

У 1991 році дослідник Бен Шнейдерман винайшов новий спосіб візуалізації, який отримав назву treemap («ієрархічна карта»). Вона являє собою декілька прямокутників, що розташовані один в одному. Площа певного прямокутника репрезентує відповідну кількість, власну та того, що до нього входить. Хай це візуалізація національного бюджету за фінансованими установами чи підпорядкованими їм організаціями, чи візуалізація фондового ринку за секторами та компаніями, чи мови програмування за її класами та субкласами, ієрархічна карта – це компактний та інтуїтивний інтерфейс для зображення певної сутності та її складових частин. Інший ефективний формат – це дендрограма, яка подібна до більш типової організаційної діаграми (органограми), де підкатегорії відгалужуються від спільного стовбура-основи.

Щоб переглядати великі бази даних

Ілюстрація 93. Всі смерті на дорогах Великої Британії у 1999-2000 (BBC)

Хоча візуалізація даних зазвичай є дуже ефективною, коли треба взяти вже відому інформацію та відтворити її у цілком новому світлі, що станеться, коли у вас є зовсім нова інформація, з якою хочуть ознайомитися люди? У епоху цифрових даних нові приголомшливі факти з’являються майже щодня, від блискучої географічної аналітики Еріка Фішера за знімками на Flickr до тисяч рейтингів нью-йоркських учителів, - дані, які раніше були конфіденційними.

Ці набори даних мають найбільшу силу тоді, коли користувачі можуть «копати» ці дані і докопуватися до інформації, яка є для них найважливішою.

На початку 2010 року New York Times отримала доступ до зазвичай приватних записів Netflix (сервіс онлайнового прокату кінофільмів), про те, які фільми в яких регіонах найчастіше брали у перегляд. І хоч Netflix відмовилася відкрити «сирі» цифри, Times створила привабливу інтерактивну базу даних, яка давала користувачам можливість переглядати дані про топ-100 фільмів у прокаті, за кожним із 12 регіонів США, з деталізацією аж до рівня поштового індексу. Кольорова «теплокарта», накладена на кожен регіон, дозволяє користувачам швидко переглядати, який конкретний фільм був найбільш популярним.

Наприкінці того ж року Times опублікувала результати перепису населення США, який проводиться раз на 10 років, - лише через кілька годин після оприлюднення цих даних. Інтерфейс, виконаний на Adobe Flash, пропонував низку варіантів візуалізацій і дозволяв користувачам вести перегляд аж до окремої переписної дільниці (з 8,2 мільйонів дільниць на країну), і бачити розподіл мешканців за расами, доходом та освітою. Деталізація була настільки високою, що у перші години після публікації цих даних створювалося враження, що ви – перша людина на світі, яка побачила саме цей «куточок» бази даних.

Аналогічні приклади вдалого застосування візуалізацій, які відображають бази даних, - це розслідування ДТП зі смертельними наслідками, проведене ВВС, та багато спроб швидко про індексувати великий масив даних по бойових діях в Іраку та Афганістані, «злитих» через Wikileaks'

Щоб уявити альтернативний розвиток подій

Ілюстрація 94. Бюджетні прогнози в порівнянні з реальністю (New York Times)

Графік-«дикобраз», створений Амандою Кокс для New York Times, де наведено трагічно оптимістичні прогнози дефіциту США протягом багатьох років, показує, що часом те, що сталося, є менш цікавим за те, чого не сталося. Лінія, що звивається неначе в лихоманці на графіку Кокс і демонструє різке зростання бюджетного дефіциту після десятиліття війни та податкових пільг, доводить, наскільки нереалістичним може виявитися очікуване нами майбутнє.

Брет Віктор, який тривалий час працював у Apple дизайнером інтерфейсів (і який винайшов теорію візуалізації кількісної інформації під назвою «Смерть математиці» (kill math), створив прототип своєрідного динамічного документа. У його прикладі різні варіанти енергозбереження включають певні твердження, які можна редагувати. Так, простий крок, на кшталт вимкнення лампочок у порожніх кімнатах, може заощадити американцям електроенергію, що відповідає виробіткові від двох до сорока вугільних електростанцій. Зміна відсотка, вказаного в середині текстового абзацу, призводить до відповідних змін тексту на решті сторінки!

Якщо вам потрібна більша кількість прикладів та ідей, ось список різних варіантів застосування візуалізацій, карт та ітерактивної графіки, складений Метью Еріксоном з The New York Times.

Коли не слід застосовувати візуалізацію даних

Кінець кінцем, ефективна візуалізація даних залежить від якісної, чіткої, точної та змістовної інформації. Так само як гарні цитати, факти та описи посилюють якісну оповідну журналістику, так і візуалізації даних гарні лише настільки, наскільки гарними є дані, що їх наповнюють.

Коли краще передати сюжет за допомогою тексту чи мультимедія

Іноді дані самі по собі не передають оповіді в найбільш переконливий спосіб. Хоч проста діаграма, яка ілюструє певний тренд чи дає підсумки статистичних даних, може бути корисною, оповідь, що покладається на реально існуючі наслідки ситуації, може звернутися до читача більш оперативно та впливово.

Коли вам бракує даних

Як кажуть, «одна цифра ще нічого не означає». Типова репліка, яку вживають редактори у відповідь на цитату із статистикою: «Це порівняно з чим?» Тренд рухається вгору чи вниз? Що тут є нормою?

Коли у ваших даних дуже мало змін, нема чіткого тренду чи висновку

Іноді ви розміщуєте ваші дані в Excel чи іншій програмі, у якій можна створювати графіки та діаграми, і виявляєте, що інформація забита шумом – у ній багато флуктуацій або ж порівняно плаский тренд. Чи слід вам підняти осьову лінію від нуля майже під найнижче значення, щоб лінія на графіку стала більш оформленою? Ні! Виглядає так, що ваші дані є сумнівними, і вам слід більше «копати» та аналізувати.

Коли карта – це не карта

Якщо просторовий елемент не передає значення, непереконливий чи відволікає увагу від більш доречних цифрових трендів, таких як зміна протягом часу чи показ подібних рис у несуміжних областях.

Не забувайте про таблиці

Якщо у вас порівняно небагато цифр, але це інформація, яка може стати в пригоді декому з ваших читачів, подумайте над тим, щоб просто викласти ці цифри в табличній формі. Вона проста, легка для читання і не створює нереалістичних очікувань «сюжету». Фактично, таблиці можуть бути дуже ефективним та елегантним способом викладу базової інформації.

Браян Суда, (optional.is)

Різні діаграми – різні оповіді

У цифровому світі, з його перспективами «занурення» у тривимірне віртуальне середовище, ми схильні забувати про те, що так довго мали лише чорнило на папері. Ми зараз думаємо про цей статичний, плаский засіб передачі інформації як про щось другорядне, але насправді протягом сотень років ми писали та друкували, і ми спромоглися опанувати неймовірні багатства знань та практик про те, як представляти дані на сторінці. І хоч інтерактивні діаграми, візуалізації даних та інфографіка зараз на підйомі, вони «стоять на плечах» багатьох якісних практик, які нам відомі. І тільки коли ви поглянете назад в історію класичних діаграм та графіків, можна зрозуміти цей масив знань та перенести його на нові види носіїв.

Деякі з найвідоміших графіків та діаграм постали з потреби кращого пояснення «щільних» таблиць із даними. Вільям Плейфер (William Playfair) був шотландським поліглотом, який жив наприкінці 1700 – на початку 1800 років. Він самотужки представив світові багато тих самих графіків та діаграм, які ми й досі використовуємо. У своїй книзі «Комерційний та політичний атлас» (1786 рік) Плейфер використав стовпчикову діаграму http://en.wikipedia.org/wiki/Bar_chart, щоб виразно показати обсяги імпорту та експорту Шотландії в новий візуальний спосіб.

Ілюстрація 95. Ранній зразок стовпчикової діаграми (Вільям Плейфер)

Потім він популяризував знамениту секторну діаграму в своїй книзі «Статистичний конспект» (1801). Потреба в цих нових формах діаграм та графіків постала з комерційної діяльності, але з плином часу з’являлися й інші, за допомогою яких рятували людські життя. У 1854 році Джон Сноу створив свою, зараз славнозвісну «Холерну карту Лондона», додавши маленький чорний стовпчик до кожної адреси, де був зафіксований випадок холери. Через деякий час можна було побачити щільність епідемічного прояву і вжити заходів, щоб стримати розповсюдження хвороби.

Ілюстрація 96. Холерна карта Лондона (Джон Сноу)

Спливав час, і фахівці, що використовували ці нові графіки та діаграми, набиралися все більшої хоробрості і експериментували далі, просуваючи цей носій інформації до тих рівнів, які нам відомі зараз. Андре-Мішель Гуеррі першим опублікував ідею карти, де різні регіони були розфарбовані в різні кольори залежно від значення певної змінної. В 1829 році він створив першу фонову картограму, зафарбувавши регіони Франції різними відтінками, щоб показати рівень злочинності в них. Зараз ми бачимо, як подібні карти використовують для показу результатів політичних опитувань, підсумків голосувань, розподілу за рівнем доходів та багатьох інших змінних, що мають географічну прив’язку. Здається, що це така проста ідея, але навіть сьогодні її важко опанувати та зрозуміти, не кажучи вже про раціональне використання.

Ілюстрація 97. Фонова картограма Франції, що відтворює рівень злочинності (Андре-Мішель Гуеррі)

Існує багато інструментів, які повинен розуміти і мати в своєму арсеналі фаховий журналіст, щоб будувати з їх допомогою візуалізації. І замість того, щоб відразу хапатися за найскладніше, краще спиратися на чудове підґрунтя графіків та діаграм. Все, що ви створюєте, має походити із серій «базових» графіків та діаграм. Якщо ви опануєте основи, тоді зможете просуватися далі до конструювання набагато складніших візуалізацій, створених із цих базових одиниць.

Два найбільш типові види діаграм – це стовпчикова та лінійна. І хоч вони дуже подібні у тому, як їх використовують, вони також можуть суттєво відрізнятися за значенням. Візьмімо як приклад продажі певної компанії з помісячною розбивкою. У нас буде 12 стовпчиків, що представляють кількість отриманих щомісяця коштів.

Ілюстрація 98. Проста стовпчикова діаграма: зручна для представлення відокремленої інформації

Давайте розглянемо, чому це мають бути стовпчики, а не лінійний графік. Лінійні графіки ідеальні для «неперервних» даних. Але наші дані продажів – це сума за місяць, а не щось неперервне. За допомогою стовпчиків ми знаємо, що в січні компанія заробила 100 доларів, а в лютому – 120. Якби ми використали лінійний графік, в нас так само були б ці 100 та 120 доларів у перше число кожного з цих двох місяців, але на основі лінійного графіка ми б вважали, що 15 числа компанія нібито отримала 110 доларів. А це не так. Стовпчики застосовуються для відокремлених вимірюваних одиниць, тоді як лінії – для неперервних, таких як температура.

Ілюстрація 99. Простий лінійний графік: зручний для представлення неперервної інформації

Ми бачимо, що о 8:00 температура була 20 градусів по Цельсію, а в 9:00 становила 22 градуси. Якщо ми подивимося на лінію, щоб дізнатися про температуру о 8:30, ми побачимо 21 градус, що є правильною оцінкою, бо температура є неперервною і у кожній точці не є сумою інших значень – вона репрезентує точне значення у певний момент або розрахункове значення між двома точними вимірами.

І стовпчикові діаграми, і лінійні графіки можуть накладатися одна на одну. Це чудовий інструмент розповіді, який може спрацьовувати по-різному. Давайте розглянемо як приклад компанію, яка має три філіали у трьох місцях.

Ілюстрація 100. Згрупована стовпчикова діаграма.

Кожного місяця ми маємо три стовпчики, по одному на кожен із філіалів, загалом 36 на рік. Коли ми розташуємо їх поруч один з одним, ми відразу побачимо, який філіал у якому з місяців заробляв найбільше. Це цікава та доречна тема для статті, але в тих же самих даних ховається й інша. Якщо ми розташуємо стовпчики один на іншому, так щоб на кожен місяць був тільки один, то втратимо можливість легко показати, який із них відповідає найбільшим доходам, але тепер зможемо бачити, у які місяці вся компанія вела бізнес найкраще.

Figure 101. Комбінована стовпчикова діаграма

І перша, і друга являють собою правильні методи показу однієї й тієї ж інформації, але вони передають два різні сюжети за допомогою одних і тих же початкових даних. Для журналіста найважливіший аспект роботи з даними – це від початку обрати сюжет, який буде цікаво розповісти. Чи це те, які місяці найкращі для ведення бізнесу, чи який із філіалів є передовиком? Це простий приклад, але в цьому є весь фокус журналістики даних – поставити правильне питання до того, як ви зайдете занадто далеко. А там стаття спрямовуватиме ваш вибір візуалізації.

Стовпчикова діаграма та лінійний графік – це дійсно хліб з маслом для будь-якого журналіста даних. Від цього ви можете просунутися до гістограм, горизонтальних графіків, спарклайнів, потокових графіків та інших. Всі вони мають спільні властивості та краще пристосовані для дещо відмінних ситуацій, таких як кількість даних, джерело даних чи розміщення графіка у тексті.

У журналістиці один з найчастіше застосовуваних способів візуалізації – це карта. Час, кількісні дані та географічні дані типові для передачі за допомогою карти. Нам завжди цікаво, наскільки більше чогось у певній області, ніж у іншій, або як щось переходить від одної області до іншої. Блок-схеми та фонові картограми є дуже зручними інструментами, які варто опанувати задля створення журналістських візуалізацій. Тут найголовніше – це знати, як правильно застосовувати кольорове кодування карти, щоб не увести читачів в оману і не створити в них помилкове враження. Результати політичних виборів, як правило, кодуються за принципом «все або нічого», навіть якщо у частині країни переможець отримав лише на 1% більше. Кольорові позначення не повинні бути бінарними, але градієнти кольорів слід застосовувати обережно. Розуміння карт – це велика складова журналістики. Карти з легкістю відповідають на питання «де» з відомої п’ятірки «Хто, що, коли, де, чому».

Коли ви освоїте базові типи графіків та діаграм, то зможете після цього будувати більш складні та вигадливі візуалізації даних. Якщо ви не розумієте основ, то ваші конструкції стоятимуть на хиткому фундаменті. Це схоже на те, як ви вчилися правильно писати – короткими реченнями, не забуваючи про аудиторію і не ускладнюючи матерій так, щоб звучати «по-розумному» - натомість просто передавати зміст читачам. Так само не потрібно передавати куті меду і з даними. Починати з малого – це найефективніший спосіб передати журналістський сюжет, повільно розбудовуючи його лише тоді, коли це потрібно.

Енергійний текст – це стислий текст. У реченні не має бути непотрібних слів, у абзаці – непотрібних речень. Із таких же причин у малюнку не має бути непотрібних ліній, в машині – непотрібних деталей. Вимога не в тому, щоб журналіст писав усі речення коротко, або щоб він уникав усіх деталей і описував лише контури, але щоб кожне слово промовляло.

Вільям Странк-молодший (Елементи стилю, 1918 рік).

Нічого страшного, якщо ви у вашій статті використаєте не всі дані. Вам не слід просити в когось дозволу бути лаконічним – це має стати вашим правилом.

Браян Суда, (optional.is)

Саморобна візуалізація: Наші улюблені інструменти

Які інструменти візуалізації даних існують в інтернеті – такі, щоб їх було легко використовувати і при цьому не платити за них? У Guardian Datablog та Datastore ми намагаємося найбільше застосовувати безкоштовні й потужні засоби, які пропонує Інтернет.

Ілюстрація 102. Хроніки бойових дій, оприлюднені Wikileaks (Guardian)

Це може звучати трохи нещиро, бо в нас, без сумніву, є доступ до чудових команд фахівців Guardian, які виконують графічні та інтерактивні роботи, - для тих проектів, на які в нас є трохи більше часу – наприклад, таких, як ця карта витрат держслужбовців (її створили в Adobe Illustrator) чи інтерактивна карта заворушень у Британії, створена на основі повідомлень у Twitter.

Але для повсякденної роботи ми часто використовуємо ті ж інструменти, які може використати кожен – і створюємо графіку, яку також може створити кожен.

Тож що саме ми використовуємо?

Google Fusion Tables

Ця онлайнова база даних та картографічний інструмент є нашим вибором за замовчанням, якщо треба швидко створити деталізовані карти, особливо з можливістю масштабування. Ви отримуєте всю високу роздільну здатність карт Google, але тут можна відкривати великі бази даних - до 100 мегабайт у форматі CSV, наприклад. Коли ви спробуєте Fusion tables уперше, вони можуть здатися вам заскладними, але потренуйтеся ще. За її допомогою ми створювали карти на зразок наведеної вище карти Іраку, а також контурні карти на кшталт оцієї карти з рівнем бездомності.

Ілюстрація 103. Інтерактивна карта бездомності (Guardian)

Тут головна перевага – це гнучкість: ви можете, наприклад, завантажити файл у форматі kml, де вказано межі регіонів, - а тоді злити його з таблицею даних. Google Fusion Tables також отримує новий інтерфейс користувача, що полегшує її застосування.

Щоб це робити, вам не треба бути програмістом – а інструмент шарів у Fusion Tables дозволяє поєднувати різні карти або ж створювати засоби пошуку та фільтрації, які потім можна вбудувати в блог чи на сайт.

Цей чудовий посібник Кетрін Харлі з Google – гарна відправна точка.

Головна підказка:
Використовуйте shpescape для конвертації офіційних файлів у форматі shp, щоб використати їх у Fusion tables. І стежте, щоб не пере ускладнювати карти - Fusion tables може впоратися не більше ніж із мільйоном точок на одну клітину.

Tableau Public

Якщо у вас немає безмежних ресурсів професійної редакції, то ця програма є безкоштовною – і дозволяє робити вельми складні візуалізації просто та легко, на основі баз даних розміром до ста тисяч рядків. Ми використовуємо її тоді, коли нам потрібно звести докупи різні типи діаграм – як на цій карті, де вказані найвищі рівні податків у світі, і де також є стовпчикова діаграма.

Або ви навіть можете використати Tableau Public для дослідження даних – так як ми це зробили нижче з даними про витрати на федеральні вибори в США (хоча при цьому в нас вичерпалися ресурси вільної безкоштовної версії програми – слід пильнувати за цим). Tableau Public також потребує специфічного форматування даних, щоб ви могли отримати від неї максимум. Але якщо ви через це пройдете, то матимете інтуїтивний інструмент, який працює так як треба. Аргентинська La Nación, скажімо, побудувала всю свою діяльність із журналістики даних навколо Tableau.

Ілюстрація 104. Фінансування президентської кампанії 2012 року (Guardian)

По Tableau також є гарні онлайнові посібники, з яких вам варто почати.

Головна підказка:
Tableau розроблена для комп’ютерів PC, хоча ведеться робота над версією для Маків. Використовуйте паралельні дзеркала, щоб це запрацювало.

Діаграми Google spreadsheet

Ілюстрація 105. Витрати та податки уряду Великобританії (Guardian)

Ви освоїли прості речі – такі як стовпчикові, лінійні чи секторні діаграми? Тоді знайте,що в електронних таблицях Google spreadsheets (які можна створити з фрагментів документів, завантажених під вашим екаунтом Google) можна створювати вельми ефектні діаграми – включно з анімованими пухирцевими діаграмами, використаними в Gapminder Ганса Рослінга. На відміну від інтерфейсів прикладних програм для побудови діаграм, тут вам не треба перейматися програмуванням – все вельми подібне до створення діаграм у Excel, де ви виділяєте дані та клацаєте мишкою на віджеті діаграми. Варто дослідити й можливості кастомізації – можна змінювати кольори, заголовки та шкалу масштабу. Ці діаграми є нейтральними з точки зору дизайну, що корисно для малих діаграм. У лінійних графіків також є кілька корисних опцій, включно з опцією анотації.

Головна підказка:
Витратіть час на опції, що дозволяють змінювати діаграму – ви маєте змогу створити власну кольорову палітру.

Ілюстрація 106. Засуджені на смерть та страти (Datamarket)

Explore this data - страти в США

У Datamarket, який більше відомий в якості постачальника даних, насправді є дуже навіть якісний інструментарій для візуалізації цифрових даних. Ви можете завантажити власні або використати бази даних, які пропонують вони – але вибір стає кращим, якщо ви отримаєте екаунт Pro.

Головна підказка:
Працює краще з даними, які мають часову прив’язку, але перевірте їхній розширений діапазон даних

Many Eyes
Якщо на світі є сайт, що потребує трохи ніжної люблячої турботи, то це Many Eyes від IBM. Коли його запустили під керівництвом Фернанди Б. Вегас та Мартіна Ваттенберга, це був унікальний ресурс, який давав людям змогу легко завантажувати та візуалізувати бази даних. Зараз, коли творці ресурсу працюють на Google, сайтові, схоже, бракує любовного ставлення – з його приглушеними кольоровими палітрами – і там мало що оновилося в сенсі візуалізацій.

Головна підказка:
Якщо ви завантажили дані, їх неможливо редагувати, тож заздалегідь подбайте про їх правильність

Ілюстрація 107. Вороги доктора Хто (Doctor Who) ( Guardian)

Color Brewer

Ілюстрація 108. Color Brewer

Color Brewer не є інструментом візуалізації в строгому сенсі цього слова – його початково створили за федеральні кошти для вибору кольорів карти, і на нього варто витратити трохи часу, якщо ви маєте наміри зробити набагато більше. Ви можете вибрати базовий колір і отримати коди для всієї палітри.

І трохи ще.

Якщо нічого зі вказаного вище вам не підійшло, варто також перевірити цю статтю в DailyTekk, де наведено ще більше варіантів. Ті, які ми навели вище, - це не єдині інструменти, просто їх використовують найчастіше. Є й багато інших, наприклад:

• Chartsbin Інструмент для створення клікабельних карт світу

• iCharts Спеціалізується на створенні малих діаграм-віджетів

• Geocommons Обмін даними та контурними даними задля створення глобальних та локальних карт

Ну і ще є piktochart.com, який надає шаблони для тих текстових/цифрових візуалізацій, яких зараз так багато.

Саймон Роджерс, Guardian

Як працює "кухня даних" у Verdens Gang

Сенс новинарської журналістики – це подавати читачам свіжу інформацію так швидко, як це можливо. Найшвидшим засобом може бути відео, фото, текст, графік, таблиця чи поєднання усього названого. У випадку з візуалізаціями мета та ж сама: швидке інформування. Нові інструменти роботи з даними дають журналістам змогу знаходити сюжети, які б вони не знайшли в інший спосіб, та презентувати історії по-новому. Ось кілька прикладів, що показують, як ми подаємо дані у найбільш популярній газеті Норвегії, Verdens Gang (VG).

Числа

Ілюстрація 110. Карта з даними платників податків та гравців у лотерею (Verdens Gang)

Сюжет цієї статті заснований на даних Бюро статистики Норвегії, даних платників податків та даних від національного лотерейного монополіста. В цій інтерактивній графіці читач може знайти різні види інформації по кожному норвезькому округу та муніципалітету. Оригінальна таблиця показує відсоток доходів, який витрачають на лотереї. Візуалізацію створено з використанням Access, Excel, MySql та Flash.

Мережі

Ілюстрація 111. Пишні пташки літають разом (Verdens Gang)

Ми застосували аналіз соціальних мереж, щоб дослідити зв’язки між 157 синами та доньками найбагатших людей Норвегії. Наш аналіз показав, що нащадки найбагатших осіб Норвегії також успадкували мережу зв’язків їхніх батьків. Хоч тут було понад 26000 зв’язків, інфографіка була виконана вручну у Фотошопі. Ми використовували: Access, Excel, Notepad, та інструмент аналізу соціальних мереж Ucinet.

Карти

Ілюстрація 112. Анімована теплокарта (Verdens Gang)

На цій анімованій теплокарті, поєднаній із простою стовпчиковою діаграмою, можна побачити дані про злочини, скоєні в центральній частині Осло, з погодинною розбивкою протягом вихідних днів – за кілька місяців. На цій же анімованій теплокарті видно кількість офіцерів поліції, що перебувають на роботі в один і той же час. Коли стаються злочини, кількість офіцерів поліції є найнижчою. Візуалізацію створено за допомогою ArcView разом із Spatial Analyst.

Дослідження текстів

Ілюстрація 113. Дослідження промов партійних лідерів (Verdens Gang)

Для цієї візуалізації ми дослідили тексти промов, виголошених сімома лідерами норвезьких політичних партій під час їхніх партійних з’їздів. Всі промови були проаналізовані, і ця аналітика дала ракурс для декількох публікацій. Кожна стаття отримала лінк на графік, і читачі отримали змогу досліджувати та вивчати мову політиків. Роботу було виконано за допомогою Excel, Access, Flash та Illustrator. Якби це було в 2012 році, то ми б зробили інтерактивну графіку на Javascript.

Заключні ремарки

Коли в нас виникає потреба візуалізувати статтю? Переважно у нас такої потреби нема, але часом ми хочемо це зробити, щоб допомогти нашим читачам. Журналістські сюжети, що містять великі обсяги даних, як правило, потребують візуалізації. Втім, ми критично підходимо до вибору тих даних, які маємо намір презентувати. Ми все це знаємо, коли пишемо статтю, але чи потрібно про це знати читачеві? Можливо, вистачить таблиці або простого графіка, що показує зміну ситуації від року А до року С. Головне в журналістиці даних – це не подавати гігантські обсяги даних. Головне – це журналістика!

У останні 2-3 роки спостерігався чіткий тренд до створення інтерактивної графіки та таблиць, які дозволяють читачеві заглиблюватися в різні теми. Гарна візуалізація – це як гарна картина. Ви розумієте, що на ній, подивившись на неї секунду чи дві. Чим більш ви дивитеся, тим більше помічаєте. Візуалізація не є гарною, коли читач не знає, з чого почати чи де зупинитися, або коли візуалізація перевантажена деталями. За такого сценарію, можливо, краще було б написати текст?

Джон Боунз, Verdens Gang

Громадські дані стають соціальними

Дані – безцінні. Доступ до даних спроможний висвітлити теми в такий спосіб, який веде до результату. І навпаки, неякісна робота з даними може трансформувати факти в непрозору структуру, яка ні про що не повідомляє. Якщо дані не спонукають до дискусії або не надають контекстуального розуміння, їх вартість для громадськості може бути обмеженою.

Нігерія повернулася до демократії в 1999 році після довгих років військової диктатури. Спроби прозондувати факти, що стояли за даними, сприймалися владою як публічний виклик і розглядалися як наміри поставити під сумнів і без того заплямовану репутацію хунти. Закон про офіційні секрети вимагав від держслужбовців не поширювати урядову інформацію. Навіть через 13 років після повернення до демократії доступ до урядових даних може бути складною справою. Дані про державні витрати мало що говорять більшості громадськості, яка не вельми обізнана з бухгалтерією та складною арифметикою.

З поширенням мобільних телефонів та ростом кількості нігерійців, що мають онлайновий доступ, ми у BudgIT побачили гарну нагоду використати технології візуалізації даних для пояснення державних витрат та залучення людей до цієї тематики. Для цього нам треба було залучити користувачів різних комп’ютерних платформ та знайти доступ до наших громадян через неурядові організації. Мета проекту: зробити громадські дані соціальними, а також збудувати розлогу соціальну мережу з людей, що вимагають змін.

Ілюстрація 114. Фрагмент програми BudgIT (BudgIT Nigeria)

Щоб успішно залучати користувачів, нам треба розуміти, чого вони прагнуть. Що хвилює громадян Нігерії? Де вони відчувають брак інформації? Як ми можемо зробити дані суттєвими для їхнього життя? Найперша цільова аудиторія BudgIT’s – це середньостатистичний освічений нігерієць, який має доступ до онлайнових форумів та соціальних медіа. Для того, щоб позмагатися за обмежену увагу користувачів, залучених до широкого розмаїття захоплень (ігри, читання, спілкування) нам треба було подати дані в стислій та лаконічній манері. Після того, як цей фрагмент даних пошириться в Твіттері чи як інфографіка, виникає можливість більш тривалої взаємодії з більш інтерактивними практиками, щоб користувачі могли отримати ширшу картину.

Під час візуалізації даних важливо усвідомлювати рівень обізнаності наших користувачів із технологіями даних. Складні діаграми та інтерактивні програми, якими б красивими та хитромудрими вони не були, можуть бути неспроможні забезпечити змістовну комунікацію з нашими користувачами, виходячи з їхнього попереднього досвіду інтерпретації даних. Якісна візуалізація говорить з користувачами мовою, яку вони можуть зрозуміти, і повідомляє історію, з якою вони легко можуть відчути зв’язок.

Ми залучили понад 10 тисяч нігерійців до теми бюджету, і ми поділяємо їх на три категорії, щоб переконатися, що кожна отримує оптимальні дані. Короткі пояснення цих категорій наведені нижче:

• Випадкові користувачі. Це користувачі, які хочуть отримувати інформацію просто та швидко. Їх цікавить картинка на основі даних, а не детальна аналітика. Їх можна залучити за допомогою Твіттера чи інтерактивної графіки.

• Активні користувачі. Користувачі, які пожвавлюють дискусію та використовують дані для збільшення знань у певній галузі, або щоб зробити із цих даних висновки. Для цих користувачів ми запровадили механізми зворотного зв’язку та можливість поділитися своїми ідеями з іншими у соціальних мережах.

• Фанатики даних. Ці користувачі хочуть мати сирі дані для візуалізації чи аналізу. Ми просто даємо їм ці дані для їхніх потреб.

Ілюстрація 115. Фрагмент програми BudgIT із слайдерами, що показують схильності громадян

Наша робота в BudgIT має на меті наступне:

• Стимулювати дискусію навколо поточних трендів. BudgIT відстежує он-лайнові та офлайнові дискусії та вишукує і надає дані, пов’язані з цією тематикою. Наприклад, під час паливних страйків у січні 2012 року протестувальники незмінно переймалися потребою змінити паливні субсидії та зменшити «екзотичні» та непотрібні бюджетні витрати. BudgIT відстежив цю дискусію в соціальних мережах і за 36 напружених годин написав програму, яка дає змогу громадянам реорганізувати бюджет Нігерії.

• Якісні механізми зворотного зв’язку. Ми виходимо на користувачів через дискусійні канали та соціальні медіа. Багато з них хочуть знати про сюжети, що стоять за даними, і багато хто запитує про наше ставлення. Ми дбаємо про те, щоб наші відповіді лише пояснювали факти, що стоять за даними, і не були спотворені нашими особистими чи політичними поглядами. Нам потрібно тримати канали зворотного зв’язку відкритими, активно відповідати на коментарі та залучати користувачів у творчий спосіб, дбаючи, щоб спільнота, яка формується навколо даних, зберігалася.

• Працювати локально. Якщо база даних спрямована на конкретну групу, BudgIT має на меті локалізувати її контент та забезпечити дискусійний канал, що поєднує потреби та зацікавлення певної конкретної групи користувачів. Зокрема, ми зацікавлені у залученні користувачів до тем, які їх хвилюють, за допомогою СМС.

Після того, як ми оприлюднили дані про витрати на сайті yourbudgit.com, ми виходимо на наших громадян через різноманітні неурядові організації. Ми також плануємо розробити середовище співпраці, де громадяни та урядові структури можуть зустрічатися у меріях міст і обговорювати ключові питання бюджету, які слід вирішити в першу чергу.

Проект висвітлювався в місцевих та закордонних ЗМІ, від CP-Africa до BBC. Ми зробили огляд бюджетів 2002-2011 (оборонний сектор) для журналіста АР Джінка Ібукун. Більшість медійних організацій є фанатиками даних, і вони просили в нас наші дані для їхніх власних репортажів. Ми плануємо подальшу співпрацю з журналістами та виданнями протягом наступних місяців.

Олусен Онігбінде, BudgIT Нігерія

Як згуртувати людей навколо ваших даних

Майже такою ж важливою, як публікація даних, є реакція вашої аудиторії. Ви людська істота – вам властиво періодично робити помилки, щось випускати з поля зору чи приходити до хибних ідей. Ваша аудиторія – один із найкорисніших ваших активів. Вони мають змогу перевіряти факти та вказувати на речі, які ви не взяли до уваги.

Ілюстрація 116. Чи потрібно продовжувати розслідування? (Wired.co.uk)

Втім, залучення аудиторії – це непроста справа. Ви маєте справу з групою людей, які роками користувалися інтернетом, звикли стрибати з сайту на сайт і не залишати за собою нічого, окрім саркастичних коментарів. Створення рівня довіри між вами та вашими користувачами має критичне значення – їм потрібно знати, що вони отримають, як вони можуть реагувати і як можуть пропонувати зворотний зв’язок, а також вони мають знати, що до цього зворотного зв’язку прислухаються.

Але спочатку вам слід подумати про те, яку аудиторію ви маєте чи яку хотіли б отримати. Ту, яка отримуватиме та постачатиме інформацію про дані, з якими ви працюєте. Якщо це пов’язане із специфічною галуззю, тоді вам треба буде застосувати специфічні способи зв’язку з цією галуззю. Чи це комерційні структури, з якими ви хочете налагодити стосунки так, щоб вони мали бажання поширювати наявні у вас ресурси і результати вашої праці на ширшу аудиторію? Чи це веб-сайт місцевих громад, або форум, з яким ви хочете сконтактуватися? Чи це фахові видання, які можуть опублікувати деякі з сюжетів, знайдених вами у даних?

Соціальні медіа – це також важливий інструмент, хоч тут знову є залежність від того типу даних, з яким ви працюєте. Якщо ви розглядаєте статистику глобального постачання товарів, то навряд чи ви знайдете групу в Фейсбуку чи Твіттері, яка буде вельми зацікавлена у вашій роботі. З іншого боку, якщо ви маєте справу з індексами корупції з усього світу, це імовірно зацікавить ширшу аудиторію.

Коли йдеться про Твіттер, тут найкращим підходом може бути встановлення зв’язків з відомими особами, із коротким поясненням, чому ваша робота є важливою, та лінком на неї. Якщо вам пощастить, вони зроблять ретвіт також і їхнім читачам. Це чудовий спосіб поширити вашу роботу з мінімальними зусиллями – але не докучайте людям!

Як тільки на вашу сторінку стали заходити люди, вам слід подумати проте, як ця аудиторія буде взаємодіяти з вашою розробкою. Звісно, вони можуть прочитати написану вами статтю, подивитися на інфографіку чи карти, але вкрай цінно дати вашим користувачам змогу залишити свою відповідь. Це як ніщо інше створить у вас краще уявлення про тему, на яку ви пишете, та забезпечить інформацію для подальшої роботи над нею.

По-перше, само собою зрозуміло, що вам слід публікувати «сирі» дані разом із вашими статтями. Це може бути звичайний текст, де дані розмежовані крапкою з комою, або сторонній сервіс на кшталт Google Docs. У цій ситуації існуватиме лише одна версія даних, і ви зможете внести в неї правки, якщо це потрібно, у разі виявлення помилок. А ще краще зробити й те, і інше. Подбайте, щоб доступ людей до ваших «сирих» матеріалів був якомога простішим.

Тоді почніть міркувати про те, чи є інші способи взаємодії з вашою аудиторією. Відстежуйте, до яких частин ваших баз даних існує найбільша увага – імовірно, що ділянки з найбільшим трафіком говорять про щось таке, що ви могли пропустити. Наприклад, ви можете не звернути увагу на статистику бідності в Ісландії, але якщо до цих даних існує підвищена увага, можливо, тут є щось таке, на що варто поглянути ретельніше.

Не обмежуйтеся стандартним вікном для коментарів. Чи можна зробити так, щоб коментарі додавалися до певних клітин у електронній таблиці? Чи певних областей у інфографіці? Хоч більшість онлайнових видавничих систем зазвичай не дозволяють цього, варто поглянути, чи не можна створити щось трохи індивідуальніше. Імовірні вигоди від цього не слід недооцінювати.

Переконайтеся, що інші користувачі також бачать ці коментарі – вони в багатьох випадках мають майже таку цінність, як оригінальні дані, і якщо ви залишите цю інформацію лише для себе, ви позбавляєте свою аудиторію цих вартісних речей.

Насамкінець, інші люди можуть забажати опублікувати їхню власну інфографіку чи статті, виходячи з тих самих джерел даних – подумайте про те, як краще поєднати ці завдання, та надавайте коротку інформацію про їхню роботу. Можна, наприклад, використати специфічний хештег до цієї бази даних, або якщо робота насичена ілюстраціями, її можна поширити в групі у Flickr.

Стане в пригоді й можливість більш конфіденційного поширення інформації – у деяких випадках людям може бути небезпечно публічно поширювати їхні внески до бази даних, або їм просто незручно це робити. Ці люди, імовірно, нададуть перевагу відправленню інформації на електронну пошту, або навіть через анонімне вікно коментарів.

Найважливіше, що ви можете зробити з вашими даними – це розповсюджувати їх так широко й відкрито, як тільки це можливо. Якщо ваші читачі можуть перевіряти вашу роботу, знаходити ваші помилки та вишукувати речі, які ви випустили, - це безмежно покращить як вашу журналістику, так і враження, отримані вашими читачами.

Дункан Гір, Wired.co.uk

Журналістика даних: Посібник

Зміст

Початкові зауваження

Вступ

Що таке журналістика даних?

Чому журналісти повинні використовувати дані

Чому журналістика даних – це важливо

Кілька показових прикладів

Журналістика даних: погляд у перспективі

У ньюсрумі

Як журналістика даних спрацювала в ABC

Журналістика даних у ВВС

Як працює команда журналістів-програмістів у Chicago Tribune

За лаштунками The Guardian Datablog

Журналістика даних у Zeit Online

Як найняти хакера

Як залучити зовнішніх експертів під час хакатонів (хакерських марафонів)

Дивися, де гроші: транскордонна співпраця

Наші статті ми пишемо кодом

Kaas & Mulvad: інформаційні напівфабрикати для груп впливу

Бізнесова модель для журналістики даних

Розгляд навчальних прикладів

(НЕ)рівні шанси

9-місячне розслідування на тему використання структурних фондів Євросоюзу

Розпад Єврозони

На що йдуть гроші з гаманця громади: OpenSpending.org

Вибори до фінського парламенту та фінансування кампаній

Electoral Hack: виборча журналістика в режимі реального часу

Дані у новинах: Вікілікс

Хакерський марафон Mapa76

Як Guardian Datablog висвітлював бунти в Британії

Шкільні звіти штату Іллінойс

Оплата лікування

Криза будинків опіки

Телефон-донощик

Рейтинг надійності автомобілів

Автобусні субсидії в Аргентині

Громадянська журналістика даних

Виборче табло: як подавати результати голосування

Ціна води: колективний збір інформації

Як отримати дані

П’ятихвилинний «курс молодого бійця»

Дані – це ваше право

Борітеся – поборете! Закон про доступ до інформації працює

Як отримати дані з Інтернету

Веб як джерело даних

Краудсорсинг даних у Guardian Datablog

Як Datablog використав колективний збір інформації для висвітлення теми квитків на Олімпіаду

Використання та поширення даних: старі закони, приховані доповнення та реальність

Як зрозуміти дані

Дані для чайників: лікнеп за три прості кроки

Як працювати з цифрами в журналістиці: корисні поради

Основні етапи роботи з даними

Хлібина за 32 фунти стерлінгів

Починайте з даних, завершуйте статтею

Дані як сюжет

Журналісти даних розповідають про свої улюблені інструменти

Візуалізація як спосіб розуміння даних

Як повідомляти дані

Як донести дані до публіки

Як написати програму з журналістики даних

Журналістські програми в ProPublica

Візуалізація як «робоча конячка» журналістики даних

Як вести розповідь за допомогою візуалізацій

Дизайн за допомогою даних

Різні діаграми – різні оповіді

Саморобна візуалізація: Наші улюблені інструменти

Як працює "кухня даних" у Verdens Gang

Громадські дані стають соціальними

Як згуртувати людей навколо ваших даних

Початкові зауваження

Присвята Великим Неназваним

Список учасників

Що є в цій книзі (і чого в ній нема)

Підручник одним поглядом

Вступ

Що таке журналістика даних?

Що таке журналістика даних?

Чому журналісти повинні використовувати дані

Чому журналісти повинні використовувати дані