Журналістика даних: Посібник



Автобусні субсидії в Аргентині

  • 1229 Перегляди
  • 0 Коментарі
  • 29/11/2012Дата публікації

Із 2002 року субсидії на громадський автобусний транспорт зростали в Аргентині експоненційно, щороку встановлюючи новий рекорд. Але в 2011 році новий уряд після перемоги на виборах оголосив про скорочення субсидій на комунальні послуги, починаючи з грудня того ж року. В той же час національний уряд вирішив передати управління місцевими лініями автобусного транспорту та метро до уряду міста Буенос-Айреса.

А так як механізм передачі субсидій місцевій владі не було конкретизовано, і через брак місцевих коштів, потрібних для гарантування безпеки транспортної системи, місцева влада Буенос-Айреса відхилила це рішення.

Коли це все відбувалося, я вперше зустрівся зі своїми колегами з La Nación, щоб обговорити, як почати нашу власну діяльність із журналістики даних. Редактор рубрики «Фінанси» подав ідею, що дані про субсидії, оприлюднені міністерством транспорту, можуть стати гарною відправною точкою, - бо в цих даних було важко знайти сенс через використаний в них формат та термінологію.

Неналежний стан системи громадського транспорту щодня впливає на життя понад 5,8 мільйонів людей. Затримки, страйки, вихід з ладу транспортних засобів чи навіть нещасні випадки трапляються регулярно. Ми, отже, вирішили подивитися, куди йдуть субсидії на підтримку системи громадського транспорту в Аргентині, та надати всім громадянам Аргентини легкий доступ до цих даних за допомогою проекту «Дослідження транспортних субсидій», над яким ми зараз працюємо.

Ілюстрація 48. Дослідження транспортних субсидій (La Nación)

Ми почали з підрахунку того, скільки коштів щомісячно отримують від уряду автобусні компанії. Для цього ми переглянули дані, опубліковані на веб-сайті міністерства транспорту, - понад 400 документів у PDF форматі, що містили інформацію про щомісячні платежі понад 1300 компаніям в період із 2006 року.

Ілюстрація 49. Рейтинг транспортних компаній за обсягом субсидій (La Nación)

Ми створили команду зі старшим програмістом (у редакції), щоб розробити програму, яка автоматизовано завантажувала ці PDF-документи та трансформувала їх у формат електронних таблиць Excel чи файли баз даних. Ми використали результуючу базу даних із понад 285 тисячами записів для нашого розслідування та візуалізацій, як для друкованих, так і для онлайнових публікацій. На додачу до цього ми працюємо над тим, щоб викласти ці дані у форматі, придатному для машинного зчитування, - щоб кожен аргентинець міг їх використати чи поділитися ними з іншими.

Наступний етап – ідентифікувати, у яку суму в середньому обходилося урядові щомісячне обслуговування громадського транспортного засобу. Щоб це дізнатися, ми пішли на інший урядовий веб-сайт, Національної комісії з регулювання транспорту (CNRT), яка відповідальна за регламентування транспортних питань в Аргентині. На цьому сайті ми знайшли список автобусних компаній, яким загалом належали 9 тисяч транспортних засобів. Ми розробили нормалізатор, який дав нам змогу знайти зв’язок між назвами автобусних компаній та створити перехресні посилання між двома базами даних.

Щоб рухатися далі, нам треба було знати реєстраційні номери кожного транспортного засобу. Ми знайшли на сайті CNRT список машин на кожному автобусному маршруті, із вказаними номерами. Реєстраційні номери транспортних засобів у Аргентині складаються з літер та цифр, що відповідають «вікові» машини. Наприклад, номер моєї автівки IDF234, де «І» відповідає березню-квітню 2011 року. Ми опрацювали за методом зворотної інженерії номери, що належали всім наведеним у списку компаніям, виявили середній вік автобусів у компанії та в такий спосіб змогли показати, скільки грошей іде на кожну компанію, і порівняти суми з урахуванням середнього віку їхніх машин.

Ілюстрація 50. Порівняння «віку» транспортного парку з обсягом коштів, отриманих від уряду (La Nación)

На середині цього процесу зміст оприлюднених урядом PDF-документів із потрібними нам даними, загадковим чином змінився, хоч лінки та назви файлів залишилися такими ж. Серед того, що змінилося, було зникнення вертикальної колонки «Загалом», через що стало неможливо виконувати перехресну перевірку загальних обсягів витрат за весь період розслідування, з 2002 по 2011 рік.
Ми прийшли із цією ситуацією на хакатон, організований Hacks/Hackers у Бостоні, де програміст Метт Перрі зробив добру справу й створив те, що ми називаємо «PDF-шпигун» (PDF Spy). Ця програма здобула на хакатоні перше місце в категорії «Найбільш інтригуюча розробка». PDF-шпигун відстежує веб-сторінку, де багато PDF-документів, і перевіряє, чи не змінився зміст цих PDF-файлів. «Вас більше ніколи не введе в оману так звана «урядова прозорість», - каже Метт Перрі.

Хто працював над проектом?

Команда з семи журналістів, програмістів та фахівця з інтерактивного дизайну працювала над цим розслідуванням протягом 13 місяців

Для проекту були потрібні такі навички:

• Журналісти зі знанням того, як працює субсидування громадського транспорту і які тут є ризики; та знанням ринку автобусних компаній.

• Програміст, що вміє «вилучати» інформацію з веб-сайтів, виконувати структурний аналіз та нормалізацію даних, перетворювати дані з PDF-документів у електронні таблиці Excel.

• Статистик для проведення аналізу даних та різноманітних обрахунків.

• Дизайнер для створення інтерактивних візуалізацій даних.

Який інструментарій ми використовували?

Ми використовували програмне середовище VBasic for applications, макроси Excel, Tableau Public та Junar Open Data Platform, а також Ruby on Rails, інтерфейс прикладної програми (АРІ) до Google charts, Mysql for the Subsidies Explorer.

Проект мав потужний резонанс. Ми отримали десятки тисяч переглядів, а розслідування було опубліковане на першій сторінці друкованого видання La Nación.

Успішність цього першого проекту із журналістики даних допомогла нам створити внутрішню команду із обробки даних, яка брала б участь у журналістських розслідуваннях та служила б громадськості. В результаті з’явилася платформа Data.lanacion.com.ar, де ми публікуємо дані на різноманітні теми, що мають суспільний інтерес, у форматі, придатному для машинного зчитування.

Анжеліка Перальта Рамос, La Nación, Аргентина

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!