Журналістика даних: Посібник



9-місячне розслідування на тему використання структурних фондів Євросоюзу

  • 1829 Перегляди
  • 0 Коментарі
  • 22/10/2012Дата публікації

У 2010 році Financial Times та Бюро журналістських розслідувань (BIJ) об’єдналися, щоб дослідити структурні фонди Євросоюзу. Мета: встановити, хто є бенефіціарами структурних фондів ЄС, і перевірити, чи ці кошти йдуть на належні потреби. Структурні фонди ЄС є другою за величиною програмою субсидій у Євросоюзі – це €347 мільярди протягом семи років.

Сама програма існує вже десятки років, але окрім широких, узагальнених оглядів її діяльності, у ній було мало прозорості щодо того, хто є бенефіціарами фондів. Однією із змін у правилах чинного фінансування стало зобов’язання влади оприлюднювати списки бенефіціарів, включно з описом проектів та кількістю коштів, отриманих від ЄС та від національних фондів.

Ілюстрація 28. Розслідування використання структурних фондів ЄС (Бюро журналістських розслідувань)

До команди проекту увійшли до 12 журналістів та один програміст на повній ставці, які спільно працювали протягом 9 місяців. На саме лише збирання даних пішло кілька місяців.

Результати проекту протягом п’яти днів публікувалися у Financial Times та на сайті Бюро журналістських розслідувань, також на цю тему вийшла радіопрограма BBC та декілька документальних телепрограм.

Перш ніж розпочинати проект, що потребує такого рівня зусиль, слід бути певним, що виявлена інформація є оригінальною, і що наприкінці ви отримаєте якісні сюжети, яких більше ні в кого нема.

Процес був розподілений на декілька чітко окреслених етапів.

1. Встановити, хто зберігає дані, і в якій формі

Генеральний директорат Європейської комісії у справах регіонів має портал на веб-сайти регіональних підрозділів, які публікують дані. Ми вважали, що у ЄК є загальна база даних по цьому проекту, до якої ми або зможемо мати прямий доступ, або ж отримаємо ці дані, надіславши запит відповідно до закону про свободу інформації. Виявилося, що на тому рівні, який нам був потрібен, подібної бази даних не існувало взагалі. Ми швидко зрозуміли, що багато з лінків, наданих ЄК, не працювали, і більшість установ публікували дані у форматі PDF, а не в пристосованих для аналізу форматах на кшталт CSV чи XML.

Команда у складі до 12 осіб працювала над тим, щоб ідентифікувати найостанніші дані та зібрати лінки на них у одну велику таблицю, яку ми використовували для спільної роботи. Через те, що поля даних були не однотипними (наприклад, заголовки написані різними мовами, у деяких наборах даних використовувалися різні типи валют, деякі використовували класифікації Євросоюзу чи національних фондів), ми мали бути максимально точними під час перекладу та опису полів, представлених у кожній базі даних.

2. Завантажити та підготувати дані

Наступний крок включав завантаження усіх таблиць, PDF-документів, та, у деяких випадках, «вилучення» з веб-сайтів оригінальних даних.

Кожний набір даних треба було стандартизувати. Нашим найбільшим клопотом стало вилучення даних із PDF-документів, а деякі з них мали розмір у сотні сторінок. Більшість цієї роботи було виконано за допомогою програм UnPDF та ABBYY FineReader, які дозволяють вилучати дані і зберігати у форматі CSV чи Excel

Це також потребувало перевірки та подвійної перевірки, чи правильно ці інструменти вилучили дані з PDF. Ми робили це за допомогою фільтрування, сортування та контрольних сум (щоб переконатися, що вони збігаються з тими цифрами, які надруковані PDF-документах).

3. Створити базу даних

Програміст у складі нашої команди створив базу даних у форматі SQL. Кожен із попередньо підготовлених файлів послужив «цеглиною» для загальної SQL бази даних. В щоденному режимі ми завантажували всі окремі файли в одну велику SQL базу даних, до інтерфейсу якої можна було «на льоту» звертатися за допомогою запитів.

4. Подвійний контроль та аналіз

Команда аналізувала дані двома основними способами:

Через інтерфейс бази даних

Це передбачало введення певних ключових слів (наприклад, «тютюн», «готель», «компанія така-то» у пошуковий механізм. За допомогою сервісу Google Translate, який ми підключили до пошукового механізму нашої бази даних, такі ключові слова перекладалися 21 мовою, і ми мали адекватний результат пошуку. Ці результати можна було завантажити, і журналісти на їх основі могли вести подальші розслідування по тих індивідуальних проектах, які їх цікавили.

Шляхом макро-аналізу всієї бази даних

Час від часу ми завантажували повний набір даних, який потім аналізували на основі ключових слів, або об’єднували дані за країною, регіоном, типом витрат, кількістю проектів, бенефіціарами тощо.

Знайдені нами сюжети отримували інформацію від обох цих методів аналізу, але також ми застосовували методику «польових» та «настільних» досліджень.

На подвійний контроль повноти та цілісності даних (шляхом збору та перевірки даних, які ми порівнювали з тими цифрами, які надавали офіційні установи) пішов значний час. Однією з найголовніших проблем було те, що у переважній більшості випадків установи оприлюднювали лише обсяг «європейського» та «національного» фінансування. Закони ЄС вимагають, щоб кожна програма фінансувала «європейськими» коштами лише певний відсоток від загальних витрат. Рівень фінансування ЄС визначений на рівні програми у т.зв. рівнях спільного фінансування. Кожна програма (наприклад, сприяння регіональній конкурентоспроможності) складається з багатьох проектів. На рівні проекту технічно один проект може мати 100% фінансування від ЄС, а інший – не мати ні процента, а якщо їх згрупувати, то обсяги фінансування проекту від ЄС не перевищують встановленого рівня спільного фінансування.

Це означало, що нам потрібно було перевіряти кожну цифру про обсяги фінансування від Євросоюзу, наведену в наших публікаціях стосовно компанії-бенефіціара, яку ми розглядали.

Синтія О’Мурчу, Financial Times

Переклад здійснено за підтримки фонду "Відродження"

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!