Аналіз даних на експорт: Як «Тексти» ділились досвідом із колегами з Чорногорії

Оцінка статті на цей момент: +0/-0
Читати Не читати Коментувати
  • 2534 Перегляди
  • 0 Коментарі
  • 10/08/2016Дата публікації

Наприкінці липня журналіст даних та аналітик “Текстів” Андрій Газін відвідав столицю Чорногорії - Подгорицю - аби провести дводенний воркшоп для працівників тамтешньої громадської організації Center For Democratic Transition. Заняття були присвячені аналізу даних декларацій чиновників, пошуку історій в даних та способам представлення цих даних для різних аудиторій.

Як це сталось?

Організувала воркшоп міжнародна організація TransparenCEE, яка поміж іншим займається перенесенням успішних проектів у сфері протидії корупції та підвищення підзвітності влади з одних країн до інших. Тобто ідея в тому, аби знаходити успішні кейси в різних країнах та намагатись їх застосувати деінде (з певними адаптаціями, звісно).

У нашому випадку йшлося про аналіз даних декларацій про доходи українських чиновників. Впродовж останнього року “Тексти” розробили модуль аналітики для сайту "Декларації", створили онлайн-гру “Гроші, метри, два авта” на основі даних декларацій, а також ще кілька статичних та інтерактивних візуалізацій. Найбільш популярною зо всього цього виявилась гра “Гроші, метри, два авта”, саме її вподобали представники організації TransparenCEE та запропонували спробувати застосувати досвід “Текстів” до аналізу декларацій чиновників Чорногорії.

Що це було?

Чорногорцям пощастило - вони мають у відкритому доступі декларації чиновників за десять років. Потенційних історій в цих даних - море. Проблема в тому, що ніхто за ці дані толком не береться, розслідувань як таких нема. Одна з причин ігнорування декларацій - формат представлення даних. Вони собі лежать на сайті у вигляді звичайних html сторінок - ані порівняти дані за кілька років, ані навіть порівняти статки кількох чиновників за один рік, ані завантажити дані для аналізу у якомусь зручному вигляді.

Center for Democratic Transition отримав грант на реорганізацію бази даних декларацій чиновників, дослідження та популяризацію цих даних серед журналістів, громадських організацій та активістів. CDT мають гарну репутацію у тому, що називається policy making, вони активно впливають на демократичні трансформації у країні, але от досвіду роботи з даними в них майже нема. Ось тут і може стати в пригоді досвід “Текстів”.

Спершу планували, що воркшоп буде присвячено пошуку історій у даних та способам оповідати історії за допомоги аналізу та візуалізації даних. Але перш ніж шукати історії в даних, треба ці дані мати - у добре структурованому вигляді. А з цим, як виявилось, у CDT проблеми.

З певних - невідомих нам причин - вони не змогли або і не намагались отримати всю базу даних декларацій від власне органів влади (Антикорупційної агенції, наприклад, котра займається адмініструванням сайту із даними декларацій). То ж вирішено було отримувати дані за допомоги скрейпінгу веб-сторінок. На цьому шляху CDT також спіткала невдача, і врешті решт вони були змушені переносити дані з веб-сторінок до екселівських файлів вручну. Оскільки це справа кропітка і марудна, вони подужали лише декларації 30 чиновників. Принагідно зробили неправильно все, що тільки можна було.

Замість продумати, яка структура даних підійшла би найліпше для аналізу, вони придумали, як вони хочуть бачити ці декларації у себе на сайті. І відповідно почали їх структурувати саме в такий спосіб. Дані кожного чиновника на окремій сторінці (на окремому аркуші екселівського файлу), при цьому на одній сторінці опинилось кілька таблиць різної ширини, не пов’язаних між собою практично нічим. Ну тобто для людини ці дані ще можуть мати якийсь сенс, для машинної обробки - навіть засобами того ж Екселю - абсолютно ні.

Процес збору інформації ніяк не був документований, центрів ухвалення рішень було декілька - в результаті майже ніхто не міг притомно пояснити, чому дані структуровані саме в такий спосіб (котрий фактично унеможливлює будь-який аналіз).

В цій ситуації, перш ніж говорити про якийсь сторітеллінг, заснований на даних, потрібно власне підготувати дані. Зробити їх зручними для аналізу та візуалізації. А вже потім шукати в них історії. Так і зробили.

Перший день воркшопу присвятили саме підготовці даних - очищенню та структуруванню. Визначили, як мають бути структуровані дані, аби від них була найбільша користь для будь кого, хто захоче їх аналізувати чи візуалізувати, сформували стратегію роботи із даними для CDT.

Другий день воркшопу присвятили власне аналізу даних та пошуку історій в них. Розділились на групи та досліджували різні аспекти декларацій чиновників - дохід та нерухомість, обговорювали ідеї розслідувань та візуалізацій, формати подачі інформації для різних аудиторій, кооперації із журналістами та активістами і т.д.

Що далі?

Після двох днів занять Center for Democratic Transition отримав сформовану стратегію розвитку проекту з аналізу декларацій, залишилось зовсім трохи - виконати все заплановане. Організувати наново збір даних відповідно до визначеної структури, проаналізувати ці дані та створити щонайменше грунтовних матеріали на основі цих даних. Ці матеріали, в свою чергу, можуть бути надалі використані для промоції журналістських розслідувань на основі даних декларацій чиновників, а також для адвокаційної кампанії щодо реорганізації самої бази даних декларацій з метою полегшення роботи з нею.

Оцінка статті на цей момент: +0/-0
Читати Не читати Коментувати
 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!