«Довідник із поганих даних» від Quartz

  • 5735 Перегляди
  • 0 Коментарі
  • 21/12/2018Дата публікації

Цей довідник ґрунтовно розкриває проблеми, які виникають при роботі з даними, та пропонує, як їх вирішити.

Наш світ сповнений даними. А робота з даними сповнена труднощами. Цей довідник розкриває суть різноманітних проблем, з якими ви можете зіткнутись, працюючи з даними, та рекомендує шляхи їх рішення.

Більшість таких проблем мають спосіб вирішення. Проте існують і такі набори даних, з якими просто не варто працювати. Крім того, є набори даних, які містять невирішувані проблеми, але їх усе ще можна обійти, підійшовши до аналізу з урахуванням можливих ризиків.

Цей довідник складається з трьох частин, кожна з яких відповідає тому, хто може знайти рішення проблеми: ви самі як аналітик даних, розпорядники даних чи експерти. В описі кожної проблеми наведено поради щодо можливих варіантів вирішення та/чи до кого варто звернутись по допомогу.

Звісно, немає сенсу перевіряти кожен набір даних на кожну з описаних у цьому довіднику проблем. Якщо ви спробуєте, то, найімовірніше, ніколи не доведете аналіз до кінця. Водночас розуміння можливих труднощів підвищить ваші шанси виявити проблеми до того, як вони призведуть до помилок в аналізі.

Якщо у вас виникнуть запитання щодо довідника, будь ласка, зверніться до Кріса на електронну пошту.

Оригінал: «The Quartz Guide to Bad Data».

Переклад Олени Нікуліної, редагування Олександра Оксимця

Зауваження щодо перекладу надсилайте на цей імейл.

Ця публікація ліцензована згідно з Creative Commons Attribution-NonCommercial 4.0 International License.

Зміст

1. Рішення проблеми залежить від джерела даних

Частину значень пропущено
Пропущені значення позначені як «0»
Дані пропущені помилково
Рядки та значення дублюються
Непослідовний запис даних
Непослідовний формат запису даних
Не визначено одиниці вимірювання
Недоречно обрані категорії
Неоднозначні назви колонок
Не зазначено походження даних
Дані містять підозрілі значення
Дані агреговані в загальні категорії
Сумарні показники відрізняються від агрегованих даних
Таблиця містить 65536 рядків
Таблиця містить 255 колонок
Таблиця містить дати з 1900, 1904, 1969 чи 1970 років
Текст конвертовано в числа
Числа збережені як текст

2. Рішення проблеми залежить від вас

Текст спотворено
Закінчення рядків змінено
Дані надано у форматі PDF
Дані занадто детальні
Дані були введені вручну
Дані змішані з форматуванням та анотаціями
Узагальнені показники обчислені з урахуванням пропущених значень
Вибірка не є випадковою
Занадто велика похибка вибірки
Невизначена похибка
Упереджена вибірка
Дані були змінені вручну
Інфляція спричиняє відхилення в даних
Природні/сезонні обставини спричиняють відхилення в даних
Маніпуляції з періодом часу в даних
Маніпуляції в порівняннях

3. З рішенням проблеми може допомогти експерт

Дані з сумнівним авторством
Дані зібрані непрозоро
Дані є неправдоподібно точними
Дані містять викиди, які неможливо пояснити
Індекс «приховує» варіацію показників
Методи аналізу підібрано так, щоб гарантовано отримати статистично значущий результат
Дані не підпадають під Закон Бенфорда
Результати занадто гарні, щоб бути справжніми

4. З рішенням проблеми може допомогти програміст

Дані згруповані за неправильними категоріями або локаціями
Дані надано у сканованому вигляді



Зміст

 
 

Коментарі 0

Для того, щоб писати свої коментарі, залогіньтесь! Якщо ви не маєте логіну, тоді спочатку зареєструйтесь, щоб його отримати!