Карл Броман. Організація даних у таблицях
Програмне забезпечення для роботи з таблицями — популярний вибір для введення, зберігання, аналізу та візуалізації даних. Фокусуючись передусім на введенні та зберіганні даних, цей посібник дає практичні поради, як організувати дані у форматі таблиць таким чином, щоб уникнути помилок та зробити зручним процес аналізу.
Головні принципи: будьте послідовними, записуйте дати у форматі YYYY-MM-DD, не залишайте клітинки порожніми, в одній клітинці лишайте одне значення, створюйте прямокутні таблиці, створіть «словник даних», не включайте обчислення до файлів із сирими даними, не використовуйте колір шрифту та фон тексту, обирайте доречні назви для об’єктів у таблиці, робіть копії, використовуйте валідацію даних, щоб уникнути помилок, та зберігайте дані в текстовому форматі.
Ключові слова: управління даними, організація даних, Microsoft Excel, таблиці (табличний формат даних).
Переклад з англійської: Олена Нікуліна, редагування: Олександр Оксимець, texty.org.ua
Оригінал: Karl Broman. Data Organization. Organizing Data in Spreadsheets
* * *
Про автора
Карл Броман є професором відділу біостатистики та медичної інформатики в Університеті Вісконсин-Медисон.
Карл є старшим та академічним редактором у наукових виданнях «Genetics» і «PeerJ», а також членом редакційної колегії «BMC Biology».
Серед наукових інтересів Карла Бромана — прикладна статистика у сферах генетики та геноміки, зокрема QTL-картографування. Карл розробляє спеціальне програмне забезпечення для інтерактивних візуалізацій великих обсягів генетичних даних на мові програмування R (R/qtl).
З прикладами робіт автора можна ознайомитись за посиланнями:
- для проектів на R
- для проектів на D3
Зміст
Вступ
Будьте послідовними
Записуйте дати у форматі YYYY-MM-DD
Не залишайте клітинки порожніми
В одній клітинці — одне значення
Створюйте прямокутні таблиці
Створіть «словник даних»
Не включайте обчислення до файлів із сирими даними
Не використовуйте колір шрифту та фону тексту
Обирайте доречні назви для об’єктів у таблиці
Робіть копії
Використовуйте валідацію даних, щоб уникнути помилок
Зберігайте дані в текстовому форматі
Чого ще не варто робити
Рекомендації
Вступ
Співробітники часто запитують мене: «В якому форматі ти хотів би отримати дані?». На що я зазвичай відповідаю: «У такому, як вони є!». Якщо дані потрібно реформатувати, то завжди краще, щоб я написав один скрипт, ніж розпорядники даних багато разів підряд робили «copy-paste». Я переконаний, що аналітики повинні вміти опрацьовувати будь-які файли з даними, які вони можуть отримати.
Разом із тим я часто змушений витрачати справді чимало часу на написання скрипту для підготовки даних для аналізу. Це порушує питання: як мають витрачати свій час аналітики даних — готуючи дані до аналізу чи насправді аналізуючи дані?
Більшість моїх колег зберігають дані в таблицях, особливо в Microsoft Excel. Організація даних у таблиці — важливий етап, від якого багато в чому залежатиме «якість життя» для вас як аналітика даних у майбутньому. Тож перед тим, як почати заносити дані до таблиці, варто витратити трохи часу на те, щоб обдумати майбутню структуру.
Цей посібник покликаний дати відповідь на запитання: як організувати дані в таблиці? Таблиці є оптимальним рішенням для багатьох проектів, якщо йдеться не про складні, багатовимірні набори даних. Для останніх якраз варто використовувати бази даних. Варто пам’ятати, що від того, як ви організуєте свої дані, залежатиме те, чи будуть ваші таблиці структурованими та зручними для подальшої роботи, чи ж будуть повним безладом, який потребуватиме довгих годин реорганізації та підготовки.
Я не впевнений, що принципи організації даних, викладені в цьому посібнику, очевидні для всіх. Якщо вас не задовольняє те, як зараз виглядають ваші дані, — це ще не привід впадати у відчай! І не привід вдаватися до виснажливого ручного очищення даних, яке призводить до нових помилок. Краще спробуйте застосувати ці принципи наступного разу, коли будете організовувати новий набір даних, щоб зробити своє життя простішим.
Будьте послідовними
Перше правило організації даних — будьте послідовними.
• Використовуйте сталі позначення для категорійних змінних. Наприклад, для категорійної змінної стать (aнгл. sex) застосовуйте єдине спільне значення для чоловіків (наприклад, «male») та жінок (наприклад, «female»). При цьому важливо дотримуватись регістру й не використовувати різні варіації написання (наприклад, «male» та «Male»). Оберіть один варіант та дотримуйтеся його.
• Використовуйте одне й те саме позначення для всіх пропущених значень. Я прихильник заповнення кожної клітинки таким чином, щоб було зрозуміло, де дані пропущені навмисно, а де внаслідок помилки (більше про це ми розповімо пізніше). Користувачі мови програмування R зазвичай використовують позначення «NA». Ви також можете використовувати дефіс (-). Найважливіше — це дотримуватись одного формату позначень в усьому масиві. Точно не варто використовувати числові значення, наприклад -999 або 999, оскільки так згодом буде важче виокремити, де дані були пропущені навмисно. Також не варто вставляти коментар із поясненням, чому дані відсутні, на місце порожньої клітинки. Краще зробити окрему колонку для таких коментарів.
• Використовуйте сталі назви змінних. Наприклад, якщо в одному файлі (або в частині даних) є змінна з назвою «Glucose_10wk», необхідно весь час дотримуватись цієї ж назви. Якщо ж певна змінна в різних частинах масиву матиме різні назви, наприклад: «Glucose_10wk», «gluc_10weeks», «10 week glucose», аналітику даних доведеться попрацювати, щоб уніфікувати назву. (Більше про назви змінних ви знайдете у відповідному розділі).
• Використовуйте сталі ідентифікатори. Якщо один і той же об’єкт у даних буде іноді позначений як «153», а іноді — як «mouse153» чи навіть «mouse-153F», то при аналізі доведеться докласти додаткових зусиль, щоб зрозуміти, «хто є хто».
• Використовуйте одну й ту ж саму структуру даних у різних файлах. Якщо ваші дані представлені у кількох файлах, важливо використовувати одну й ту саму структуру в кожному випадку. (Про структуру даних ми розповімо у відповідному розділі).
• Використовуйте схожі назви файлів. Сформуйте систему називання файлів та дотримуйтесь її. Наприклад, якщо один файл має назву «Serum_batch1_2015-01-30.csv», то не варто називати наступний файл на кшталт «batch2_serum_52915.csv». Краще написати назву за тим же принципом, як ви робили з першим файлом, тобто «Serum_batch2_2015-05-29.csv». (Більше про назви файлів ви знайдете у відповідному розділіВикористовуйте сталий формат для дат. Краще використовувати такий формат запису дат: YYYY-MM-DD, тобто 2015-08-01. При цьому також важливо дотримуватись одного й того ж формату. Якщо ж ви будете іноді записувати дати, наприклад, ось так: 8/1/2015, а потім так: 8-1-15, ви ризикуєте створити собі проблеми в майбутньому. (Більше про внесення дат у таблицю з даними ми розкажемо у відповідному розділі).
• Використовуйте сталі формулювання в коментарях. Якщо ви вирішили виокремити окрему колонку для коментарів (наприклад, таких як «dead» чи «lo off curve»), важливо бути послідовними і у формулюваннях, які ви в них використовуєте. Не варто спочатку писати «dead», а пізніше «Dead» чи, наприклад, «lo off curve», а згодом «off curve lo». Оберіть один формат та послідовно дотримуйтеся його.
• Будьте обережними з пробілами у клітинках. Пуста клітинка і клітинка, яка містить пробіл (клавіша «space»), — це не одне й те ж саме. Так само як і «male» та « male » (з пробілами перед першою літерою та після останньої) — це не одна й та ж сама назва. Використання подібних варіацій в одному масиві може спричинити багато проблем на етапі аналізу даних.
Записуйте дати у форматі YYYY-MM-DD
Перед тим, як почати розмову про формат дат, подивіться на цей xdcd комікс:
Excel здатен зробити з датами справді дивні речі. Наприклад, автоматично вставляти дати як цілі числа, відраховуючи дні від 1900-01-01. І це лише для Windows, для Mac дати рахуються з 1904-01-01.
Тож при роботі з даними, що містять дати, варто бути уважними і перевірити, чи вони не були змінені в Excel.
Excel також може перетворювати інші об’єкти в дати:
Зазвичай при роботі з таблицями Excel я використовую текстовий формат для колонок, які будуть містити дані, щоб уникнути таких ситуацій. Зробити це дуже просто:
● Оберіть потрібну колонку
● У меню оберіть «Формат → Клітинки» (англ. Format → Cells)
● Зліва оберіть опцію «Текст» (англ. Text)
Як альтернативний варіант, ви можете створити три різні колонки для року, місяця та дня. Тоді дані в цих колонках будуть звичайними цілими числами, і Excel не буде їх змінювати.
Головна порада: будьте послідовними в тому, як ви записуєте дати. Завжди використовуйте формат >YYYY-MM-DD, як у коміксі вище (або створюйте різні колонки для року, місяця та дня).
У мене завжди на видному місці є стара таблиця Excel, що виглядає приблизно так:
Я вже не пам’ятаю, що малося на увазі під «e», але використання різних форматів запису дат може спричинити головний біль при подальшій роботі.
Тому дбайте про те, як ви вносите дати до таблиці, та будьте послідовними.
Не залишайте клітинки порожніми
Заповнюйте клітинки. Використовуйте сталі позначення для клітинок із пропущеними значеннями. Не всі аналітики погоджуються з цим правилом (наприклад, Вайт та інші рекомендують залишати пусті клітинки). Проте я рекомендую позначати «NA» або дефіс у клітинках, що містять пропуски, щоб потім можна було легко визначити, де дані відсутні від початку, а де пропущені внаслідок помилки.
Я часто отримую таблиці, в яких залишають незаповненими клітинки після значення, що повторюється. Наприклад, як у цій таблиці:
Не робіть цього! Це призведе до того, що при сортуванні рядків дані будуть змінені.
Набагато кращим рішенням буде заповнити ці клітинки так:
Ця помилка дуже поширена в таблицях із даними про різні процедури. Наприклад, останнім часом я мав справу з кількома таблицями з подібною структурою:
Ми ще детальніше поговоримо про структурування даних у відповідному розділі, але вже зараз треба прояснити головну проблему з такими таблицями: інформація в такому вигляді здебільшого зрозуміла для людей, проте не для комп’ютерів.
Ви можете заповнити деякі з цих клітинок, щоб зробити структуру таблиці більш зрозумілою, але ще кращим рішенням буде надати даним «акуратний» вигляд. Для цього потрібно, щоб значення повторювалось у кожному потрібному рядку, як у цьому прикладі:
Не залишайте клітинки порожніми!
В одній клітинці — одне значення
Кожна клітинка у вашій таблиці має містити лише одне значення.
Наприклад, уявімо, що у вас є таблиця «plate position». У цій таблиці може бути колонка «plate-well» зі значенням «13-A01». Вдалим рішенням буде розділити цю колонку на дві: «plate» та «well», яким відповідатимуть значення «13» та «A01». Або навіть розділити колонку «plate-well» на: «plate», «well_row» та «well_column» (з відповідними значеннями «13», «A» та «1»).
Ви також можете піддатися спокусі додати одиниці виміру до даних, наприклад: «45 g». Більш вдалим рішенням буде записати просто 45 та зазначити одиниці виміру в назві колонки, наприклад: body_weight_g. Ще кращою ідеєю буде залишити назву колонки як body_weight та вказати одиниці виміру в окремому словнику даних.
Поширеною ситуацією є також додавання коментарів просто всередину клітинки з даними, наприклад: «0 (нижче порогового значення)». Краще натомість створити додаткову колонку з коментарями.
Отже, ще раз: не об’єднуйте клітинки. Це може виглядати гарно, проте це призводить до порушення важливого правила — не залишати клітинки пустими.
Створюйте прямокутні таблиці
Найкраща структура для ваших даних — це таблиця у вигляді великого прямокутника, в якому в рядках розташовані змінні, а в колонках — значення. Перший рядок має містити назви змінних. (Будь ласка, не робіть більш ніж один рядок для назв змінних).
До прикладу:
Певні масиви даних може бути складно структурувати у вигляді прямокутної таблиці з рядками та колонками. Для таких випадків зазвичай можна створити декілька прямокутних таблиць і помістити їх у книгу Excel із окремими аркушами для кожної таблиці. При цьому існують і такі масиви даних, які неможливо структурувати навіть у набір прямокутних таблиць. Для таких випадків варто відмовитися від використання таблиць як таких, оскільки формат таблиць за своєю суттю — це формат прямокутника.
Зазвичай я отримую файли з даними, які не структуровані у вигляді прямокутних таблиць. Ще частіше дані в них розпорошені, наприклад як у цьому випадку:
Або в цьому:
В обох випадках аналітику спершу доведеться вивчати наявну структуру даних, потім виявляти, що все це означає, а вже після цього витрачати час ще й на реструктурування даних.
Ще один недавній приклад із моєї практики: файл із даними, де для кожного об’єкта спостереження створена окрема таблиця зі складною структурою:
У таких випадках варто подивитися, чи всі таблиці мають однакову структуру. Якщо так, то краще виокремити необхідну інформацію та структурувати її в консолідовану прямокутну таблицю (я б для цього написав скрипт на python або ruby). Проте через це таблиця буде захаращеною обчисленнями, такими як середні значення, стандартне відхилення тощо. На мій погляд, навіть при вводі даних легше винести всі вимірювання в окрему таблицю.
Іноді буває досить складно знайти спосіб реорганізувати дані у формат прямокутної таблиці. До прикладу:
У цьому випадку структура даних схожа на прямокутну таблицю, тому, здавалося б, можна просто заповнити пусті клітинки таким чином:
Проте повторювати значення ваги у такий спосіб буде неправильно. Краще зробити дві різні таблиці: одну — для показника ваги, а другу — для інших вимірювань (наприклад, глюкозотолерантний тест під час аналізів на живих істотах: мишам дають трохи глюкози, а потім вимірюють рівень глюкозної сироватки та інсуліну в різні часові проміжки).
У підсумку отримаємо таку таблицю з показниками ваги:
Тоді інша таблиця міститиме інформацію про показники тестування на толерантність до глюкози й виглядатиме так:
Звісно, я не можу залишити коментарі («lo off curve» та «off curve lo») прямо в таблиці, тому краще буде замінити їх на «NA» у відповідних клітинках та додати окрему колонку з коментарями.
У підсумку ми отримали приклад «акуратних» даних (більше про це — у публікації від Hadley Wickham): кожен рядок відповідає окремій одиниці, яка зазвичай відповідає певному об’єкту спостереження, проте в нашому випадку відповідає показникам аналізу об’єкта. Структурування даних в «акуратний» формат може значно полегшити аналіз у майбутньому. Проте найважливішим принципом є навіть не це, а дотримання структури прямокутної таблиці.
Ще одна поширена проблема — використання двох рядків для заголовків:
Також часто трапляється використання об’єднаних клітинок. Так, у цьому прикладі клітинка «week 4» об’єднана з двома наступними клітинками для того, щоб текст був розташований по центру над трьома колонками «date», «weight» та «glucose».
На мій погляд, кращим рішенням буде розташувати інформацію за тижнями над назвами змінних:
Ще кращою ідеєю буде зробити «акуратний» масив даних, де кожен рядок відповідатиме спостережуваному суб’єкту в певний день, що виглядатиме так:
Створюйте прямокутні таблиці! (ви також можете створити набір прямокутних таблиць, хоча працювати з ними буде не так зручно, як із однією консолідованою таблицею).
Створіть «словник даних»
При роботі з даними корисно мати окремий файл із поясненнями змінних. Ще корисніше, якщо цей файл буде структурованим у форматі прямокутної таблиці так, щоб його можна було використати при аналізі.
Словник даних має включати:
● точну назву змінної в тому вигляді, в якому вона використовується в масиві даних;
● розширене пояснення, що означає кожна змінна;
● одиниці виміру;
● очікувані мінімальні та максимальні значення (опціонально)
Це частина метаданих, тобто інформації про дані, яку вам варто підготувати. Також може бути корисним сформувати окремий файл ReadMe, який міститиме огляд проекту та даних.
Нижче наведено приклад такого словника даних:
Зверніть увагу, що він також структурований у форматі прямокутної таблиці. У першій колонці — назви змінних. Друга містить більш «читабельну» версію назв змінних (у такому вигляді їх можна використовувати, наприклад, при візуалізації даних). Третя колонка вміщує категорії, в які згруповані змінні (що також можна використати при візуалізації даних). Остання колонка містить опис.
До цієї таблиці можна також включити іншу інформацію. Наприклад, про очікувані значення змінних, щоб використовувати при визначенні помилок при введенні даних.
Не включайте обчислення до файлів із сирими даними
Я часто отримую від колег файли Excel, що включають різні обчислення та графіки. На моє переконання, базовий файл із даними має містити лише дані й нічого більше: ніяких обчислень та графіків.
Якщо ви робите обчислення прямо у файлі з даними, це передбачає, що ви часто відкриваєте файл та додаєте туди інформацію. Все це збільшує ризик того, що ви можете мимоволі додати непотрібні значення чи допустити одруківки у файлі з даними.
(Чи траплялося з вами таке: ви відкриваєте файл Excel та починаєте друкувати, проте нічого не відбувається; тоді ви обираєте якусь клітинку і починаєте друкувати знову. Куди подівся весь цей текст? Цілком можливо, що залишився в якійсь випадковій клітинці. Ви могли цього не помітити, проте це точно буде помітно під час аналізу.)
Ваш базовий файл із даними має бути незайманим сховищем даних. Робіть захист від запису, зберігайте копії й не змінюйте файл без потреби.
Якщо ви все ж вирішили зробити аналіз в Excel, створіть окрему копію файлу, в якій будете робити всі обчислення та будувати графіки.
Не використовуйте колір шрифту та фону тексту
При роботі з даними у вас може виникнути спокуса виділити кольором окремі клітинки з сумнівними значеннями або рядки, які потрібно проігнорувати. Піддаватися цій спокусі не варто. Краще створіть окрему колонку з індикатором змінних (наприклад, це може бути колонка з назвою "trusted", в якій даним відповідатимуть значення TRUE чи FALSE).
У прикладі нижче наведено таблицю, в якій сумнівні значення виділені кольором:
Кращим рішенням було б додати окрему колонку, в якій будуть вказані викиди (значення поза інтервалом між мінімальним та максимальним очікуваним значенням). Виділення кольором добре виглядають візуально, проте вони не є ефективним джерелом інформації для подальшого аналізу даних.
Нижче наведено приклад таблиці, де дані про чоловіків позначені блакитним кольором, а про жінок — рожевим. Замість того, щоб використовувати виділення кольором для розподілу за статтю, набагато краще було б просто додати колонку з назвою sex, яка включатиме значення Male та Female.
Обирайте доречні назви для об’єктів у таблиці
Вибір доречної назви для об’єктів у таблиці — дуже важлива частина структурування даних. Це може виявитись непростим завданням, однак у перспективі зекономить купу часу та зусиль.
Базове правило — не використовуйте пробіли: ні в назвах змінних (це назви колонок у вашій таблиці), ні в назвах файлів. Пробіли ускладнюють процес написання коду: аналітику доводиться включати все в подвійні лапки. Наприклад, замість того, щоб написати просто назву glucose_6_weeks, аналітику доведеться писати "glucose 6 weeks". У випадках, де ви вважаєте за потрібне використати пробіли, використовуйте нижні підкреслювання або дефіс. При цьому важливо не забувати про правило бути послідовними та неухильно дотримуватись одного обраного варіанту написання.
Будьте обережними із зовнішніми пробілами (наприклад, на початку або в кінці назви змінної). Так, «glucose» — це не те ж саме, що і «glucose » (у цьому випадку зовнішній пробіл додано в кінці назви). Зовнішні пробіли можуть спричинити проблеми при майбутньому аналізі.
Також варто уникати використання спеціальних символів (за винятком нижніх підкреслювань та дефісу). Такі символи, як $, @, %, #, &, *, (, ), ! тощо часто мають власне значення в синтаксисі мов програмування, що також може спричинити труднощі. Крім того, їх трохи важче набирати на клавіатурі.
Головний принцип у присвоєнні назв (незалежно від того, називаєте ви змінну чи файл) — це принцип коротко та ємко. Проте не занадто коротко.
У занятті з використання таблиць від Data Carpentry наведена вдала таблиця з прикладами недоречних та доречних назв змінних:
Я згоден з усім у цій таблиці. Можливо, я б навіть пішов далі і прибрав великі літери так, щоб назви виглядали як max_temp, precipitation та mean_year_growth.
Насамкінець: ніколи не пишіть слово «final» у назві файлу. Скоріше за все він не буде остаточним і ви матимете ще кілька «остаточних версій на кшталт «final_ver2». Тут я не можу не згадати цей комікс PhD від Хорхе Чема:
Робіть копії
Регулярно зберігайте копії ваших даних у різних сховищах.
У будівлі, де я працював кілька років тому в університеті Вісконсіну, сталася пожежа. У статті в місцевій газеті про цей випадок наводили цитату одного з аспірантів: «Єдина копія моєї дисертації була там!» Не допустіть того, щоб подібна ситуація сталася з вами.
Задля того, щоб спростити процес створення копій, ви можете використовувати розподілені системи керування версіями файлів, наприклад git (хоча варто визнати, що ця система не є найзручнішою опцією для роботи з файлами з даними). Якщо ви шукаєте більш витончене рішення — зверніть увагу на dat.
Зберігайте всі версії файлу з даними для того, щоб у разі, якщо частина даних буде втрачена чи пошкоджена (наприклад, ви можете почати набирати щось поверх даних і не помітити цього одразу), ви з легкістю могли відновити втрачене. Для цього, перед тим як ви почнете додавати дані до таблиці, зробіть копію файлу та зазначте номер нової версії в назві: file_v1.xlsx, file_v2.xlsx, …
Якщо ви активно наповнюєте файл даними, а особливо коли ви закінчили з уведенням даних, зробіть захист від запису. Таким чином, ви не зможете внести непотрібні зміни випадково. Зробити це можна так:
● Якщо ви використовуєте Mac, оберіть файл правою кнопкою миші у Finder та оберіть опцію «Досьє» (англ. Get Info).
● Якщо ви використовуєте Windows, оберіть правою кнопкою миші потрібний файл у Windows Explorer та оберіть опцію «Властивості» (англ. Properties). У вкладці «Загальні» (англ. General), у секції «Атрибути» (англ. Attributes) оберіть опцію «Тільки читання» (англ. Read-only) та натисніть «ОK».
Робіть копії своїх даних!
Використовуйте валідацію даних, щоб уникнути помилок
У мене не надто великий досвід введення даних. (Так, був і такий період, але це рахується з натяжкою). Тож я не можу дати багато порад щодо того, як зробити це без помилок та стресу.
Але я можу порадити використовувати функцію «валідація даних» (англ. data validation) в Excel, яка може суттєво допомогти при введенні даних. Особливо корисною є можливість задати тип даних та значень, які користувач може вводити у клітинки. Для цього:
● Оберіть потрібну колонку
● У меню оберіть «Дані» → «Валідація» (англ. Data → Validation)
● Оберіть потрібний критерій валідації, наприклад:
- ціле число в певному діапазоні
- десяткове число в певному діапазоні
- список можливих значень
- текст із лімітом кількості символів
Ви також можете обрати певні типи даних для колонок (наприклад «Текст»), щоб уникнути того, що Excel змінить вигляд дат. Я вже згадував про таку проблему в розділі про введення дат, але це варто наголосити знову. Для того, щоб обрати тип даних для колонок:
● Оберіть потрібну колонку
● У меню оберіть «Формат» → «Клітинки» (англ. Format → Cells)
● Оберіть опцію «Текст» зліва (англ. Text)
На перший погляд, це може здатись громіздким, але так ви зможете уникнути помилок при введенні даних.
Зберігайте дані в текстовому форматі
Зберігайте ваші дані в текстовому форматі з розділенням комою або табуляцією. В основному я використовую розділення комою (формат CSV).
Тож ви отримаєте таблицю на кшталт такої:
У текстовому форматі вона виглядатиме так:
Звісно, в цьому варіанті дані виглядають не так гарно, але потрібно просто відкрити файл в Excel, щоб повернутись до гарної структурованої таблиці. Що найважливіше, відкритий формат файлів не потребує спеціального програмного забезпечення.
Зазвичай перше, що я роблю з Excel файлами, — це конвертую їх у CSV-формат (окремий файл для кожної таблиці), що потім полегшує процес написання коду.
Якщо ж якась клітинка у ваших даних містить коми, Excel при збереженні файлу у форматі CSV помістить ці значення в подвійні лапки. Це потребуватиме більш витонченої роботи при аналізі, проте не створить значних проблем.
Щоб зберегти Excel файл у форматі CSV з роздільником комою, виконайте такі дії:
● У меню оберіть «Файл → Зберегти як» (англ. File → Save As)
● Далі в меню «Формат» (англ. Format) оберіть із випадного списку «Comma Separated Values (CSV)»
● Натисність «Зберегти» (англ. «Save»)
● Excel відповість щось типу «Ця книга може містити можливості, несумісні..» (англ. «This workbook contains features that will not work...»). Проігноруйте це та натисніть «Продовжити» (англ. Continue).
● Закрийте Excel. Excel запитає вас, чи «Ви справді хочете зберегти внесені зміни?» (англ. «Do you want to save the changes you made?»). Оберіть «Не зберігати» (англ. «Don’t Save»), оскільки ви вже зберегли їх на попередньому кроці. (Excel справді старається переконати вас не використовувати будь-який інший формат).
Варто відзначити, що також існує опція зберегти файл із роздільником табуляцією – для цього потрібно при збереженні у випадному списку обрати «Текст, розділений комами» (англ. «Tab Delimited Text»). Багато людей надають перевагу такому формату текстових файлів із даними. (Хоча особисто я не є прихильником роздільника табуляцією тому, що кілька «табів», що йдуть поряд, важко розрізнити візуально).
Також потрібно усвідомлювати: якщо ваш файл Excel справді містить особливості, які будуть несумісні з CSV, це стане проблемою. Тому краще не використовувати їх у вашому базовому файлі з даними.
Я зазвичай використовую вертикальну риску (|) як роздільник між полями таблиці, оскільки цей символ майже не трапляється в самих даних, проте такий варіант зберігання файлу недоступний в Excel.
Чого ще не варто робити
У цьому розділі я наведу ті речі, які також не варто робити при організації з даними, які не були згадані раніше, але заслуговують на увагу:
● Якось мені довелось отримати файл із даними про експресію генів мікрообертання, в якому генетичні ідентифікатори були записані як довгі цілі числа. При збереженні в Excel ідентифікатор 1000000 змінився на 1e6, що, звісно ж, призвело до невідповіднрсті даних у файлі та опису генів.
● Я не використовую функцію «Розділити» вікно (англ. Split) в Excel (у меню: Window → Split). Багато моїх колег використовували цю функцію, проте мене це зводило з розуму. Щоб позбутися розриву, оберіть «Вікно» → «Скасувати розділення» (англ. Window → Remove Split).
З іншого боку, мені подобається опція «Закріпити панелі» (англ. Freeze Panes) в Excel. Для того, щоб закріпити область: виділіть клітинку В2 та оберіть Вікно → Закріпити панелі (англ. Window → Freeze Panes). Тепер, коли ви переходитимете вниз або вправо по таблиці, значення у верхньому рядку (з назвами колонок) та в першій колонці (зазвичай містить індивідуальні ідентифікатори) залишаться на видноті.
● У занятті з використання таблиць від Data Carpentry згадана інша поширена помилка: коли нульові значення не вносяться до таблиці. Інколи користувачі вносять до таблиці лише ненульові значення, залишаючи клітинки, які відповідають нульовим значенням, пустими. Не робіть цього! Нулі — це також дані, як і інші значення, і є так само важливими для аналізу.
Рекомендації
Цей посібник є мінімумом, з якого варто почати. Для поглиблення знань та навичок ви можете звернутися до інших джерел:
● Leek Group guide to data sharing
● Data Carpentry lesson on using spreadsheets
● Releasing statistics in spreadsheets (pdf) від UK Government Statistical Service
● Hadley Wickham’s paper on tidy data
● Video of Hadley Wickham talking about tidy data
● EP White et al. (2013) Nine simple ways to make it easier to (re)use your data. Ideas Ecol Evol 6:1-10
● 3 common bad practices in sharing tables and spreadsheets and how to avoid them