Я

Якщо в Росії починають говорити про свободу, через пять років там настає гаплик. Дослідження Гугл

1810-1818 роки - це сплеск "свободолюбства" в Російській Імперії, в 1825 році відбулося повстання декабристів. Ще один пік розмов про свободу - початок 1900 років. "Вершина" - революція 1905-06 років. За ним іде сплеск, що пророкує революцію 1917 року та громадянську війну. У СРСР слово "свобода" знову стали активно вживати в середині 1980-х років, під час перебудови. І тут результат той самий - розпад "совка" в 1991 році. Маючи базу даних із двох мільярдів слів у 5,2 мільйонах книжок на семи мовах (в тому числі й російській), розумні хлопці з Google Labs народили ідею - а що як прослідкувати, як змінюється вживання того чи іншого слова з часом?

Автор: Сергій Лук'янчук

Компанія Google наприкінці 2010 року порадувала новим сервісом - Google Ngram Viewer. На відміну від gmail чи Твіттера, він не має особливої утилітарної користі. Зате є унікальним науковим інструментом, який дозволяє отримувати статистичні графіки вживання тих чи інших слів або словосполучень в літературі протягом останніх двох століть. І приходити в процесі цього до вельми цікавих висновків.

Для початку кілька слів про те, як це працює. Свого часу Google запустив проект Google Books - були відскановані мільйони книг з "протермінованими" (виявилося, що в багатьох випадках це не так, але це не стосується теми) авторськими правами, по яких можна було здійснювати пошук так само, як по проіндексованих Google звичайних інтернет-сторінках.

Маючи базу даних із двох мільярдів слів у 5,2 мільйонах книжок на семи мовах (в тому числі й російській), причому по кожній книжці відомо дату її публікації, розумні хлопці з Google Labs народили ідею - а що як прослідкувати, як змінюється вживання того чи іншого слова з часом? І відтворити ці зміни у вигляді графіка, де крива, що відображає зміну частоту слововживання, була б "прив'язана" до часової шкали? Так з'явився Google Ngram Viewer.

N-грама – це термін із статистичної матиматики та лінгвостатистики, який позначає cубпослідовність із N елементів, виявлених у «великій» послідовності. У цьому випадку елементом є слово чи словосполучення, послідовністю – сотні мільйонів слів із текстів книг.

Користуватися цим сервісом елементарно просто - заходите по лінку, вводите слово, вибираєте період часу (максимум - 1800-2000 роки) та мову, і отримуєте результат. Візьмемо, наприклад, слово "ЭВМ".

Як видно, абревіатура на позначення електронних обчислювальних машин активно з'являється у вжитку напередодні 1940-х років, потім спадає до нуля (спасибі таварісчу Сталіну та боротьбі з лженаукою кібернетикою), потім його вживання знову зростає, а в 1990-х роках падає, витіснене запозиченим словом "комп'ютер".

Чекайте, скаже хтось. А що це за "ЭВМ" були в 1840 роках, і що це за "пік" на графіку? Насправді це помилка при розпізнаванні сканованих текстів. А оскільки кількість книг, які припадають на цей період, порівняно мала, статистична вага такого слововживання виливається у "сплеск" на графіку. Під час роботи з Google Ngram Viewer це треба мати на увазі.

І ще один момент - в базі даних знаходяться лише книги, періодики там немає. Але на загальну картину це впливає не дуже сильно.

Спочатку - свобода, потім - гаплик

В першу чергу вкажемо на явище, виявлене нашим другом і колегою @dvrnd. Проаналізувавши частоту вживання слова «свобода», він помітив цікавий феномен: як тільки ця частота зростає, через короткий проміжок часу в Росії стається пизд фундаментальне соціальне чи економічне зрушення.

Подивіться на графік - його точності позаздрила б будь-яка касандра. Пік 1810-1818 років - це сплеск "свободолюбства" в Російській Імперії, пов'язаний із Наполеонівськими війнами. В 1820-х роках імператор Олексадр І почав закручувати гайки, відповідно, "свободи" стало менше і в книжках. Наслідком всіх цих процесів стало повстання декабристів (1825 рік).

Новий період зростання - 1850-ті роки, напередодні скасування кріпацтва. Це, до речі, єдиний випадок, коли "свобода" була сигналом хоч радикальних, але позитивних змін.

Наступний пік на графіку - початок 1900 років, ріст революційних настроїв. "Вершина" - революція 1905-06 років. За ним іде сплеск, що пророкує революцію 1917 року та громадянську війну.

У СРСР слово "свобода" знову стали активно вживати в середині 1980-х років, під час перебудови. І тут результат той самий - розпад "совка" в 1991 році.

А тепер доповнимо графік "свободи" ще одним словом - "порядок".

Ну як вам? До початку 1920-х років "свобода" в російській літературі домінувало над "порядком". Після цього ситуація змінилася кардинально, і залишалася такою весь час - навіть перебудовний сплеск "свободолюбства" не допоміг.

І на завершення - ще один графік, який, схоже, остататочно розставляє крапки над "і" в питаннях пріоритетів. Це 4-грама "свобода", "государство", "власть", "церковь".

Як бачимо, "свобода" - на останньому місці, і такою була завжди. "Церква" програла "владі" і "державі" в проміжку1910-20х років. В 1990-ті вона впритул наблизилася до "держави", але в 2000-х знову пішла донизу.

Розглянемо ще декілька N-грам "суспільно-етичного" спрямування

Вельми цікавий графік дає 2-грама "народ, власть".

Як бачимо, створення "першої в світі держави робітників і селян" таки поставило народ над владою - принаймні, на сторінках книг. А коли ця держава розвалилася в 1991 році, "влада" знову вийшла на перше місце.

А як співвідносилися "бог" і "партія"?

Як бачимо, десь із 1930 років спостерігаємо обернену симетрію - ріст частоти вживання слова "партія" супроводжувався спадом вживання слова "бог", і навпаки. Також звертає на себе увагу нисхідна крива "бога", починаючи з 1990-х років. Схоже, що "богоспрямованість" сучасної Росії є показною - принаймні, на рівні слововживання.

Зате "церква" в ті ж 1990-ті роки здолала "науку" з переконливим відривом.

В історичній публіцистиці досить часто трапляється питання: хто для СРСР мав більше значення, Ленін чи Сталін. Давайте подивимося.

Як бачимо, в суто кількісному вимірі "ленін" значно вищий за "сталіна". Однак якщо "сталінський графік" - це висхідна крива, яка "ламається" і йде донизу після смерті Йосипа Віссаріоновича в 1953 році, то графік по Леніну - така собі "пилка". Перший "провал" - це кінець 1930-х років, розпал чистки "ленінських кадрів", організованої Сталіним. Відповідно, про Леніна і в книжках стали згадувати менше. А от коли почалася війна, схоже, ленінський авторитет знову знадобився - принаймні в літературі. Війна закінчилася - і знову про Леніна стали згадувати менше, Сталіну не було потреби ділитися авторитетом з мавзолейною мумією. І ще - виглядає, що стрімкий спад вживання слова "Ленін", починаючи з 1980-х років, був такою ж ознакою наближення кризи СРСР, як провал радянської економічної моделі та дефіцит товарів народного споживання.

"Хохол" проти "кацапа"

На жаль, проект Google Ngram Viewer не підтримує літературу українською мовою. Тому досліджувати певні українські реалії можливо лише через призму російської літератури. Що ж, це теж інформація.

Для початку розглянемо частоту вживання слова "Україна".

Тут теж помітна майже така сама виразна кореляція, як і в випадку із словом "свобода". Зростання, яке починається на графіку наприкінці 1830-х років і триває до середини 1840-х - це те саме піднесення національної свідомості серед української інтелігенції, проявом якого стало Кирило-Мефодіївське братство. Як відомом, у 1846 році його розгромила влада, почалася хвиля репресій проти українофілів - і це відразу позначилося на вживанні слова "Україна" в текстах.

Друга хвиля піднесення, судячи з усього, пов'язана із ліберальними надіями, що йшли "в пакеті" з надіями на скасування кріпацтва. Однак в 1863 році Валуєвський циркуляр обмежив вживання української мови в освіті, науці та літературі. Наслідок цього видно на графіку. Так само як і наступний "провал" у 1870-х - явний результат Емського указу 1876 року.

В автора немає пояснення, чим зумовлений ще один спад вживання слова "Україна", починаючи з 1890-х років. Може, хтось із читачів підкаже версію. Однак у тому, що наступне за ним зростання було спричинене революційними подіями1905-06 років, сумнівів немає. Цікаво, що в період національно-визвольних змагань 1917-20 років про Україну в книжках знову згадують менше. Справді, коли говорять гармати, мовчать не тільки музи, але й тексти.

Далі жодних загадок немає. З 1920 року - націонал-комунізм, бурхливе зростання. На початку 1930-х цей процес національного відродження був знищений сталінською владою, і на графіку виразно видно, що згадки про Україну в текстах зменшувалися аж до 1940-х років. Після цього - повільненьке зростання і різкий "сплеск" на графіку, пов'язаний із здобуттям державної незалежності.

Ще один прикметний графік - по словах "українець і малорос".

Заради справедливості варто зазначити, що "малорос" у дореволюційному слововживанні збігається із скороченням "малорос." (від малороссийский). Тому тут крива на графіку не претендує на абсолютну точність. Але все одно видно, що приблизно з 1920 року на зміну "малоросам" в російській мові остаточно прийшли українці.

І на завершення мовно-національної теми - 2-грама із словами "хохол" і "кацап".

Цікаво, що поява "хохла" в російськомовних текстах припадає на початок революційних подій 1917 року, а спад цієї тенденції приблизно співпадає з приходом до влади Хрущова, якого росіяни чомусь (неправильно) вважали "хохлом". Також цікаво, що "піки" вживання "хохла" та "кацапа" відповідають один одному - схоже, що ці слова найчастіше вживалися в парі.

Від проституції до космонавтики - і назад

Наведений нижче графік фігурував на багатьох російських блогах, де теж експериментували з Google Ngram Viewer. І використовувався він для наочної демонстрації "падєнія нравов" у пострадянський період.

Тут можна нічого не коментувати - все видно й так.

Не менш вражає графік із словом "честь". Як видно, за 200 років честі (принаймні, на сторінках книг) ставало все менше.

Зате ставлення до грошей мінялося.

На цьому графіку звертає увагу навіть не те, що після Жовтневого перевороту частота вживання слова "деньги" постійно зменшується. А як інакше - декларували ж рух до безкласового комуністичного суспільства з "каждому по потрєбностям". Важливе інше: ріст уваги до грошей припадає не на пострадянський, і навіть не на перебудовний період - він починається 1 1970-х, під час брєжнєвського застою. Це теж мав би бути дзвіночок для Політбюро - але Гуглу в них тоді не було, а якби був, то навряд чи допомігби.

В світлі вчорашнього теракту в аеропорті Домодєдово варто оцінити динаміку вживання слова "терор".

Як бачимо, терор прийшов у тексти російських книжок разом з передреволюційними подіями. І знову повернувся під час перебудови.

І на завершення. Кажуть, що в СРСР сексу не було.

Виявляється, був. Починаючи з 1960-го року. :-)

P.S. Оскільки наведеним вище переліком список цікавих N-грам не вичерпується, редакція пропонує читачам самостійно проаналізувати частоту тих слів чи словосполучень, які ви вважаєте вартими уваги. Результат можна публікувати в коментарях до цієї статті.

________________________

Сайт TEXTY.org.ua існує завдяки пожертвам наших читачів.

Фінансова підтримка кожного з вас дуже важлива для нас. Звертаємося з проханням здійснити пожертву на підтримку ТЕКСТІВ.

Наш рахунок на ПейПел: ykarchev@gmail.com

Наш гаманець у гривнях на ВебМані

U336801545841

Гроші на рахунок можна слати і на телефон

096 551 68 93 - це Київстар

, телефон тільки для збору пожертв, зв'язатися з нами можна по емейлу texty.org.ua равлик gmail.com

Якщо ви зробили пожертву, то просимо повідомити нас по емейлу texty.org.ua равлик gmail.com і вказати, на яку платіжну систему ви переслали кошти

література наука мова

Знак гривні
Знак гривні