Методика підрахунку підозрілих голосів

Є набір дільниць, на яких відбувається голосування. Їх достатньо велика кількість - тисячі. Коли порушень немає, явка на цих дільницях розподілена по нормальному закону, а її графік - гаусіан. Це - перше твердження, яке я використав в моделі оцінки підозрілих голосів. (див. наприклад Мал. 1 тут)

Далі, графік для суми голосів по всім дільницям з однаковою явкою - теж гаусіан. Це друге твердження вимагає, чесно кажучи, доказу - однак приймемо його на віру, тому що знов таки, в реальних даних спостерігається саме така картина. (теж див. наприклад, Мал. 2 тут)

Для того щоб перевірити, чи немає тут явного проколу, я зробив модель голосування на виборах (використовував R). Взяв реальні дані по розміру всіх дільниць (~33 000 штук), і випадковим чином призначив на них явку, яку вибирав згідно нормального розподілу з параметрами, що близькі до тих, які були на останніх виборах. А саме, з середньою явкою що дорівнює 70%, та з її стандартним відхиленням у 7%.

Далі, будував графік для суми голосів на всіх дільницях з однаковою явкою (в інтервалі 1%). Тобто, в кожній точці X значення графіку - це сума голосів на всіх дільницях, де явка склала величину X. Нижче перед вами результат такого моделювання. Червоним кольором намальований гаусіан, з параметрами що підібрані методом найменших квадратів. Як бачите, співпадіння - ідеальне. Тобто, наше друге твердження підтверджується експериментально.

Симуляція суми голосів

Що відбувається, коли на явку на дільниці штучно впливають? Наприклад, додають "руками" якусь кількість голосів за одного з кандидатів? Це означає, що голоси з цієї дільниці переходят в іншу точку графіку, яка зсунута по осі Х майже на відсоток доданих голосів. Фактично, виникає відмінне від початкового нормальне розподілення. Це - припущення номер три.

Тобто, замість одного одногорбого симетричного графіку, у випадку якщо вибори проходили з порушенням (з штучним збільшенням явки), картинка перетворюється в двогорбий графік, що складається з суми двох гаусіанів: сума голосів з дільниць з однаковою явкою, де не відбувалося порушень, і голоси з дільниць, де порушення були. Площа під цими двома графіками - це загальна кількість голосів відповідно на "чесних", і на "підозрілих" дільницях.

Перевіримо це експериментально на нашій моделі. Для цього, будемо додавати до якоїсь частини від загальної кількості дільниць зайві голоси. Відсоток голосів, які додаються на кожній дільниці - для більшої реалістичності - також задамо нормальним розподіленням.

На графіках - результати такого моделювання "виборів з порушеннями". На перший картинці намальовано, як утворюється другий горб, що відповідає за "підозрілі" дільниці (той горб, що правіше) , за умов коли міняється кількість "підозрілих" дільниць, з штучним збільшенням явки. Гаусіани для двох типів дільниць (чесних і підозрілих)намальовані пунктиром, а їх сума, тобто загальна картинка - суцільною лінією. (Пунктирні гаусіани також підбиралися методом найменших квадратів)

Фальсифікації: зміна форми гауссіана для явки (ручне додавання голосів) на різній кількості дільниць

Різні набори з цих трьох кривих, що задають конкретний тип виборів - змодельовані для підозрілих дільниць у кількості відповідно у 10, 15, 20, 25, 30 відсотків від усіх дільниць. Як видно з картинки, зміна кількості "дільниць з вкиданнями" змінює лише співвідношення між площами під графіками - ці площіі пропорційні усім голосам з чесних і підозрілих дільниць. Тобто, збільшення кількості дільниць з порушенням не зміщує криві відносно одна одної, але лише збільшує площу під правою кривою, яка визначає голоси на підозрілих дільницях (що цілком логічно).

На другій картинці - моделювання різних типів виборів, коли кількість дільниць з вкиданнями - фіксована, а змінюється штучно додана кількість голосів.
Так само, різні набори з 3-х кривих - для параметрів "вкидання" для кожної підозрілої дільниці (таких дільниць у даному випадку обрано 20% від усіх) на рівні 10, 15, 20 тощо відсотків. Видно, що відсоток вкидання зміщує вправо криву для підозрілих дільниць і несильно збільшує її об'єм - що теж цілком логічно.

Фальсифікації: зміна форми гауссіана для явки у залежності від кількості вкинутих голосів (на цей раз кількість дільниць де вкидають - фіксована)

Отже, наша гіпотеза про появу двох гаусіанів на виборах з порушеннями підтверджується моделюванням. Дійсно, в цій статті дані реальних голосувань по всім регіонам можна дуже непогано описати за допомогою суми двух гаусіанів (зверніть увагу на пунктирні криві на мал. 3, 4, 5, 6, 7, та їх суму - суцільна червона крива, яка добре співпадає з реальними даними голосування - чорною лінією)

Тепер висновки з картинок: кількість голосів для правого горба (площа під графіком, який його задає) пропорційна кількості підозрілих дільниць та кількості (відсотку) доданих голосів, таких дільницях.

При цьому, середнє значення (яке співпадає з Х для найвищої точки гаусіана), пропорційно відсотку доданих голосів.

Таким чином, з початкового нормального розподілення голосів на дільницях "висмикуються" дільниці із штучно збільшеною явкою, які створюють нове розподілення. Теж нормальне, однак з іншими параметрами, які залежать від двох факторів - кількості дільниць, де відбувалося "спотворення", і розміру вкидань.

(Взагалі то, як зрозуміло з міркувань симетрії щодо цих двох параметрів, кінцевий двогорбий графік можна задати за допомогою принаймні 2-х різних наборів з двох гаусіанів. Однак оцінити кількість "підозрілих голосів" можливо у будь якому випадку )

Отже - що ми маємо? Площу під правим гаусіаном - тобто загальну кількість голосів з дільниць, де відбувалися підозріле збільшення явки. Однак не всі такі голоси нечесні! Більшість з них - "регулярні" голоси з тих самих дільниць, де відбувалися додавання голосів, а тих що вкинуті - лише незначний відсоток.

Так от, нарешті моя четверта гіпотеза - інваріантом у даному випадку є добуток різниці між середніми значеннями Х для двох горбів, тобто різниця у середній явці між чесними (M1) і підозрілими(M2) дільницями, на площу під правою кривою, яка в свою чергу дорівнює кількості голосів з підозрілих дільниць (S2). Тобто, ми множимо ефективний відсоток вкинутих бюлетнів (різниця між явками) на загальну кількість підозрілих голосів.

Таким чином, формула наступна:
N(підозрілих голосів) ~ S2 * (M2-M1)/100

Знов таки, за результатами моделювання, в широкому діапазоні параметрів ця оцінка є нижньою границею реально вкинутих в моделі голосів з помилкою не більше ніж 20%.

Тобто, кількість реально вкинутих голосів в цій моделі більше або дорівнює кількості, підрахованою за наведеною формулою, з помилкою не більше ніж 20%. Ось так рахувалися підозрілі голоси в статті по результатам другого туру.

На майбутнє, якщо ми знаємо (наприклад від спостерігачів) що основним методом фальсифікацій було вкидання додаткових бюлетнів (або дописування в протоколи), для того щоб оцінити рівень порушень, необхідно - згідно з наведеною формулою:
1. розкласти складну двогорбу криву по кількості голосів у залежності від явки
на суму двох гаусіанів (методом найменших квадратів)
2. знайти площу правого з них (кількість голосів з дільниць під підозрою )
3. Для кожного з гауссіанів знайти явку, яка принесла найбільше голосів (точка на осі х під найвищим значенням горба). Підрахувати їх різницю і поділити на
100.
4. Отриманий коефіцієнт помножити на число з пункта 2. Це й буде кількість "вкинутих"(дописаних) голосів

Всі ці побудови стосуються лише загальної кількості підозрілих голосів, що відносяться до всіх кандидатів. Як визначити кількість підозрілих голосів для конкретного кандидата, і чому не завжди це вдається зробити - читайте в наступному випуску

datavis вибори математика Блог: Суворий Адмін