Výsledky voleb v ČR aneb když otevřená data fungují na 1*
, Michal ŠkopJe 28. 1. 2023 14:27 a Michal Kubal s Marcelou Augustovou právě v České televizi říkají, že v prezidentských volbách jsou sečteny 3,5 % okrsků, 52 tisíc hlasů a s 53 % vede Petr Pavel. Ale je to “zatím malá ochutnávka, která se výrazným způsobem může měnit”. V té chvíli ale už čtenáři Seznam Zpráv vidí v článku s predikcí výsledků, že novým prezidentem se s jistotou více jak 99 % stane Petr Pavel. To bylo možné jen díky otevřených datům!
Predikce výsledků
V 14:37 v ČT politolog Jaroslav Bílek říká na otázku, zda už z průběžných výsledků lze něco vykládat: “Já bych byl stále opatrný, protože křišťálovou kouli jsem nechal doma.” Ale statisíce uživatelů Seznamu v té době měly už 5 minut na mobilu notifikaci, kdo tyto volby vyhrál. A několik minut poté se totéž dozvěděli také diváci televize CNN Prima na základě predikce agentur STEM a STEM/MARK.
Dlouhá léta bylo sčítání voleb spojeno s grafy Marcely Augustové v České televizi, která komentovala do té doby sečtené výsledky. A tak zpočátku byly výsledky hlavně za malé obce a volební okrsky, které jsou nejrychleji sečteny, čekalo se na to, až začnou chodit výsledky z velkých okrsků ve velkých městech. A mezi tím se experti ve studiu snažili komentovat dosavadní výsledky.
Tahle doba už se nevrátí.
Prezidentské volby ukázaly, že lepší než průběžné výsledky je mít predikci výsledků. A že takové predikce fungují dobře až extrémně dobře. Výsledky lze velmi přesně odhadnout z pár procent sečtených hlasů.
Obecně tyto predikce vycházejí z toho, že jsou dostupná otevřená data České statistického úřadu z minulých voleb (a to až na úroveň okrsků) a lze tak sestavit a otestovat různé modely, které předpovědí konečné výsledky z výsledků průběžných.
Médii proběhl případ predikce výsledků od firmy Blindspot.ai: lidé stojící za otevíráním dat o takovém použití dat mluví dlouhá léta, když argumentují, proč je otevírání dat výhodné: “Zveřejněte data a někdo nečekaně přijde a použije je způsobem, který byste sami nevymysleli.”
A tak zatímco média jsou jasně předpokládaným zpracovatelem otevřených dat o volbách, obtížně bylo tipovat, že dalším uživatelem bude firma, která se jinak zabývá např. efektivním využitím prostoru v dopravních kontejnerech nebo optimalizací přepravních tras.
Zároveň ale uměla použít detailní data poskytovaná ČSÚ o volebních výsledcích a sestrojit velmi přesný predikční model konečných výsledků voleb na základě aktuálně sečtených okrsků. A ať již byla jejich motivace jakákoliv - snaha vyzkoušet si takové modelování, služba pro veřejnost nebo netradiční upoutávka na své služby (a nejspíše mix více věcí) - tato predikce se dostala ať už přímo, přes sociální sítě nebo skrz média ke statisícům lidí.
A vznikly i další predikce výsledků: Český rozhlas měl svoji ve spolupráci se statistiky z MFF UK. Před 5 lety zveřejnil průkopnickou predikci prezidentských voleb Medianu, letos na ni navázali v rámci predikce již jako PAQ Research.
Se znalostí konečných výsledků lze vidět, že některé byly přesnější než jiné, ale všechny byly velmi dobré a výrazně předčily pouhé průběžné výsledky sčítání. A to vše poháněno otevřenými daty ČSÚ.
Analýzy
Velmi rychle se objevily také detailní analýzy právě proběhlých voleb. Ještě v ten samý den si mohli lidé prohlížet detailní výsledky za svoje nebo okolní volební okrsky v mapách. Také získat přehled, koho volili voliči neúspěšných kandidátů v prvním kole. Následující dny tyto mapy a analýzy probublaly dál, třeba i do tištěných novin.
ČSÚ nově publikuje i hranice volebních okrsků jako otevřená data. To také napomohlo tomu, že mapy výsledků či volební účasti se postupně objevily snad ve všech médiích. Stejně tak publikuje hranice volebních okrsků i ČÚZK.
Použitá data
Základní kámen pro jakoukoliv prezentaci nebo analýzu volebních výsledků jsou otevřená data Českého statistického úřadu.
Pro jednoduché zobrazování aktuálních výsledků jsou k dispozici data za celou ČR ve formátu XML, ale poté to jde přes kraje, okresy, obce až na detailní úroveň jednotlivých volebních okrsků. Tato poslední úroveň se obvykle používá pro predikce konečných volebních výsledků.
Během večera ještě ČSÚ dodává kompletní výsledky v dalších formátech (pro další strojové zpracování je nejdůležitější CSV, pro ostatní XLS).
Postup zpracování
Ukážeme zde jednoduchý příklad zpracování právě sčítaných dat z volebních okrsků a výpočet průběžných výsledků. Budeme používat Python s knihovnou Pandas. Data s výsledky z jednotlivých volebních okrsků ČSÚ poskytuje po dávkách, vždy po 5 minutách.
Nejprve je potřeba dostat data ze souborů XML. Na to nám může posloužit parser, který pro nás napsal ChatGPS. Tím dostaneme data do struktury Dataframe, což je základní datová struktura knihovny Pandas.
A na nejjednodušší výpočet sečtených hlasů z této dávky nám potom stačí doslova pár řádek kódu:
pivot = df.pivot_table(values='HLASY', index=['KSTRANA'], aggfunc=np.sum)
results = pivot.T / pivot.T.sum().sum() * 100
Při skutečném použití by samozřejmě toho kódu bylo o něco více, ale tohle je ukázka, že základ je opravdu jednoduchý.
Výsledek
Díky snadné a rychlé dostupnosti dat a jejich snadnému zpracování se mohou do práce s volebními výsledky zapojovat další - firmy, jednotlivci, školy.
Volební data jsou tak názornou ukázkou, jak otevřená data demokratizují informace - ještě zhruba před deseti lety měly na poskytování a interpretaci volebních výsledků takřka monopol velká média. Dnes stejné informace umějí zpracovat a předat lidem třeba i studenti střední školy, jak ukazují průkopníci ze SŠZP Klatovy.
Další užití
Prezidentské volby jsou ostře sledované. Média se jim věnují měsíce dopředu. Ale stejné metody a postupy se dají použít i na méně sledované (a o to komplikovanější) volby.
Např. predikce výsledků voleb už byla použita při komunálních volbách 2022 pro největší města a městské části.
Jak připravit různé mapy výsledků voleb a jak s volebními daty dělat některé pokročilejší analýzy už jsme ukazovali i v těchto článcích.
Je na místě říci, že díky nadprůměrné spolupráci celého ekosystému - od státních sféry zde reprezentované ČSÚ a MVČR přes akademický a neziskový sektor po média a nově již i další firmy - je zpracování volebních výsledků na vysoké úrovni. Takže je tu další možný směr použití získaného know-how směrem za hranice ČR.
Použité nástroje a zdroje
- Český statistický úřad - Český statistický úřad: Otevřená data pro volební výsledky
- Český úřad zeměměřičský a katastrální - RÚIAN speciální data - volební okrsky - stát
- Python + Pandas - open source a zdarma