Správa dat Vzdělávání Články Datová kvalita Národní katalog otevřených dat Další

Vývoj počtu cizinců v ČR mezi lety 2009 a 2018

, Martin Dvořák

Česká republika se stává kosmopolitní zemí. Jde o logický vývoj společnosti, která se internacionalizuje, a to zejména z důvodů nabídky pracovních příležitostí a obecně relativně vysoké kvality života. Pojďme se podívat na tento jev podrobněji očima dat.

V České republice bylo k 31.12.2018 celkem 564 000 cizinců.

Na tyto otázky se pokusíme odpovědět s pomocí Českého statistického úřadu, který katalogizuje v Národním katalogu otevřených dat datové sady o Počtech cizinců podle státního občanství, věku a pohlaví již od roku 2004. Pro potřeby této analýzy se podíváme na dostupné datové distribuce “pouze” 10 let zpět, tedy od roku 2009.

K čemu chceme dojít?

Článek si klade za cíl představit práci s daty v programu Power BI a vytvořit níže uvedený dashboard. Druhým cílem je pak vizualizace dat v programu QGIS.


Použitá data

Primárními daty pro naši práci jsou již představená data o cizincích v distribucích od roku 2009 do roku 2018. K pochopení struktury dat a významu číselníků je nutné nahlédnout do metodiky, která je vždy k danému datasetu k dispozici. Další úskalím, které nám ČSÚ trochu práci ztěžuje, je “zipování souborů, a to i tam, kde se nachází pouze jeden .csv soubor. Jelikož jsou data o cizincích publikovaná do úrovně okresů, budou nás sekundárně zajímat rovněž data o počtech obyvatel v jednotlivých okresech. Zde již ČSÚ otevřená data nepublikuje, proto je nutné si je stáhnout z jejich veřejné databáze. Třetím zdrojem dat je soubor Správních hranic a hranic katastrálních území ČR od ČÚZK, kde budou použity .shp okresů v programu QGIS.

Postup zpracování

V první řadě si nainstalujeme Power BI (dále jen PBI). Při práci v PBI budeme pracovat s více samostatnými .csv soubory. Je tedy dobré pracovat s celou složkou, kde máme uložené jednotlivé soubory, což PBI umožňuje. Po otevření programu tedy zvolíme funkci “Get data –> Folder” a poté všechny soubory .csv zkomprimujeme do 1 souboru.

Komprimace souborů csv
Komprimace souborů csv

Následně se můžeme přepnout do módu “Edit Queries”, kde bude nutné data ještě upravit. V první řadě se musíme vypořádat s tím, že ČSÚ nám data podstrčil agregovaně či spíše duplicitně. V prvotním součtu totiž dojdeme k tomu, že v České republice máme 9 029 520 cizinců jen v roce 2018. Je tedy jasné, že data jsou různě agregována, a to jak za věkové skupiny, tak národnosti, pohlaví, v různých měřítkách a ještě se všemi možnými kombinacemi. Cílem je tedy dostat se pouze k počtům za okresy. Toho docílíme tak, že zapneme filtraci v jednotlivých sloupcích, a to následovně:

Číselníky (pohlavi_cis, vek_cis, …) pro tuto ukázku nepotřebujeme, jelikož vše důležité je obsaženo v textových hodnotách. Nicméně všechny relevantní číselníky lze rovněž najít v NKOD ve formátu .xml a případně je připojit do datového modelu.

Po dokončení úprav editor uzavřeme (tlačítko “Close & Apply”) a dále pracujeme jen s vizualizačními technikami. V boxu na pravé straně máme všechny datové sady, v druhém sloupci pak možnosti vizualizací a v třetím boxu jsou filtry. Pro naše účely nejvíce využíváme “bar & column charts”. Vše funguje systémem drag & drop, kde vybíráme z tabulkové části data do částí “os x a y”, případně do legendy a do pole “values”. Jednotlivá pole lze i posunovat přímo do vizualizačního boxu a PBI samo zvolí nejvhodnější vizualizaci. Na závěr ještě umístíme “Slicer” s jednotlivými roky. Všechna pole pak formátujeme v sekci “Format”.

První sekce je tedy hotová, přepneme na druhý list, na kterém využijeme mapovou vizualizaci pro prezentaci počtu cizinců v okresech. PBI mají základně nastavené Bing mapy (jako možnost lze využít i plugin “esri maps for PBI”, které jsou však pod placenou licencí). V mapě do pole “Location” zvolíme okres, do pole “Size” pak pole “hodnota” –> “vykreslení okresů dle počtu cizinců” a použijeme pouze rok 2018. Ve finální vizualizaci došlo k chybě, kde byl okres Plzeň-sever geolokován do Francie.

Chyba v geolokaci okresu Plzeň
Chyba v geolokaci okresu Plzeň

Z tohoto důvodu je nutné přepnout v levém panelu do tabulkové (datové) části, označit sloupec “Okres” a v druhé záložce přiřadit “Data Category: County”.

Oprava chyby v geolokaci
Oprava chyby v geolokaci

Do legendy pak přidáme atribut pohlaví. PBI pak nabízí mnoho dalších možností, jak data upravovat a vizualizovat.

A co v QGIS?

QGIS je volně dostupný open source software určený zejména pro prezentaci prostorových dat. V této části tak použijeme klasický kartogram pro prezentaci vývoje podílu cizinců v okresech ČR a využijeme i “plugin cartogram” pro tvorbu anamorfované mapy, kterou vizualizujeme absolutní počty cizinců v ČR.

Anamorfovaná mapa
Anamorfovaná mapa

Nejprve si do QGIS nahrajeme shapefile administrativních hranic, okresů které jsme si uvedli na začátku. Z horní lišty vybereme “Vrstva” –> “Přidat vrstvu” –> “Přidat vektorovou vrstvu” a nahrajeme okresy. Poté je třeba do GIS nahrát data o počtech cizinců a je třeba je připojit k vrstvě .shp okresů, kterou jsme stáhli z ČÚZK.

Přidání dat o počtech cizinců
Přidání dat o počtech cizinců
Připojení dat
Připojení dat

Následně si stáhneme plugin cartogram a v záložce “vektor” –> “cartogram” –> “compute cartogram” - zvolíme proměnnou absolutního počtu cizinců.

Plugin cartogram
Plugin cartogram

Anamorfóza (ang. cartogram) nám zderformuje mapu dle zastoupení zvolené proměnné, kde samozřejmě významně dominuje Praha a dále velká krajská města. Za zmínku stojí rovněž okres Mladá Boleslav, kde je tradičně zastoupen velký počet cizinců zaměstnaných ve firmě Škoda.

Podobně použijeme i relativní počty, tedy procentuální zastoupení cizinců na celkové populaci v daném území. Zde je důležité si data rovněž předpřipravit např. v někteérm z tabulkových editorů (např. Google Sheets, Microsoft Excel, CalC apod.) a poté je stejnou cestou nahrát do QGIS. Mapu poté dotváříme v sekci symbologie, kde byla zvolena kvantilová klasifikace.

Dotvoření mapy v sekci symbologie
Dotvoření mapy v sekci symbologie

Závěrečnou editaci mapy provedeme pomocí tlačítka “nové tiskové rozvržení” v horním menu, kde postupně přidáme název, legendu a měřítko.

Přidání názvu, legendy a měřítka
Přidání názvu, legendy a měřítka

Další využití dat, vizualizací a zdrojů

Ve výstupech nejsou použita jiná územní měřítka, ve kterých lze data zobrazovat. V tomto ohledu se nabízí minimálně zpracování za kraje ČR. Další možností je vizualizaci obohatit o data tzv. Informativních přehledů cizinců, které publikuje Ministerstvo vnitra za obce, statutární města nebo městské části.

Tvorba datového dashboardu v PBI (pokud nepočítáme “peripetie” z pochopení struktury dat) trvala asi 2 hodiny (pro mírně pokročilého uživatele). Vizualizace v QGIS trvaly rovněž cca 2 hodiny (pro začátečníka s QGIS). Níže uvádíme některém užitečné zdroje pro práci na obdobných datech, jaké jsou uvedeny v tomto článku: