Vývoj počtu cizinců v ČR mezi lety 2009 a 2018
, Martin DvořákČeská republika se stává kosmopolitní zemí. Jde o logický vývoj společnosti, která se internacionalizuje, a to zejména z důvodů nabídky pracovních příležitostí a obecně relativně vysoké kvality života. Pojďme se podívat na tento jev podrobněji očima dat.
V České republice bylo k 31.12.2018 celkem 564 000 cizinců.
- Jaké jsou národnosti?
- Kde je cizinců nejvíce?
- O jaké věkové skupiny se jedná?
Na tyto otázky se pokusíme odpovědět s pomocí Českého statistického úřadu, který katalogizuje v Národním katalogu otevřených dat datové sady o Počtech cizinců podle státního občanství, věku a pohlaví již od roku 2004. Pro potřeby této analýzy se podíváme na dostupné datové distribuce “pouze” 10 let zpět, tedy od roku 2009.
K čemu chceme dojít?
Článek si klade za cíl představit práci s daty v programu Power BI a vytvořit níže uvedený dashboard. Druhým cílem je pak vizualizace dat v programu QGIS.
Použitá data
Primárními daty pro naši práci jsou již představená data o cizincích v distribucích od roku 2009 do roku 2018. K pochopení struktury dat a významu číselníků je nutné nahlédnout do metodiky, která je vždy k danému datasetu k dispozici. Další úskalím, které nám ČSÚ trochu práci ztěžuje, je “zipování souborů, a to i tam, kde se nachází pouze jeden .csv soubor. Jelikož jsou data o cizincích publikovaná do úrovně okresů, budou nás sekundárně zajímat rovněž data o počtech obyvatel v jednotlivých okresech. Zde již ČSÚ otevřená data nepublikuje, proto je nutné si je stáhnout z jejich veřejné databáze. Třetím zdrojem dat je soubor Správních hranic a hranic katastrálních území ČR od ČÚZK, kde budou použity .shp okresů v programu QGIS.
Postup zpracování
V první řadě si nainstalujeme Power BI (dále jen PBI). Při práci v PBI budeme pracovat s více samostatnými .csv soubory. Je tedy dobré pracovat s celou složkou, kde máme uložené jednotlivé soubory, což PBI umožňuje. Po otevření programu tedy zvolíme funkci “Get data –> Folder” a poté všechny soubory .csv zkomprimujeme do 1 souboru.
Následně se můžeme přepnout do módu “Edit Queries”, kde bude nutné data ještě upravit. V první řadě se musíme vypořádat s tím, že ČSÚ nám data podstrčil agregovaně či spíše duplicitně. V prvotním součtu totiž dojdeme k tomu, že v České republice máme 9 029 520 cizinců jen v roce 2018. Je tedy jasné, že data jsou různě agregována, a to jak za věkové skupiny, tak národnosti, pohlaví, v různých měřítkách a ještě se všemi možnými kombinacemi. Cílem je tedy dostat se pouze k počtům za okresy. Toho docílíme tak, že zapneme filtraci v jednotlivých sloupcích, a to následovně:
- Pohlavi_kod - vybereme hodnoty 1 a 2 (tím jsme odfiltrovali prázdné/agregované hodnoty)
- Vek_kod - vypneme prázdné hodnoty
- Vuzemi_kod vypneme číslo 19 (úroveň ČR)
Číselníky (pohlavi_cis, vek_cis, …) pro tuto ukázku nepotřebujeme, jelikož vše důležité je obsaženo v textových hodnotách. Nicméně všechny relevantní číselníky lze rovněž najít v NKOD ve formátu .xml a případně je připojit do datového modelu.
Po dokončení úprav editor uzavřeme (tlačítko “Close & Apply”) a dále pracujeme jen s vizualizačními technikami. V boxu na pravé straně máme všechny datové sady, v druhém sloupci pak možnosti vizualizací a v třetím boxu jsou filtry. Pro naše účely nejvíce využíváme “bar & column charts”. Vše funguje systémem drag & drop, kde vybíráme z tabulkové části data do částí “os x a y”, případně do legendy a do pole “values”. Jednotlivá pole lze i posunovat přímo do vizualizačního boxu a PBI samo zvolí nejvhodnější vizualizaci. Na závěr ještě umístíme “Slicer” s jednotlivými roky. Všechna pole pak formátujeme v sekci “Format”.
První sekce je tedy hotová, přepneme na druhý list, na kterém využijeme mapovou vizualizaci pro prezentaci počtu cizinců v okresech. PBI mají základně nastavené Bing mapy (jako možnost lze využít i plugin “esri maps for PBI”, které jsou však pod placenou licencí). V mapě do pole “Location” zvolíme okres, do pole “Size” pak pole “hodnota” –> “vykreslení okresů dle počtu cizinců” a použijeme pouze rok 2018. Ve finální vizualizaci došlo k chybě, kde byl okres Plzeň-sever geolokován do Francie.
Z tohoto důvodu je nutné přepnout v levém panelu do tabulkové (datové) části, označit sloupec “Okres” a v druhé záložce přiřadit “Data Category: County”.
Do legendy pak přidáme atribut pohlaví. PBI pak nabízí mnoho dalších možností, jak data upravovat a vizualizovat.
A co v QGIS?
QGIS je volně dostupný open source software určený zejména pro prezentaci prostorových dat. V této části tak použijeme klasický kartogram pro prezentaci vývoje podílu cizinců v okresech ČR a využijeme i “plugin cartogram” pro tvorbu anamorfované mapy, kterou vizualizujeme absolutní počty cizinců v ČR.
Nejprve si do QGIS nahrajeme shapefile administrativních hranic, okresů které jsme si uvedli na začátku. Z horní lišty vybereme “Vrstva” –> “Přidat vrstvu” –> “Přidat vektorovou vrstvu” a nahrajeme okresy. Poté je třeba do GIS nahrát data o počtech cizinců a je třeba je připojit k vrstvě .shp okresů, kterou jsme stáhli z ČÚZK.
Následně si stáhneme plugin cartogram a v záložce “vektor” –> “cartogram” –> “compute cartogram” - zvolíme proměnnou absolutního počtu cizinců.
Anamorfóza (ang. cartogram) nám zderformuje mapu dle zastoupení zvolené proměnné, kde samozřejmě významně dominuje Praha a dále velká krajská města. Za zmínku stojí rovněž okres Mladá Boleslav, kde je tradičně zastoupen velký počet cizinců zaměstnaných ve firmě Škoda.
Podobně použijeme i relativní počty, tedy procentuální zastoupení cizinců na celkové populaci v daném území. Zde je důležité si data rovněž předpřipravit např. v někteérm z tabulkových editorů (např. Google Sheets, Microsoft Excel, CalC apod.) a poté je stejnou cestou nahrát do QGIS. Mapu poté dotváříme v sekci symbologie, kde byla zvolena kvantilová klasifikace.
Závěrečnou editaci mapy provedeme pomocí tlačítka “nové tiskové rozvržení” v horním menu, kde postupně přidáme název, legendu a měřítko.
Další využití dat, vizualizací a zdrojů
Ve výstupech nejsou použita jiná územní měřítka, ve kterých lze data zobrazovat. V tomto ohledu se nabízí minimálně zpracování za kraje ČR. Další možností je vizualizaci obohatit o data tzv. Informativních přehledů cizinců, které publikuje Ministerstvo vnitra za obce, statutární města nebo městské části.
Tvorba datového dashboardu v PBI (pokud nepočítáme “peripetie” z pochopení struktury dat) trvala asi 2 hodiny (pro mírně pokročilého uživatele). Vizualizace v QGIS trvaly rovněž cca 2 hodiny (pro začátečníka s QGIS). Níže uvádíme některém užitečné zdroje pro práci na obdobných datech, jaké jsou uvedeny v tomto článku: