Správa dat Vzdělávání Články Datová kvalita Národní katalog otevřených dat Další

Otevřená data snadno a rychle

Zde naleznete co nejstručnější návod na publikaci dat jako otevřená data. Postup si ukážeme na jednorázové publikaci tabulkových dat a na konci shrneme, jak postupovat dál směrem k sytematičtějšímu řešení.

Začneme tedy s typickou tabulkou v Excelu, a skončíme se správně publikovanými tabulkovými otevřenými daty.

Typickým zdrojem otevřených dat je Excelovský soubor. Ten sám o sobě může obsahovat spoustu problémů, kterým se souhrnně říká "Barevný Excel". Ty však nesouvisejí s otevřenými daty.

Předpokládáme tedy, že máme takzvaný "slušný Excel", tedy 1 list, na kterém je tabulka která není formátovaná, začíná v buňce A1, na prvním řádku má názvy sloupců a obsah splňuje alespoň první normální formu.

První normální forma

Takto by to vypadat nemělo. Význam nesmí být určen jen barvou, datumy (čísla, ...) nesmí být v přirozeném jazyce.

Barevný Excel Stáhnout

Takhle je to lepší. 1 list má 1 tabulku, nejsou použity prázdné ani sloučené buňky pro formátování.

Slušný Excel Stáhnout
1

Formátem pro otevřená tabulková data je formát CSV. Tabulku z Excelu tedy musíme do tohoto formátu převést. Přitom je třeba dát pozor na typické chyby, které se při tvorbě CSV souborů vyskytují.

Microsoft Excel neumí správné CSV otevřít přímo. Je třeba ho importovat.
O CSV Špatná praxe

Špatný oddělovač, špatné kódování.

Špatné CSV
Stáhnout

Takhle je to lepší. Zvalidujte si to.

Správné CSV
Příklad 1 Příklad 2 Příklad 3
2

Aby se k CSV souboru někdo dostal, je třeba ho umístit na web. To znamená někam, kde bude mít své stabilní URL. Pak ověříme, že jsme se nedopustili nějaké z rozšířených chyb ve zpřístupnění souboru na webu.

Špatná praxe
Tento soubor je na Microsoft Excel příliš velký. Zkuste třeba EmEditor nebo jiný prohlížeč velkých souborů.
3

K CSV souboru patří strojově čitelné schéma, které definuje datové typy sloupců, případně poskytuje lepší popis sloupců než-li jejich název. Pro CSV soubor tedy vytvoříme schéma dle standardu CSV on the Web ve formě JSON-LD deskriptoru. Pak ho spolu s CSV souborem vystavíme na web.

CSV on the Web Validátor Generátor metadat
4

Připravíme si metadatový záznam o datové sadě. Měl by být co nejúplnější. Zejména by měl odkazovat na webovou stránku s dokumentací datové sady. Ta by měla být v HTML (jsme na Webu), nikoliv PDF či Word.

Specifikace
5

Nejjednodušší možností je vyplnit formulář a výslednou zprávu zaslat datovou schránkou do NKOD. Nevyplňujeme jen povinné položky, snažíme se pečlivě vyplnit co nejvíce informací. Ty pak pomůžou uživatelům data najít a pochopit.

NKOD
6

Ukázali jsme si postup publikace jednoho souboru. Typicky se ale v instituci nachází celá řada datových sad, které by bylo možno publikovat. Pokud by se ale postupovalo tímto jednoduchým způsobem, brzy by došlo k nejrůznějším zmatkům. Po prvotním úspěchu s pár prvními datovými sadami je tedy nutno přikročit k systematizaci otevírání dat v instituci.

Postup otevírání dat

CSV je nejlepší formát pro tabulková data. Stále ale má své nedostatky - nejednoznačná identifikace entit v datech, nutnost hledání použitých číselníků a jiných souvisejících dat apod. Tyto nedostatky jsou vyřešeny použitím tzv. Propojených dat, což je dnes nejlepší způsob publikace dat na webu. Jedním z dalších kroků by tedy mělo být zváýžení publikace dat také tímto vhodnějším způsobem.

Propojená data

Pokud vaše instituce bude publikovat více než pár datových sad, je vhodné implementovat Lokální katalog otevřených dat. Existují pro něj buď open-source implementace, nebo jej lze vyřešit generováním pár souborů. Lokální katalog se jednou registruje do NKOD a dále se již nemusíte zabývat posíláním datových zpráv. NKOD si vše potřebné bude pravidelně číst z vašeho katalogu.

Lokální katalog
7