Správa dat Vzdělávání Články Datová kvalita Národní katalog otevřených dat Další

Pojmové znalostní grafy ve veřejné správě

, Petr Křemen

Věděli jste, že se slovo ‘budova’ vyskytuje v zákonech v různých významech? Například v Zákoně č. 406/2000 Sb. (Zákon o hospodaření energií) označuje vyhřívané objekty, zatímco v Zákoně č. 256/2013 Sb. (Zákon o katastru nemovitostí) označuje i objekty nevyhřívané. Když se poté dostanete k nějaké datové sadě o budovách (např. pražská otevřená datová sada Energeticky šetrné budovy), nevíte, o kterých budovách tato datová sada mluví. A nejedná se jen o vás - neví to ani vyhledávače datových sad, takže Vám nemohou pomoci vybrat datovou sadu přesně dle vaší potřeby. A tak, chcete-li vědět, zda v datové sadě naleznete třeba skladové haly, či autobusové zastávky, nezbývá Vám, než jednotlivé záznamy datové sady prozkoumat jednotlivě.

K tomu, abychom jednotlivé významy pojmů od sebe odlišili, můžeme s výhodou využít znalostní grafy (vizte předchozí článek na toto téma). Uzly znalostního grafu reprezentují pojmy, tedy slova nebo sousloví spolu se svými synonymy, nejvýše jednou definicí a zdrojem této definice. Díky tomu jsou pojmy mnohem jednoznačnější než slova samotná. A aby pojmům lépe rozuměl stroj, jsou pojmy vzájemně propojeny významovými vazbami, které umožňují pojmům sdílet stejné charakteristiky (třeba druh konstrukce, nebo funkční využití jako charakteristiky všech typů budov) a také kontrolovat, že pojmy nejsou ve vzájemném rozporu.

Od jednotlivých pojmů ke znalostnímu grafu

Pojďme se teď blíž podívat na příklady různých významů slova budova. Když se na definice obou pojmů podíváme blíž, vidíme, že mají některé rozdílné (vyznačené zeleně a modře) a některé společné charakteristiky (ty vyznačené nejsou):

Dva významy slova 'budova' z české legislativy.
Dva významy slova 'budova' z české legislativy.

První, čeho si všimneme je, že oba pojmy odvozují svůj význam od slova “stavba”. Vzhledem k tomu, že žádný z obou zákonů pojem stavba nedefinuje, lze se pouze domnívat, že jsou oba významy slova “stavba” stejné, a to například ve smyslu Zákona č. 183/2006 Sb. (Zákon o územním plánování a stavebním řádu). Vybereme-li z definic obou pojmů další klíčové charakteristiky (které jsou v tomto případě opět v daných zákonech blíže nedefinované), můžeme je znázornit v podobě znalostních grafů:

Pojmové znalostní grafy různých definic slova 'budova'.
Pojmové znalostní grafy různých definic slova 'budova'.

Pozorný čtenář jistě zaznamenal, že tyto znalostní grafy mají speciální podobu oproti grafům představeným v úvodním článku o znalostních grafech, neboť jednotlivé uzly označují výhradně typy či kategorie věcí (např. Budova), nikoliv věci samotné (např. Chrám sv. Víta). Takovým znalostním grafům budeme říkat pojmové. Typy věcí lze uspořádat do hierarchií dle obecnosti - ve výše uvedených grafech jsou tyto hierarchie vytvářeny hranami s koncem ve tvaru prázdného trojúhelníku. Např. každá budova ve smyslu zákona č. 256/2013 je speciálním případem Stavby a dědí tak od ní její vlastnosti. Těmi mohou být např. lokalizační údaje, které jsou popsány v Zákoně č. 111/2009 Sb. (Zákon o základních registrech), avšak pro jednoduchost je ve výše uvedených příkladech neuvádíme.

Vyhledávání dat pomocí pojmových znalostních grafů

Uvedené dva významy slova ‘budova’ nejsou nijak vyčerpávající. Jistě i každý z nás slovu ‘budova’ přiřadí trochu jiný význam. Představme si nyní zájemce o datovou sadu o budovách, pod kterými zájemce rozumí “stavby, které jsou vytápěné”:

Definice budovy jako vytápěné stavby.
Definice budovy jako vytápěné stavby.

Spojením všech tří příkladů znalostních grafů dohromady vidíme vztahy mezi jednotlivými významy slova ‘budova’:

Znalostní graf vzniklý spojením tří definic slova 'budova'.
Znalostní graf vzniklý spojením tří definic slova 'budova'.

Aniž bychom šli do detailů logického aparátu znalostních grafů, lze intuitivně vysledovat, že zájemce o datovou sadu chápe slovo ‘budova’ ve významu užším, než pojem Budova (dle Zákona č. 406/2000 Sb.) - to je v grafu znázorněno oranžovou šipkou. Pokud bychom využili tento znalostní graf pro vyhledávání datových sad, mohl by právě této oranžové šipky vyhledávač využít, aby zájemci nabídl datovou sadu o budovách ve smyslu Zákona č. 406/2000 Sb., tedy např. zmíněnou datovou sadu Energeticky šetrné budovy.

Sémantický slovník pojmů veřejné správy

Výše uvedený příklad pochází ze znalostního grafu pro veřejný sektor, který vytváříme na MVČR pod názvem Sémantický slovník pojmů (SSP). V uvedených příkladech si lze všimnout, že některé pojmy jsou v legislativě dobře definované (např. právě oba pojmy Budova), zatímco jiné nikoliv. Legislativní pojmy samotné pak pocházejí z různých zákonů a vyhlášek. Proto se SSP skládá z menších vzájemně propojených slovníků, které jsou uspořádány do hierarchické struktury. Ukažme si ji na příkladu:

Ukázka sémantického slovníku pojmů souvisejících se slovem 'budova'.
Ukázka sémantického slovníku pojmů souvisejících se slovem 'budova'.

Uprostřed diagramu vidíme již dobře známé pojmy Budova v úrovni legislativních slovníků. V našem případě by tato úroveň obsahovala tři slovníky - pro každý z uvedených zákonů jeden (pro přehlednost diagramu v něm neuvádíme pojmy Nadzemní stavba či Nadzemní stavba a její podzemní části a specializační vazby zkracujeme přímo vazbou obou Budov na pojem Stavba). Vlevo od legislativní úrovně jsou pojmy obecnější - slovník veřejného sektoru popisuje pojmy konsensuální, běžně užívané ve veřejném sektoru, bez vazby na konkrétní legislativu. Zastavme se zejména u druhého pojmu Stavba - tento pojem není v uvedených zákonech definován a popisuje samotnou stavební činnost, nikoliv její výsledek. Úplně vlevo se pak nachází základní slovník - ten obsahuje tzv. ontologické kategorie, tedy pojmy, které popisují základní zákonitosti reálného světa a platí i mimo oblast veřejného sektoru. V našem příkladě vidíme pojem Objekt (jako entitu, která mění své vlastnosti s časem), pojem Událost (jako entitu, které je v čase neměnná a může např. tvořit objekty či měnit jejich vlastnosti), pojem Vlastnost (entita, která je závislá na objektu) a pojem Vztah (entita závislá na dvou a více objektech). Podrobnější popis tohoto slovníku je nad rámec tohoto úvodního textu a čtenáře odkazujeme na další díly této série.

Abychom poskytli vyhledávači datových sad informaci o významu dat, potřebujeme jej popsat. Podívejme se nyní na použití SSP pro popis datové sady Energeticky šetrné budovy, distribuované v podobě tabulky (např. ve formátu CSV).

Příklad datové sady energeticky šetrných budov.
Příklad datové sady energeticky šetrných budov.

Pro tento účel nás zajímá zejména pravá část výše uvedeného diagramu. V agendové vrstvě nalezneme pojmy, které nejsou zákonem definovány, ale jsou používané při výkonu jednotlivých agend registru práv a povinností (v našem příkladě takový pojem nemáme). Poslední úrovní jsou pak pojmy vyskytující se v popisu datové sady, či datového rozhraní. Například pojem Název budovy označující jeden ze sloupců datové sady, není v zákoně popsán, je tedy součástí datového slovníku dané datové sady.

Shrnutí

Ukázali jsme si na příkladech jak použít Sémantický slovník pojmů pro zpřesnění vyhledávání dat. Škála použití SSP je však mnohem širší.

Užití semantického slovníku pojmů.
Užití semantického slovníku pojmů.

Znalost zachycenou formálními vazbami mezi jedinečně definovanými pojmy lze dále využít např. pro automatické generování datových schémat, jejich dokumentace či formulářů pro efektivní sběr dat. Jako “vedlejší produkt” můžeme rovněž snadno automaticky vygenerovat běžný výkladový slovník pojmů dané oblasti. SSP je distribuován v podobě propojených dat, a v souladu se standardy RDF, OWL, SKOS a SPARQL konzorcia W3C.

V dalších dílech série se pak budeme zabývat jak podrobnějším popisem technik konceptuálního modelování znalostí pro tvorbu SSP, tak i nástroji, kterými lze SSP rozvíjet a spravovat.