Série Znalostní grafy: Díl 3: SPARQL

25. 1. 2021, Martin Nečaský

V minulém dílu seriálu jsme se seznámili s datovým modelem RDF, který je vhodný pro sdílení znalostních grafů ve strojově zpracovatelné podobě otevřených dat. V tomto dílu si ukážeme, jak můžeme se znalostními grafy reprezentovanými v modelu RDF pracovat pomocí dotazovacího jazyka SPARQL.

Co je SPARQL?

SPARQL je dotazovací jazyk určený pro dotazování do dat reprezentovaných v datovém modelu RDF. V prvním dílu seriálu o znalostních grafech jsme si ukázali řadu příkladů datových zdrojů, které reprezentují svá data v datovém modelu RDF. U všech z nich můžete využít SPARQL pro získávání dat.

SPARQL je podobný dotazovacímu jazyku SQL, který je určený pro dotazování do dat reprezentovaných v relačním datovém modelu, tj. v podobě tabulek uložených v relační databázi. Rozdíl je právě v datovém modelu. V SQL popisujeme, z jakých tabulek chceme extrahovat jaké řádky pomocí podmínek, které musí tyto řádky splňovat. Ve SPARQL popisujeme, jaké části dotazovaného znalostního grafu chceme extrahovat pomocí podmínek, které musí uzly extrahovaných částí splňovat. Pomocí dotazu v jazyku SQL konstruujeme tabulku s výsledky. Pomocí dotazu v jazyku SPARQL konstruujeme buď znalostní graf s výsledky nebo tabulku s výsledky. Pro jednoduchost se v tomto článku budeme zabývat pouze dotazy, které vrací tabulku.

Tento článek je pouze přehledem principů a možností dotazovacího jazyka SPARQL. Nejedná se o kompletní referenční příručku. Pro přehled všech jednotlivých konstruktů jazyka SPARQL ze sémantického i syntaktického hlediska doporučujeme materiály W3C.

Co je grafový vzor?

Připomeňme si příklad reprezentace znalostního grafu o Českém statistickém úřadu (ČSÚ) v RDF modelu z minulého článku. Znalostní graf nám o ČSÚ např. říká, že se jedná o veřejnou organizaci a říká nám jakou má ČSÚ právní formu. Také nám říká, jakou má datovou schránku a že ČSÚ publikuje datovou sadu.

Znalostní graf o datové sadě v Národním katalogu otevřených dat v modelu RDF

Grafový vzor je matematický graf stejně jako i samotný znalostní graf. Liší se v tom, že některé uzly v něm nejsou konkrétními IRI nebo datovými hodnotami, ale proměnnými. Stejně tak některé hrany nemají určen konkrétní predikát v podobě IRI, ale místo predikátu je uvedena proměnná. Proměnné jsou v grafových vzorech uvozeny otazníkem. Proměnnou tak je např. ?název nebo ?organizace.

Pokud proměnné v grafovém vzoru nahradíme konkrétním IRI nebo datovou hodnotou, získáváme znalostní graf. Grafový vzor specifikuje dotaz do znalostního grafu, jehož vyhodnocení spočívá ve vyhledání částí znalostního grafu, které odpovídají nějakému nahrazení proměnných v grafovém vzoru. Uvažme např. grafový vzor na následujícím obrázku. Skládá se z jednoho uzlu, který je fixován na kontrétní IRI https://data.gov.cz/zdroj/datové-sady/00025593/719f7b9f2cf4ab7fa40c7e7c459995a7, jednoho uzlu, který není fixován na žádné IRI ani hodnotu, ale má přiřazenu proměnnou ?název, a hrany, která má přiřazen konkrétní predikát http://purl.org/dc/terms/title.

Grafový vzor odpovídající znalostnímu grafu s názvem datové sady

Pokud tento grafový vzor použijeme jako dotaz nad znalostním grafem, odpovídá každé části dotazovaného znalostního grafu, která obsahuje uzel s IRI https://data.gov.cz/zdroj/datové-sady/00025593/719f7b9f2cf4ab7fa40c7e7c459995a7 a hranu s predikátem http://purl.org/dc/terms/title vedoucí z tohoto uzlu do jiného uzlu. Tento jiný uzel není grafovým vzorem specifikován. Pokud jej tedy použijeme na znalostní graf z příkladu výše, odpovídá grafový vzor části zobrazené na následujícím obrázku.

Část znalostního grafu s názvem datové sady odpovídající grafovému vzoru

Složitější grafové vzory si ukážeme na příkladech později v tomto článku. Nyní se podívejme, jak můžeme grafové vzory použít k vyjádření dotazů v dotazovacím jazyku SPARQL.

Základní dotaz v jazyku SPARQL

Znalostní grafy můžeme vyjadřovat v datovém modelu RDF v podobě trojic. Grafové vzory vyjadřujeme stejně. Pouze v místech, kde je proměnná, uvádíme místo IRI proměnnou. Grafový vzor z předchozího příkladu tak můžeme zapsat následovně:

ds:719f7b9f2cf4ab7fa40c7e7c459995a7 dct:title ?název .

Příklad využívá prefixy, které jsme si zavedli v minulém díle. Jak je zavést v jazyku SPARQL si ukážeme za chvíli.

V minulém díle jsme si ukazovali, že RDF trojice můžeme číst jako jednoduché oznamovací věty. Trojice zapisující jednotlivé části grafového vzoru můžeme číst jako jednoduché tázací věty. Výše uvedenou trojici zapisující grafový vzor z našeho příkladu můžeme číst jako “Jak se jmenuje entita ds:719f7b9f2cf4ab7fa40c7e7c459995a7?”. Odpovědí je hodnota, kterou můžeme dosadit za proměnnou ?název tak, že výsledná trojice se vyskytuje v RDF zápisu našeho znalostního grafu. V našem případě se jedná o dosazení ?název = "Cizinci podle státního občanství, věku a pohlaví - rok 2018"@cs.

Samotný zápis grafového vzoru ještě není validním SPARQL dotazem. SPARQL dotaz ještě musí specifikovat, jakým způsobem mají být strukturovány výsledky dotazu, tj. výsledky dosazení konkrétních hodnot do proměnných v grafovém vzoru. Jak jsme již zmiňovali výše, výsledek SPARQL dotazu může být strukturován buď v podobě tabulky, nebo v podobě znalostního grafu. V tomto článku si ukážeme první možnost. SPARQL dotaz má pak následující podobu.

SELECT *seznam proměnných*
WHERE {
    *grafový vzor*
}

Za klíčovým slovem WHERE je grafový vzor uzavřený ve složených závorkách. Za klíčovým slovem SELECT je seznam proměnných z grafového vzoru, jejichž dosazené hodnoty pro jednotlivé části znalostního grafu odpovídající grafovému vzoru chceme mít ve výsledku. Výsledkem vyhodnocení dotazu je tabulka, jejíž sloupce odpovídají jednotlivým proměnným vyjmenovaným za klíčovým slovem SELECT. Každý řádek tabulky odpovídá právě jedné části znalostního grafu, která odpovídá grafovému vzoru.

Následující příklad je SPARQL dotazem, který vrací tabulku s jedním sloupečkem odpovídajícím proměnné ?název. Pro náš znalostní graf bude mít tabulka jeden řádek, protože se dotazujeme na název konkrétní organizace, která má navíc pouze jeden název.

SELECT ?název
WHERE {
    ds:719f7b9f2cf4ab7fa40c7e7c459995a7 dct:title ?název .
}

Výraz dotazu ještě není kompletní, protože v grafovém vzoru používáme prefixy. Stejně jako v zápisu RDF trojic musíme i zde prefixy definovat. V jazyku SPARQL k tomu slouží klauzule PREFIX. Pozor na to, že se jedná o jinou syntaxi než je syntaxe používaná pro zápis RDF trojic. Následující příklad je už správným výrazem dotazu.

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX ds: <https://data.gov.cz/zdroj/datové-sady/00025593/>

SELECT ?název
WHERE {
    ds:719f7b9f2cf4ab7fa40c7e7c459995a7 dct:title ?název .
}

Dotazování nad skutečným úložištěm RDF dat

Máme tedy dotaz vyjádřený v jazyku SPARQL. Jak jej můžeme nyní použít a dotázat se na konkrétní znalostní graf? RDF úložiště nabízejí webovou službu zvanou SPARQL endpoint, které můžete svůj SPARQL dotaz zaslat a služba vám zašle odpověď. Tuto možnost pro dotazování využijeme. Nejprve je nutno mít znalostní graf vyjádřený v modelu RDF někde uložen. Pokud máme k dispozici pouze export RDF dat v podobě souboru ke stažení, můžeme si jej stáhnout a nahrát do vlastního RDF úložiště. Někdy má ale poskytovatel data uložena ve vlastním RDF úložišti a SPARQL endpoint k němu zpřístupní veřejně.

Příklad znalostního grafu výše je součástí většího znalostního grafu, který již je uložen v RDF úložišti s veřejně přístupným SPARQL endpointem. Jedná se o RDF úložiště Národního katalogu otevřených dat (NKOD). Zkuste ze svého prohlížeče SPARQL endpoint otevřít. Prohlížeč zobrazí formulář, kde do pole Query Text zkopírujte příklad kompletního SPARQL dotazu výše. Potom stiskněte tlačítko Run Query. Pokud jste na mobilu nebo se vám nechce kopírovat, můžete si námi připravený dotaz spustit rovnou.

Výsledkem je tabulka s jedním sloupcem a jedním řádkem (nepočítáme-li hlavičku tabulky), kde je uveden výsledek dotazu. Asi se divíte zvláštní hlavičce. To je chyba daného SPARQL endpointu, který pro HTML výpis špatně pracuje s kódováním. Vraťte se ale na stránku s formulářem. Všimněte si možnosti výběru formátu v poli Results Format. Vyberte formát CSV a spusťte dotaz znovu. Získáte CSV soubor s výsledkem, kde je již kódování v pořádku. Tento výstup je zřejmě výstup, který potřebujete pro další strojové zpracování výsledku ve svém oblíbeném nástroji, který pracuje s tabulkovými daty v podobě CSV souborů.

RDF úložiště Národního katalogu otevřených dat nenabízí moc pěkné uživatelské rozhraní pro SPARQL dotazování. Pro příklady SPARQL dotazů v tomto článku využijeme uživatelské rozhraní Yasgui, které je veřejně dostupné. Stačí zde zadat URL SPARQL endpointu, nad kterým se chceme dotazovat, což v našem případě znamená SPARQL endpoint NKOD. Všechny níže uvedené příklady si můžete vyzkoušet v tomto rozhraní sami a nebo můžete kliknout na odkaz poskytnutý pod každým příkladem. Odkaz povede na spuštění daného dotazu v Yasgui.

Pokročilejší SPARQL dotazování

Nyní již znáte podstatu dotazování do znalostních grafů pomocí dotazovacího jazyka SPARQL. Pojďme se podívat na složitější dotazy a některé další konstrukty tohoto jazyka. Na principech ale už nic měnit nebudeme.

Začněme se složitějšími grafovými vzory. Vraťme se k příkladu na prvním obrázku článku. Datová sada má poskytovatele, který je k ní připojen pomocí hrany označené predikátem http://purl.org/dc/terms/publisher. Předpokládejme, že známe IRI datové sady a chceme se zeptat na jejího poskytovatele. Dotaz vyjádříme ve SPARQL následujícím způsobem.

PREFIX dct: <http://purl.org/dc/terms/>
PREFIX ds: <https://data.gov.cz/zdroj/datové-sady/00025593/>

SELECT ?poskytovatel
WHERE {
    ds:719f7b9f2cf4ab7fa40c7e7c459995a7 dct:publisher ?poskytovatel .
}

Série Znalostní grafy: Díl 3: SPARQL

Co je SPARQL?

Co je grafový vzor?

Základní dotaz v jazyku SPARQL

Dotazování nad skutečným úložištěm RDF dat

Pokročilejší SPARQL dotazování

Agregační dotazy ve SPARQL

Dotazy na strukturu znalostního grafu

Závěr