Jak jste si jistě všimli, na Hlídači státu máme i informace o čerpaných dotacích. Vůbec to ale nebyla jednoduchá práce. Podívejte se, co vše za vytvořením databáze stálo.
V prvé řadě přibližně dva měsíce naší práce – neustálé hrabání se v datech a dokumentaci k jednotlivým systémům a následná transformace dat do podoby, která by se dala jednoduše prezentovat. Z našeho pohledu totiž dotace nemusí být složitou věcí. Stačí, aby byly jasně uvedeny následující informace:
- kdo o dotaci žádal,
- kdy bylo o dotaci zažádáno,
- za jakým účelem měla být poskytnuta dotace,
- kdy byla dotace schválena,
- kolik peněz bylo schváleno a ze kterého zdroje (ČR, EU fondy aj.),
- kolik peněz bylo vyčerpáno a z jakého zdroje (ČR, EU fondy aj.),
- jaká instituce dotaci přidělila.
Na základě našich zkušeností můžeme říci, že jediným systémem, který se této specifikaci nejvíce blíží, je CEDR. Bohužel jde však o jednu z nejsložitějších struktur pro následné zpracování. Podívejme se nyní na popis všech našich zdrojů, se kterými jsme pracovali.
CEDR
Ze systému CEDR zpracováváme na Hlídači celkem 2 002 391 položek.
Centrální registr dotací slouží jako jakýsi agregátor dotací (vyjma SZIF a investičních pobídek – Czechinvest). Měly by zde být obsaženy veškeré dotace. Bohužel tomu tak zdaleka není a zodpovědnost je na straně poskytovatelů dotací.
Během analýzy dat jsme objevili 113 000 dotací ze zdrojů, které měly být zpracovány, ale v CEDRu se je nepodařilo dohledat. Jejich seznam jsme proto předali odpovědným lidem z CEDRu a nyní čekáme na jejich vyjádření. Na základě naší práce se systémem jsme pro vás připravili krátké shrnutí a hodnocení.
Hlídačovo hodnocení CEDRu:
- Zbytečně komplikovaná a nepřehledná struktura, která je pro většinu lidí nepochopitelná. Běžný člověk nemající se systémem zkušenosti musí vynaložit velké úsilí a ohromné množství času, aby systém prozkoumal a našel, co potřebuje.
- Spousta dat je zcela nesmyslně vložena do dvou tabulek místo jedné. Informace je tak v některých případech potřeba dohledávat zbytečně dvakrát. Konkrétní případy:
- ciselnikcedroperacniprogramv01 + ciselnikmmroperacniprogramv01
- ciselnikcedropatreniv01 + ciselnikmmropatreniv01
- ciselnikcedrgrantoveschemav01 + ciselnikmmrgrantoveschemav01
- adresasidlo + adresabydliste
- Dokumentace je nepřehledně zkratkovitá a nepochopitelná. Jedním z příkladů je třeba „refundace indikátor“ – nebýt pomoci expertů z Dotačního parazita a ochoty pár lidí ze samotného CEDRU, nebyli bychom schopni dát správnou prezentaci dat dohromady.
- Nefunkční a komplikované vyhledávání. Data na sebe v některých případech nejdou napojit a je potřeba ruční úprava. Například:
- [ciselnikobecv01] nejde jednoduše napojit na [ciselnikokresv01], protože ID nesedí – je potřeba upravit ID a oddělit poslední část u číselníku „okres“
- [prijemcepomoci] obsahuje nesmyslné IČO, které se opakuje u různých subjektů (00000001, 99999999)
- Nekonzistentní a zmatený systém ukládání informací. Příklad pro ilustraci:
- kód projektu PRA-V-36/2013, který má hned dva záznamy v dotacích s 601 záznamy o čerpání (navíc u této konkrétní dotace pro ŘSD nám stojí hlava nad tím, proč žádali dotaci od Státního fondu kinematografie – 1 507 871 Kč v roce 2010 a 1 507 871 Kč v roce 2013 – s názvem projektu „Dálnice D3 Tábor – Veselí nad Lužnicí“)
- Podivné hodnoty v identifikátoru dotace:
EU Fondy
Z Evropských strukturálních a investičních fondů zpracováváme 128 481 položek.
EU Fondy by se daly popsat jako minové pole pro uživatele. Jednoduše řečeno, jde doslova o past za pastí. Z naší zkušenosti s vyhledáváním v systému uvádíme v hodnocení největší nedostatky.
Hlídačovo hodnocení EU Fondů:
- Naprosto nepřehledné, nesystematické a zmatené uspořádání dat. Stejná autorita produkuje tři rozdílné zdroje s odlišnou strukturou, odlišnými názvy sloupců a odlišným obsahem pro různá období. Příklad:
- období 2004 – 2006 (xls) – zde také chybí IČO k identifikaci subjektů
- období 2007 – 2013 (xls)
- období 2014 – 2020 (xml)
- Velmi obtížné dohledávání jednotlivých souborů. Soubory nenajdeme uložené na jednom místě, jsou na webu všemožně poschovávány. Zde však oceňujeme ochotnou technickou podporu v podobě online chatu.
- Nedostatkem je také chybějící ID či jiné označení dotací, podle kterých by šly jednoduše identifikovat.
- V mnoha případech jsme se setkali s nedostatečnou nebo špatnou dokumentací.
DotInfo
Ze systému DotInfo zpracováváme 145 426 položek.
Zatímco práci se systémem EU Fondů jsme pro představu přirovnali k procházce po minovém poli, DotInfo můžeme ilustrovat pobytem v očistci. A nemůže za to jen vzhled a uspořádání webu, který vypadá zastarale i neprofesionálně (osobní poznámka autora, který seznam dotací zpracovává: „Web vypadá jakoby ho dělal o přestávkách student střední školy. A možná i to by byla urážka studentů středních škol.“).
Hlídačovo hodnocení DotInfo:
- V prvé řadě je problém se na server dostat. Po zadání adresy http://dotinfo.cz/ není žádné přesměrování, jsme automaticky nepochopitelně odkázání na úvodní stránku IIS (Internet Information Services od Windows Server). S adresou https://www.dotinfo.cz/ se již dostaneme na server.
- Open data k DotInfu nejsou nikde na webu k nalezení, uživatel se k nim musí doslova proklikat přes server mfcr.cz, aby je dohledal.
- V době prvotního zpracovávání (začátek roku 2020) byl k dispozici ke stažení pouze soubor s daty ke 13. červenci 2017. Po upozornění trvalo několik měsíců, než vystavili soubor nový, nyní s daty k 29. lednu 2020.
- Bohužel, data v souboru jsou v naprosto nepřehledném a chaotickém stavu. Navíc k nim neexistuje žádná dokumentace. Konkrétní příklady:
- u sloupce, který by uživatel považoval za ID (evidenční číslo dotace), se objevují hodnoty null
- uprostřed souboru se místo oddělovače „;“ začne používat tabulátor, tudíž to není jednoduše strojově zpracovateln
- zajímavé jsou rovněž popisy chyb, např. řádek „chyba;xxxxxxxxxx;LRS;LRS Chvaly, o.p.s. ;24805807;NULL;Ministerstvo zdravotnictví;24341;1.00;0.00;NULL;;;“. Zde nám stojí hlava nad tím, o jakou chybu se jedná a co znamenají tajemná písmena x
SZIF
V systému Státního zemědělského intervenčního fondu zpracováváme 657 891 položek.
Oproti předchozím dvěma systémům není práce s SZIF tak složitá, nicméně zde chybí velké množství informací a data jsou zastaralá.
Hlídačovo hodnocení SZIF:
- V systému se nachází velmi málo informací k dotacím.
- Aktuálně najdeme na jejich webu informace pouze o dotacích za rok 2017 a 2018, dotace z minulých let nejsou k dispozici (nebýt paměti internetu, tak se k datům za roky 2014 až 2016 už nikdo nedostane).
- Zcela chybí IČO příjemců dotací.
- Rovněž chybí bližší popisy velké části informací.
- SZIF používá zvláštní strukturu XML, jejíž popis není nikde dohledatelný.
CzechInvest
https://www.czechinvest.org/cz
V systému CzechInvest zpracováváme 1 029 položek.
V tomto případě se nejedná úplně o dotace, nýbrž o investiční pobídky. Vzhledem k podobnosti s dotacemi jsme je zahrnuli do stejné kategorie.
Hlídačovo hodnocení CzechInvestu:
- Chybí informace o zrušené dotaci v české verzi.
- Ve sloupci s rokem se místy objevuje celé datum.
Souhrn
Během zpracování jsme nalezli celkem 294 402 potencionálních duplicit, což je vzhledem k překryvu zpracovávaných zdrojů logické. Bohužel je nejsme schopni v tuto chvíli odstranit, jelikož neexistuje jednoduchý párovací klíč, podle kterého bychom mohli jednoznačně říct, že se jedná o duplicitu.
V CEDRu se nám nepodařilo nalézt 113 330 položek, jež by tam být měly. Velmi pravděpodobně se jedná o chybu jednotlivých poskytovatelů dotací, kteří chybějící dotace prostě do CEDRu nenahráli. Proč je v dotacích takový chaos, nevíme. Vypadá to však, jako by se některým lidem hodilo, že jejich práce nejde zkontrolovat. Je otázkou, zda je to způsobené nedůsledností státní zprávy, nebo jejím přímým záměrem.
Obecně je nutné říci, že kvalita poskytovaných dat odpovídá obvyklé kvalitě dat zveřejňovaných státem – je velmi nízká, nikdo za ně nenese odpovědnost a “každému” je to víceméně jedno. Vyplývá z toho jediné řešení: takto veřejně poskytovaná data musí být jediným zdrojem dat jak pro veřejnost, tak pro výkon státní správy. Bez tohoto pravidla nikdy nebude stát motivovaný udržovat data aktuální a bezchybná – i když mu to nařizuje zákon.
Nejvýznamnějším systémem, co se dotací týče, je CEDR. Ten funguje pouze jako jakýsi agregátor. Neprovádí žádné kontroly na správnost dat, což je podle nás škoda, protože jako jediný má data hromadně k dispozici. Mohl a měl by vést jednotlivé poskytovatele k nápravě.
Je také škoda, že má CEDR zbytečně složitou strukturu, která není uživatelsky příliš přívětivá. Špatná dokumentace navíc znesnadňuje jednotlivým poskytovatelům dotací nahrát data ve správné formě. Tím posléze vznikají i nepřesnosti údajů v této databázi. Například definice “Hodnota přiznaných finančních prostředků” pro pole “Částka Rozhodnutá” nejspíše nebyla pochopena. Jinak si nedovedeme její špatné vyplnění v některých případech. Z tohoto důvodu jsme také byli nuceni tuto částku vynechat z našich součtů.
Co se týče uživatelské přívětivosti EU Fondů a DotInfa, ta je naprosto katastrofická. Vyhledat a získat data z těchto serverů je velice náročné, pracné a ne vždy úspěšné. Oba servery navíc obsahují množství chyb. Naproti tomu vyhledávání v SZFI není tak obtížné, zde však chybí spousta informací.
Otázka, kterou jsme si po titěrné práci se systémy položili, zní: “Jaký je vlastně význam databáze DotInfo?” Je prakticky podobným agregátorem dotací stejně jako CEDR. Ten má však lepší strukturu a více informací. Oba dva systémy mají navíc stejného “majitele” – finanční správu. Proč daňoví poplatníci platí za dva stejné systémy?
Jednotliví poskytovatelé dat nejsou schopni reprezentovat data lidsky, ale pouze právnicky či úřednicky. To je zárodkem většiny problémů.
Poděkování
Chtěli bychom také poděkovat některým lidem, bez jejichž pomoci bychom nebyli schopni data z dotací dát dokupy.
O. Kokeš
M. Sebera
A. Petrák
J. Mejvald
A. C. Kohoutová
a další.
Autorem článku je Petr Suchý, programátor a IT expert, který na Hlídači vytvořil databázi čerpaných dotací.