Eva Krumpová (ČSÚ): K třídění dat používáme strojové učení a chystáme Portál respondenta

Logo čsú

Při letošních prezidentských volbách zaznamenaly weby Českého statistického úřadu (ČSÚ) nebývale vytrvalé DDoS útoky. Na proces sčítání hlasů ale neměly žádný vliv, říká první místopředsedkyně Českého statistického úřadu Eva Krumpová. V rozhovoru pro Lupa.cz s šéfem Hlídače státu Michalem Bláhou také popisuje, jak je sčítání hlasů zabezpečeno a proč nemají podobné incidenty na celý proces žádný vliv. Mluví také o tom, jak úřad postupně digitalizuje sběr dat a co v této oblasti chystá. Celý rozhovor si můžete poslechnout v podcastu na Lupa.cz

Na stránkách Českého statického úřadu (ČSÚ) je obrovské množství dat, v tabulkách, grafech, někdy jsou údaje i okomentované. Jsou na vašem webu všechna data, která u vás nějakým způsobem vzniknou, nebo děláte pro úřady také analýzy na míru?

Nepracujeme podle ad hoc požadavků. Data sbíráme na základě Programu statistických zjišťování, prostřednictvím kterého se definuje pro následující rok obsah, účel a plán jednotlivých statistických zjišťování podle aktuálních potřeb. ČSÚ poskytuje komplexní statistické podklady pro potřeby státní a veřejné správy, samosprávy, podnikatelské sféry, mezinárodních institucí, výzkumných organizací aj. Statistická data shromažďuje výhradně pro statistické účely. Naším primárním úkolem je sběr dat a jejich analýza už je zejména na uživateli. To neznamená, že neděláme žádné analytické výstupy, samozřejmě nás velmi zajímá, co je v pozadí těch dat, abychom je třeba mohli dobře odprezentovat. 

Máte statistiku, kolik vlastně dat publikujete, s kolika datovými sadami pracujete a podobně? 

Přesné číslo opravdu nemám. Nicméně jsou to data například o zemědělství, ale zároveň také sbíráme data týkající se průmyslu, zdraví obyvatel, je toho strašně moc. Já mám na starosti činnost krajských správ. Ve všech krajských správách máme informační servis, tak abychom byli schopni blíže komunikovat s uživateli a představiteli regionů. Na všech krajských správách máme oddělení terénního zjišťování a na polovině krajů máme ještě zpracování dat od firem. A to máme ještě rozděleno podle jednotlivých gescí, takže například v Českých Budějovicích jsou zaměřeni na statistiku zemědělství.

Je to kvůli tomu, že na jednotlivých krajských pobočkách soustředíte odborníky na danou doménu? Nebo to vzniklo nějak historicky?

Vzniklo to spíše historicky tam, kde byl větší poměr respondentů v dané oblasti. Proto třeba ty České Budějovice a zemědělství. Doba ty rozdíly přece jen trochu stírá a snažíme se, abychom měli spíše univerzální pracovníky, zejména co se týče procesu zpracování, ale na druhou stranu musí perfektně znát odbornou problematiku týkající se výkazů v jejich gesci. 

A pak se to všechno soustředí na centrále, kde se vyrábějí výstupy, které vidí veřejnost.

Proběhne zpracování a následně diseminace výstupů. Ale co by vás mohlo zajímat, je způsob sběru dat od podniků. Momentálně jim nabízíme tři možnosti, a to je klasický papírový formulář, který už naštěstí trošku ustupuje do pozadí a není tolik využíván. Nabízíme jim také vyplnitelné PDF formuláře a máme webové stránky Dante web, kde je také možné výkazy vyplnit. Ale máme samozřejmě do budoucna spoustu plánů, jak ten standard vylepšit. Chceme nabídnout něco, jako je portál Moje daně, v našem případě půjde o Portál respondenta. Data požadujeme na základě zákona o státní statistické službě. Na začátku roku rozesíláme oznámení o zpravodajské povinnosti, kde je vždycky soupis toho, které výkazy po dotyčné firmě či instituci budeme chtít v tom daném roce vyplnit, a pak jí zasíláme konkrétní výkazy.

Vím, že to mým firmám chodí, odhadem tak jednou za dva roky. Vždycky si říkám, proč se mě na to staťák ptá, když by si to mohl někde zjistit sám. Můžete si ta data teoreticky zjistit jinde, nebo jste bezpodmínečně závislí na tom, co vám firmy samy o sobě řeknou?

Správně jste zmínil, že ty výzvy chodí tak jednou za dva roky. Nejedná se třeba o pravidelné šetření, ale může se stát, že jste se dostal jednou za ty plus minus dva roky do výběru. Snažíme se obesílat minimum zpravodajských jednotek. Nejedná se o plošná zjišťování, naším cílem není rozesílat je na všechny podniky a žádat o všechny informace. Výběr provádíme opravdu cíleně. 

A jestli ta data máme, či nemáme… Snažíme se využít co nejvíce administrativních zdrojů. Máme to mezi prioritními úkoly a každý rok se poměr toho, co vyžadujeme od zpravodajských jednotek, zmenšuje. Existuje ale několik ale. Jsou data z administrativního zdroje stejně kvalitní? Jsou včas, jak nám nařizují jasně dané termíny Eurostatu? Jsme připravení je vůbec převzít? Většinou ano, ale na druhou stranu pořád ještě nejsme v elektronizaci tak daleko, takže nám to u některých rezortů dělá opravdu problém. 

Změna je jedním z cílů našeho většího projektu, který bude financován z Národního plánu obnovy. Zabývá se inovací a rozvojem celého našeho statisticko-informačního systému, a to ve všech fázích, od sběru dat, přes zpracování až k diseminaci. Patří se například ten Portál respondenta, ale chceme jít dál, chceme si brát – samozřejmě se svolením zpravodajské jednotky – data třeba i rovnou z účetních systémů.

Nemůžete si data brát třeba od finančních úřadů nebo od České správy sociálního zabezpečení? Třeba počty zaměstnanců na sociálce ví, finanční úřady zas znají obraty firem. Nemůžete to dělat už dnes?

To, co jde, si už momentálně bereme. Bylo to tak třeba i v projektu sčítání lidu. Občané viděli otázky, na které se jich ptáme, ale možná neviděli pozadí: kolik dalších dat jsme si posbírali z administrativních zdrojů. Měli jsme opravdu kompletní informace a snažili jsme se veřejnost zatěžovat co nejméně. Stejné je to i s podniky. Snažíme se, aby administrativní zátěž byla pro firmy co nejmenší. Chápu, že je to asi zdržuje od jejich hlavní činnosti a může jim to připadat jako zbytečná věc, ale když se podívají večer na zprávy, tak by mohli mít radost, že pomohli k tomu celkovému číslu. My ta data opravdu potřebujeme, protože jinak prostě nedostaneme o naší zemi ucelený obraz.

Nám by se samozřejmě líbilo brát si ukazatele třeba z finanční oblasti od úřadů, protože dnes neobesíláme všechny jednotky a ta data by byla kvalitnější. Například pro výpočet inflace jsme už začali využívat administrativní zdroj, takzvaná scanner data. Dříve museli naši terénní pracovníci chodit do obchodů a tam zjišťovat ceny jednotlivých výrobků. Kdežto teď máme od velkých supermarketů data přímo z jejich systémů, takže je výpočet inflace mnohem přesnější. 

Máme třeba i informace, že nějaké komodity byly v akci, takže o jejich ceny můžeme data očistit. K zatřiďování jednotlivých typů produktů využíváme strojové učení – například když je to jogurt, tak o jaký typ jde a zatřiďování probíhá automatizovaně. A jdeme samozřejmě dál, máme už data za lékárny, k tomu přidáváme hobby markety. Slouží to ke zpřesnění a k větší kvalitě informací.

Sčítání hlasů bez přístupu na internet

Dalším tématem, na které se chci zeptat, jsou volby. Dvoje volby máme poměrně čerstvě za sebou a zejména ty prezidentské máme asi všichni v čerstvé paměti. Velmi často se v médiích diskutuje o tom, jestli jsou volby bezpečné, jestli se dají zfalšovat a podobně. Vím, že způsob fungování voleb a jejich zabezpečení statický úřad komunikuje poměrně často, ale můžete popsat základní principy?

Snažíme se, aby veřejnost pochopila, že zabezpečeny jsou. Hlavní kontrolní možností je to, že hlasování probíhá osobně, prostřednictvím hlasů na papíře (tedy ne digitálně), které se dají přepočítat. To je ta nejlepší kontrola, která případně může být. Zajímavé možná je, jak jednotlivý hlas putuje od voliče až do celkových výsledků. Volič přijde a vhodí lístek do volební schránky. Když je hlasování ukončeno, okrsková volební komise sčítá hlasy, vyhodnocuje, jestli jsou správně, ne z pohledu toho, jestli je to pro toho daného kandidáta, ale jestli hlasovací lístek třeba není přetržen a podobně. 

Takže to, že se volby dají velmi těžko zmanipulovat, zajišťuje samotná komise, ve které je více očí a vzájemně se kontrolují.

Je tam více očí a jsou to zástupci, kteří jsou delegovaní různými politickými stranami a hnutími. Pouze pokud nemají dostatek členů, je jejich výběr v kompetenci starosty. 

Takže pokud si někdo myslí, že se tam třeba děje něco nekalého, nic mu nebrání v tom, aby se nechal do této komise nominovat. Asi oba víme, že o účast těchto komisích není velký zájem, takže šance dostat se do ní je poměrně vysoká.

Přesně tak, tam mají tu největší kontrolu. To je dáno zákonem a myslím, že jde o jednu z perfektních pojistek.

Pojďme dál. Rozumím tomu, že komise fyzicky sečtou lístky, ale zbytek komunikace už asi běží elektronicky. Je to tak?

Komise sečtou lístky a potom vytvoří takzvaný zápis o průběhu a výsledku hlasování. Ten mohou zapsat do papírového formuláře, anebo jim k tomu poskytujeme program, který slouží k zápisu výsledků. Je v něm spousta kontrolních vazeb typu, že nemůžete mít víc odevzdaných hlasů, než máte voličů. Takže na to je program případně upozorní, ale jinak nedělá nic. Nesčítá hlasy, jenom předává to, co mu komise napíše. Plus jsou kontrolní součtová čísla, která program vyplní za ně, což je usnadnění a je to pro kontrolu opravdu mnohem jednodušší. 

A to se pak posílá přes internet do centrály?

Ne, to musí komise nahrát na flash disk a ten nám přivézt. Potřebujeme opravdu fyzicky vytištěnou dokumentaci se všemi podpisy, protože komise svým podpisem stvrzuje pravost dat. 

Ty disky se vozí na krajské statistické úřady? 

Na přebírací místa, kterých je okolo pěti set, pro volbu prezidenta o něco méně, protože tam už postupujeme podle nejnovějšího zákona. Disky nám tam přivezou a naši proškolení zaměstnanci zkontrolují všechny formální náležitosti a data převezmou. 

A tím kontrolním součtem zkontrolují i to, že nejde o podvrženou flešku a podobně?

Přesně tak, kontrolní čísla musí souhlasit, není to možné obejít. Data pak vložíme do systému zpracování. Přičemž ale okrskové volební komisi vydáme doklad, který obsahuje opis výsledků hlasování, jak jsme je převzali. Komise si tedy může zase zkontrolovat, jestli to, co nám předala, máme v systému ve stejné podobě. Zároveň máme v České republice unikátní systém v tom, že ta data více méně online publikujeme na webových stránkách volby.cz, až do úrovně okrsků. Okrsková komise si tedy zase může všechno zkontrolovat na webových stránkách. Prezentaci dat přitom máme od databáze zcela oddělenou.

Takže tím, že nefungují webové stránky, sčítání nijak ovlivněno není.

Není. A na přebíracích místech není vůbec přístup na internet.

Ale když převezmou flešku, tak ta data k vám posílají elektronicky.

To jde vnitřní zabezpečenou sítí, která jde mimo internet. 

Nebývale dlouhý DDoS

Při letošních volbách byl váš web pod kybernetickým útokem. Bylo to dramaticky jiné než v jiných letech?

Naším úkolem je hlavně zpracování výsledků voleb a jejich předání státní volební komisi, která je případně schválí. Prezentace výsledků na webu je skvělá, ale není pro nás to hlavní. Nikdy v ní nebudeme na úrovni médií, která umí krásnou grafiku, a ani nechceme, aby nás sledovalo 10 milionů občanů. To není naším cílem. Takže pro nás je výhodné, že od nás média dostávají vyhrazeným kanálem data stejně rychle, jako je zveřejňujeme my. Dovedou je zpracovat, analyzovat a rovnou poskytovat související informace. Naše spolupráce je určitě fajn. Před volbami pořádáme s médii i technické zkoušky, dáváme jim různé dávky dat, aby si novináři mohli odzkoušet, co se bude v den voleb dít. 

Stránky pro volební výsledky, volby.cz i stránky Českého statistického úřadu nám letos fungovaly po celou dobu. Nicméně už několik dní před prvním kolem volby prezidenta jsme čelili velmi zvýšenému počtu dotazů na naše stránky s cílem buď omezit jejich činnost, anebo je znepřístupnit. 

DDoS útok, předpokládám.

Jednalo se o DDoS útoky a pokusy o ně. Máme krizové scénáře, nejen pro volby, ale i pro běžnou činnost. Se zaměstnanci provádíme školení, dělali jsme i takzvané table-top cvičení. Pro volby nám ho loni připravoval Národní úřad pro kybernetickou a informační bezpečnost. A byla jsem ráda, že se nám podařilo ten náš tým sehrát natolik, že všichni věděli, co mají dělat. Samozřejmě je potřeba komunikovat s dodavateli služeb, kteří pro nás zajišťují konektivitu. Tu máme zdvojenou. Pro volby je potřeba na krátký čas zprovoznit velkou infrastrukturu, která pak není po zbytek roku potřeba. Využíváme infrastrukturu úřadu, ale pro období voleb kapacity navyšujeme. 

Všichni víme, že volby jsou z pohledu bezpečnosti nebo pokusu o nějaké napadení velmi rizikové. Máme řadu scénářů. Letos jsme nakonec omezovali přístup ze zahraničí, ale pro občany z České republiky stránky fungovaly po celou dobu. 

Lišily se letošní útoky při prezidentských volbách nějak dramaticky od útoků třeba na parlamentní volby nebo na některé z předchozích voleb?

První větší střet s realitou proběhl při volbách do Poslanecké sněmovny v roce 2017. Bylo to poprvé, kdy byl znemožněn přístup na oboje naše stránky. Od té doby se nic zvláštního nedělo. Tentokrát jsme měli předem avízo od bezpečnostních složek, nicméně jsme se připravovali úplně stejně jako na každé jiné volby. Specifická byla možná délka trvání letošních útoků.

Byly delší?

V tom roce 2017 to byla otázka asi 40 minut. Ale tentokrát začaly několik dní před zahájením voleb a trvaly ještě dva, tři dny po nich. 

Útočili na vás při obou kolech a – aspoň podle toho, co bylo publikováno – pravděpodobně šlo o nějaké proruské skupiny. Máte podobné informace?

Tyto informace mám pouze z médií a nečekám, že bychom nějaké další dostali. Ono nám je v podstatě úplně jedno, jestli to je jedna, nebo druhá země. Pro mě je důležité zabezpečit to, aby ta prezentace byla viditelná. Ale není to priorita, většina občanů stejně sleduje výsledky na stránkách médií, ne na volby.cz. Je to v podstatě nástěnka a nemá vliv na zpracování voleb, přesto si uvědomujeme, že by mohlo dojít ke ztrátě důvěryhodnosti, a děláme i pro jejich funkčnost maximum.