První shrnutí: dataset COVID 19

Obrázek3

Aktualizace k 13.10. 17:00: Přístup k datům byl povolen.

 

Podařilo se nám získat data, která se dostávají jen k vyvoleným. Jde o dataset COVID 19:

Datové sady pro prediktivní modelování, ke kterému existuje registrační formulář na webu https://onemocneni-aktualne.mzcr.cz/api/v2/covid-19, v praxi se ale po jeho vyplnění nikdo neozve a data nezískáte.

Dataset se skládá ze 4 souborů:

  • Okresní statistika
  • Efektivita testování
  • Testy pozitivních
  • Hospitalizovaní

Všechna data jsou v granularitě okresů a někdy jsou i bez datumové složky (v případě hospitalizovaných). Další výraznou vadou dat jsou jen tři věkové kategorie – 0-19, 20-65 a 65+. Není tedy možné sledovat vývoj mezi mladými studenty, nebo lidmi středního věku.

Při zpracování dat jsme si nemohli nevšimnout toho, že tvůrce dat pravděpodobně data nekontroluje. Některé testy jsou tak datovány do roku 2019, v některých případech je 3.8. prohozeno za 8.3., nebo je případně celkově datum výsledku testu o měsíc posunuto. To vede k závěru, že jsou data ručně zadávána a nedochází k následné kontrole.

 

Pozitivní informace, kterou lze z dat vyčíst je to, že se pozitivně testovaní dozvídají relativně rychle o tom, že jsou pozitivní. Více než 96% případů se dozví výsledek do 2 dnů.

Bohužel ale není možné toto tvrzení pronést i o negativních testech, protože tato data v datasetu nejsou.

V datech je dále možné vidět poměr hospitalizovaných, propuštěných a zemřelých v různých okresech, nicméně není možné sledovat vývoj v čase, neboť časová složka v této sadě chybí. Zarážející je počet pacientů, kteří s COVID-19 zemřou, aniž by se dostali do nemocnice. Současně s tím lidé, kteří zemřeli v nemocnicích do 3 dnů, tvoří v součtu větší skupinu, než těch, co zemřeli po 15+ dnech.

Dalším zajímavým faktem je, že v podstatě každý druhý test je testem již pozitivního pacienta. V první vlně bylo těchto testů více, ale nyní poměr klesá k 50 %.

 

Závěr

Není nám jasné, proč vláda tato data tají. Jejich zveřejněním by bylo vidět, že zpoždění od testu k výsledkům není zase tak závratné (neznáme situaci u negativních testů). Odkryly by se chyby v datech, ale věříme, že by na ně veřejnost upozornila a data se tak vyčistila.

Data jako taková se nedají moc použít k jakékoliv fundovanější analýze, zejména vzhledem k mnoha chybějícím údajům, mezi které patří např. nemocnice, ve které pacient ležel, kapacita těchto nemocnic, detailnější věková skladba, data hospitalizací atp. Vzhledem k nekomunikativnosti státu ohledně poskytování open dat se ale bojíme, že změny jsou spíše nereálné.

 

Interaktivní report:

http://bit.ly/covid_cz_report

 

COVID-19: Data pro modelování predikcí od ÚZIS:

https://github.com/HlidacStatu/UZIS-COVID19-modelovani-predikci