Sběr dat pro analýzu

Jelikož jsme věděly, že budeme mít přístup k datům z GA a Facebooku, která jsou de facto standardizovaná a tedy nevyžadují žádné větší čištění, návrh toho, jaká data sbírat, nebyl příliš komplikovaný. Vlastně zbývalo pouze zvolit si zkoumaný časový úsek.

Sledované období: 11/2017 až 10/2019

Za zkoumané období jsme vybraly 2 roky, od listopadu 2017 do října 2019. Koncové datum bylo vybráno jako poslední a tedy nejaktuálnější celý měsíc v době zpracovávání projektu. Období začíná v listopadu 2017, protože jsme chtěly pracovat s celými, "neosekanými" měsíci i roky.

Data z GA by se sice dala natáhnout až do vzniku webu samotného (rok 2015), ale Facebook nás limitoval v tom, že umožňuje stahování svého Insights reportu pouze po 180 dnech. Abychom příliš nezatěžovaly Jiřího Kůse z nanoasociace, který pro nás reporty stahoval z Facebooku Česko je nano, vybraly jsme tedy 2 roky, což znamenalo stažení 10 různých reportů, kvůli rozsekání časového období na 180 dní.

Export dat z různých zdrojů

Ke sběru dat nám posloužily tabulky v MS Excelu. Nicméně, pro jejich vytvoření bylo nutné exportovat data z několika různých zdrojů, konkrétně z pěti. Šlo o již zmíněné Google Analytics, Facebook a také o data o hledanosti klíčových slov na internetu z nástroje Sklik, který provozuje firma Seznam, a data o výskytu klíčových slov v českých médiích (noviny, časopisy, tv a rozhlas, internet, bez zmínek ze sociálních sítí) z databáze Anopress, tvořené firmou Anopress IT. Posledním zdrojem byl samotný web a Facebook Česko je nano, odkud jsme čerpaly informace o pořádaných akcích, jež se zástupci nanoasociace zúčastnili za účelem propagace.

data z Google Analytics

Poté, co jsme dostaly přístup ke GA účtu pro web Česko je nano, jsme mohly stahovat jednotlivé reporty jako export do Excelu.

data o propagaci na akcích

Tady jsme stvořily tabulku akcí podle dnů, kdy se konaly, na základě pozvánek na webu Česko je nano a také FB postů z akcí. Výsledek nemusí být úplně přesný. Nicméně, doufáme, že 85 % všech akcí mámě podchycených.

data z Skliku

Přístup do Skliku je bezplatný, stačí mít pouze e-mail na portálu Seznam.cz, který Sklik provozuje. Po přihlášení na Sklik.cz jsme zvolily nástroj "Návrh klíčových slov", kde jsme vybraly 101 klíčových slov z oblasti nanotechnologií včetně názvů všech členů nanoasociace. Na základě konzultace s J. Kůsem jsme vyloučily několik klíčových slov či slovních spojení, které obsahovaly slovo nano, ale nijak se nevztahovaly k aktivitám Česko je nano (např. nanohoubičky, nano akvária, nano utěrky nebo hexbug nano). Data z Skliku jsou dostupná pouze za uplynulých 12 měsíců, proto jsme byly nuceny udělat výjimku z našeho vytyčeného období. Data z Skliku tedy máme od listopadu 2018 do října 2019.

data z Facebooku

V tomto případě jsme dostaly od nanoasociace 10 stažených Facebook Insights reportů v Excelu. Šlo o 5 reportů na úrovni celé FB stránky a 5 reportů pro úroveň jednotlivých postů. Bylo nutné každou pětici sloučit do jedné souhrnné tabulky, což by ručně zabralo delší dobu, jelikož šlo o reporty s více než 20 listy. Zvažovaly jsme vytvoření makra v Excelu, ale pomohl nám náš mentor na Hackathonu rychlým sloučením přes Python.

data z Anopressu

Přístup do databáze Anopress, která shromažďuje texty z českých médií od roku 1996, včetně přepisů z televizního a rozhlasového vysílání, bezplatný není. Nicméně, do databáze se lze dostat například z městských knihoven. Pro získání dat z databáze jsme tedy navštívily Ustřední knihovnu města Ostrava. Do vyhledávače Anopress jsme zadaly stejná slova, která se točí kolem nanotechnologií, jako v případě Skliku. Výstupem z vyhledávání na dané klíčové slovo je graf výskytu zmínek tohoto slova v tisku, televizi, na internetu a na sociálních sítích. Přestože ve výsledcích lze vidět i o jaké články či pořady v jakých médiích se jedná, export dat je (aspoň ve verzi pro veřejné knihovny) dostupný pouze pro počet výskytu klíčového slova v médiích po měsících ve zvoleném období. Pracovaly jsme tedy jen s těmito exporty četností zmínek v médiích.

If you torture data long enough, it will tell you whatever you wanna hear.