Postup práce pro 3 stanovené cíle

Postup pro 1. cíl: Základní přehled o datovém souboru pomocí Power BI

Díky digitální akademii jsme se seznámily s nástrojem Power BI, který je skvělým programem pro vizualizaci dat. Práci nám ulehčilo i to, že Power BI umožňuje import dat z Google Analytics přímo do Power BI.

Kromě standardních funkcí Power BI jsme chtěly využít grafu pro slova, Word Cloud, za účelem zobrazení hledaných klíčových slov z oblasti nanotechnologií. Proto jsme musely doinstalovat tuto aplikaci, která vyžadovala firemní e-mail.

Díky článku od Pavla Lasáka jsme se dozvěděly o možnosti importu GA dat přímo do Power BI a postupovaly jsme tedy podle kroků zmíněných v jeho článku. Import dalších dat do Power BI proběhl skrze import excelovských tabulek.

Jelikož v našem prvním cíli nám šlo o získání uceleného přehledu o datovém souboru, všechna vizualizovaná data patřila do zkoumaného období 1. 11. 2017 až 31. 10. 2019, s výjimkou dat z Skliku, kde je omezení pouze pro posledních 12 měsíců.

Postup pro 2. cíl: Aktualizovaný report z GA v Google Data Studiu

Na Hackathonu jsme poprvé otevřely Google Data Studio a celý den jsme měly o zábavu postaráno. Tento nástroj se v mnohém podobá právě Power BI, takže jeho používání pro nás bylo poměrně intuitivní. Kromě funkcí Data Studia se dostalo i na podmíněné výrazy, jelikož některé prvky neumožňovaly dostatečnou kustomizaci, což se dalo "obejít" právě využitím podmíněných výrazů.

Původně jsme pro tvorbu aktualizovaného reportu zvažovaly vytváření jednoduché mobilní aplikace, ale když jsme objevily možnosti Google Data Studia velmi rychle jsme změnily názor. Kromě hezké vizualizace dat a aktualizace v téměř reálném čase se nám líbilo i to, že report v Data Studiu bude stále dostupný pro klienta, a kdyby v něm chtěl dělat nějaké změny, aby viděl jiná data v jiných časových úsecích, než jsme zvolily my, není to zas tak náročné, na rozdíl třeba od změn ve zmíněné mobilní aplikaci.

Vzorový report z Google Data Studia

Při tvorbě reportu v Data Studiu jsme se inspirovaly reportem pro hodnocení obsahu webu od Miroslava Pecky a také jeho návodem, jak propojit data z GA účtu, Data Studio a Google Tag Manager (Správce značek). Pan Pecka zároveň hezky popisuje, k čemu je report pro web vlastně dobrý: "Získáte pohled na data o chování lidí na webu na jednom místě. Nebudete muset procházet jednotlivé přehledy v samotných Google Analytics."

Definice podmíněného výrazu v Data Studiu

V Data Studiu je možné při vizualizaci nadefinovat metriku. Využily jsem tedy příkazu "CASE", kde jsme 100 (a více) zobrazení nadefinovaly jako maximum. Tím jsme dosáhly větší variability barevného rozlišení v celosvětové mapě a zároveň se přesvědčily o tom, že Česko je "Nano".

Postup pro 3. cíl: Hledání korelací

Zajímalo nás, jaké vnější faktory, kromě obsahu samotného, ovlivňují návštěvnost na webu a Facebooku Česko je nano. Napadly nás různé proměnné, jako hledanost klíčových slov z oblasti nanotechnologií na českém internetu, zmínky o nanotechnologích v českých médiích a účast zástupců Česko je nano na různých konferencích a veletrzích v ČR i různě po světě.

Při hledání korelací bylo nejprve nutné propojit více proměnných (návštěvnost na blogu a FB, četnost propagace, zmínek v médiích a zájem o nanotechnologie podle vyhledávání souvisejících klíčových slov na internetu), což jsme udělaly přes jednu společnou proměnou; datum. Někdy šlo o denní časovou řadu, někdy o měsíční řadu.

Původně jsme plánovaly hledat sílu korelace v programu IBM SPSS, ale náš mentor nám ukázal, že za stejným účelem lze s daty pracovat také v Pythonu při využití knihoven Pandas, Matplotlib a Seaborn a také s vývojovým prostředím Jupyter Notebook. Navíc tento způsob byl oproti práci v SPSS mnohem rychlejší.

Korelační koeficient

Jako nejvhodnější korelační koeficient pro naše data jsme vybraly Spearmanův koeficient, protože ten na rozdíl od Pearsonova koeficientu nevyžaduje lineární závislost mezi zkoumanými veličinami, což byl přesně náš případ. Spearman se dle L. Rabušiče, P. Mareše a P. Soukupa hodí pro zkoumání korelace mezi dvěma ordinálními proměnnými nebo mezi ordinální a intervalovou proměnou, kdy mají obě mnoho kategorií, což byl také většinou náš případ.

Síla korelace

Pro interpretaci síly korelačního koeficientu jsme opět využily poznatky od L. Rabušiče a spol., kteří výsledné hodnoty korelací klasifikují následovně:

0,01 - 0,09 => triviální neboli žádná souvislost proměnných
0,10 - 0,29 => nízká až střední souvislost
0,30 - 0,49 => střední až podstatná souvislost
0,50 - 0,69 => podstatná až velmi silná souvislost
0,70 - 0,89 => velmi silná souvislost
0,90 - 0,99 => téměř perfektní souvislost

Práce s nástrojem Jupyter Notebook a Pythonem

Na jednu konzultaci jsme si připravily excelovskou tabulku s proměnnými, u kterých nás zajímaly možné korelace. Radek Svoboda, mentor projektu, nám ukázal, co dokáže Python v kombinaci s Jupyter Notebookem. Šlo o rychlé zhodnocení síly korelací pro skupinu proměnných, což Jupyter zobrazil jako matici výsledných korelačních koeficientů. Mentor nám také ukázal, že matici můžeme vizualizovat o něco srozumitelněji s pomocí heat mapy, kterou dokážeme vytvořit s využitím knihoven Matplotlib a Seaborn.

Korelace jsme zkoumaly pro tři skupiny proměnných.

První skupina se týkala proměnných vztažených k denní časové řadě.
Druhá skupina se týkala proměnných vztažených k měsíční časové řadě.
Třetí skupina se opět týkala měsíční časové osy, ovšem tady šlo o zkrácené období, jelikož jsme hledali korelaci v datech z Skliku, která jsme měly pouze za posledních 12 měsíců.

Mezi výsledky korelačních koeficientů nás zarazila skutečnost, že mezi počtem propagačních akcí vztažených na dny a návštěvností webu Česko je nano nebyla žádná nebo spíš nízká souvislost. Napadlo nás, že bude možná lepší sledovat efekt propagačních akcí spíše v jednotlivých měsících. Na konferencích a veletrzích mnoho účastníků posbírá inspiraci a vizitky, které podrobněji probírají až později, za pár dnů nebo až během dalšího víkendu, proto jsme zkusili proměnou sledující počet propagačních akcí přesunout z první skupiny proměnných (denní) do druhé skupiny proměnných (měsíční).

Postup pro hledání korelací pomocí Pythonu a Jupyter Notebooku jsme pak zopakovaly doma s již pozměněnými skupinami proměnných.