Ať jedí koláčové grafy!

Společným koníčkem teoretiků z oblasti vizualizace dat je již téměř sto let vzájemné špičkování se o smysluplnosti a oprávněnosti koláčového diagramu. Jedni koláčové grafy zavrhují úplně – například konzervativní teoretik Stephen Few pro ně nemá jediného kladného slova – druzí si z těch prvních dělají srandu nebo koláče brání. Umírněný střed pak hledá cesty, jak případné škody napáchané masově užívaným výsečovým diagramem udržet pod kontrolou skrze osvětu. Ani jedno z extrémních stanovisek stále nemá dostatečné podklady, aby mohlo být prohlášeno za pravdivé. Krátký exkurz do historie velkého vizualizačního hejtu.

„Pie chart users deserve same suspicion+skepticism as those who mix up its/it’s, there/their. To compare, use little table, sentence, not pies.“ (@EdwardTufte) / „Young man: do you want to be part of the visualization community? Let’s start by ranting about pie charts, that’s the passport.“ (@moebio)

Sám vyznávám umírněný střed. Souhlasím, že koláčový „graf“ představuje velmi omezenou formu vizuální komunikace dat a jeho používání vyžaduje velkou míru obezřetnosti. Ovšem je zhola nemožné očekávat, že něco tak hluboce zakořeněného v kancelářských aplikacích a ergo i v obecných vizualizačních rutinách dokážeme vymýtit. Je jen třeba si dávat pozor a využívat koláčové grafy jen pokud je to opravdu vhodné (a to nejlépe pouze mimo akademické prostředí), plus mít na paměti několik základních pravidel jejich tvorby (o nich třeba příště). Ani zde ovšem nepanuje jasná shoda – například otázka po optimálním počtu řezů je tu s námi už taky téměř století a zaručených odpovědí, založených na zkoumání kognitivních schopností člověka, naleznete nespočet – od dvou až po šest řezů maximálně.

Diagram nevalné pověsti

Limitů výsečového diagramu si byl zřejmě vědom již jeho „vynálezce“ William Playfair, jemuž vděčíme za popularizaci mnoha dalších forem, jmenovitě například sloupcového nebo spojnicového grafu. On sám využíval koláče jen velmi občasně a ani ve svých spisech, kde ostatní objevené či popularizované formy grafů obvykle zevrubně diskutoval, mu podle Spence (2005) nevěnuje výraznější pozornost. Existují dvě možná vysvětlení, proč svůj výtvor opomenul komentovat: a) považoval jej za něco natolik lidskému oku přirozeného, že to nepotřebovalo bližší popis, nebo b) sám usoudil, že něco tak neefektivního se nikdy v širším měřítku neuchytí. Druhá možnost představuje pravděpodobnější variantu.

Statistical Breviary – William Playfair, 1801.

Zpočátku se koláčovému diagramu s uchycením opravdu příliš nedařilo, což ovšem nebylo důsledkem kognitivní disharmonie při jeho čtení, nýbrž doprovodným jevem Playfairovy nevalné pověsti, kterou si na sklonku 18. století vydobyl.  Zhruba od 80. let byl William aktivní v mnoha podnikatelských projektech v Londýně a Paříži, které často končily finanční ztrátou a podvody: v Londýně si nadělal velké dluhy a již jako mladý muž byl obviněn z přivlastňování si cizích patentů, v Paříži byl pak aktérem několika finančních skandálů a nevyhnul se ani trestnímu stíhání. K dobré pověsti nepřispívala ani jeho záliba v kritice, která často ústila do různých manifestů, zbrojících proti leckomu a lecčemu. Tehdejší akademická obec tak byla k jeho výtvorům značně skeptická – vskutku významná bariéra pro uznání vaší práce v 18. století.

Nebýt Williamova uznávaného staršího bratra Johna, kdo ví, zda bychom dnes něco jako koláčové grafy znali a zda by nezůstaly zapomenuty ve Williamových spisech (k dnešní radosti mnohých). Johnův přítel, německý přírodovědec a geograf Alexander von Humboldt, odvezl Williamovy spisky do Německa, kde se kulatému grafu dařilo dobře. Později se ujal i ve Francii, kde ho používá například Charles-Joseph Minard ve svých nádherných vizualizacích a ještě o něco později se koláčový graf začíná konečně uchycovat i v Playfairově domovské Anglii, kde inspiruje Florence Nightingalovou a její diagramy úmrtnosti v armádě. Ještě co se týče Francouzů – ti samozřejmě zůstávají u jídla a místo koláče (pie) označují kulatý graf jako camembert, sýr, který se krájí podobně jako typický páj (Spence, 2005).

Počátky nenávisti

Vizualizační idylka však netrvá dlouho. První pochyby o výsečovém diagramu se objevují záhy po jeho masovém rozšíření: podívejte se, co už v roce 1914 píše o kruhových sektorech Brinton ve své klasické publikaci Graphic Methods for Presenting Facts:

„Fig. 1 gives all the data without in any way detracting from the ease of reading the chart itself. Fig. 2 is a form of chart used probably more widely than any other form to show component parts. The circle with sectors is not a desirable form of presentation, however, because it does not have nearly such flexibility as the method shown in Fig. 1. If the horizontal-bar method of Fig. 1 were used as frequently as the sector method, it would be found in every way more desirable than the sector method and would, in a very short time, become so well known that it would be read much more quickly and accurately than the method involving sectors.“

Metoda sektorů, jak Brinton koláčový diagram nazývá, se podle něj rozšířila především díky jejímu masovému užití v „popular magazines“ (zřejmě stylem něco jako např. náš Světozor vycházející v 19. století), které lze osvětlit faktem, že kulaté tvary jsou obecně považovány za více oku lahodící než ty ostatní. Brinton v knize nadšeně a přesvědčivě lobuje za nahrazení sektorů skládanými sloupcovými diagramy, ale jak tušíte, na úrodnou půdu jeho výzvy nedopadly.

Krátká poznámka na okraj: v Brintonově nadčasové klasice se v podstatě setkáváme s kritikou různých forem vizualizace dat v takové podobě, jak ji u teoretiků nalézáme dodnes – kromě nevhodnosti koláčových grafů se tu diskutuje např. i problematika bublinových grafů s ohledem na obtíže při porovnávání velikosti plochy. Při čtení Graphic Methods for Presenting Facts zjistíte, že se toho za sto let příliš nezměnilo: stále opakujeme ty stejné chyby a stále kritizujeme ty stejné nedostatky jednotlivých vizualizačních forem.

První experiment

Kromě nárůstu kritiky se ve dvacátých letech 20. století kolem koláčů příliš humbuku neděje. Důležitý milník nastává v roce 1926, kdy Walter C. Eells publikuje svůj článek The Relative Merits of Circles and Bars for Representing Component Parts Journal of the American Statistical Association. Význam těchto pár stran není pouze historicko-badatelský (shrnuje zde autory věnující se koláčům a působí tak jako rozcestník k dobové debatě o nich), nýbrž i vědecký – Eells se se jako jeden z prvních pokouší přistoupit k tématu empiricky a ověřit (ne)efektivitu koláčů experimentem.

Některé z koláčových diagramů použité v Eellsově experimentu.

Za pokusné králíky posloužili Eellsovi studenti psychologie, kterým byl předložen soubor různých koláčových diagramů a jejich úkolem bylo odhadnout co nejpřesněji ve stanoveném čase hodnoty, které jednotlivé segmenty představují. Tři dny na to byl studentům předložen další soubor, kde byla stejná data (t.j. stejné hodnoty) zakódovány do skládaných sloupcových diagramů.

Eells ve svém článku sumarizuje veškeré argumenty kritiků, které jsou přítomny dnes stejně, jako kdysi, a které se výzkumem pokusil potvrdit či vyvrátit: 1) kruhové diagramy se čtou pomaleji než formy založené na sloupcích; 2) kruhové diagramy není možné číst tak přesně jako sloupce; 3) nepřesnost zobrazování segmentů pomocí kruhových diagramů tkví ve způsobu,  jak jsou tyto segmenty čteny: a) jsou většinou čteny skrze velikosti ploch, tedy jsou nepřesné, b) jsou většinou čteny skrze tětivy, čili jsou taktéž nepřesné, c) lidské oko není dobré v porovnávání oblouků a úhlů. Čtvrtý bod si zaslouží být ocitován v původním znění:

„Circle diagrams enjoy a certain unintelligent popularity – they catch attention, but are unworthy of serious use; while  their popularity and psychological appeal are grudgingly admitted, their use is ‚an insult to a man’s intelligence‘.“

Stejná data v jiné formě. Ukázka z druhého souboru Eellsova experimentu.

Výsledky (z dnešního hlediska metodologicky poněkud vratkého) výzkumu ukázaly, že ani jeden ze čtyř argumentů kritiky nelze potvrdit: koláčové diagramy se podle Eellse čtou stejně rychle a jednoduše jako skládané sloupcové diagramy a nejen to – hodnoty mohou být v koláčích dokonce čteny přesněji! Co se týče způsobu jejich čtení, zhruba polovina skupiny četla koláče skrze délku oblouků jednotlivých segmentů, 25 % vnímalo plochu a 25 % vnitřní úhel; bez ohledu na cestu čtení, všechny způsoby se ukázaly být shodně přesnými. A celkový výsledek?

„…the use of circle diagrams to show component parts is worthy of encouragement; they should be recommended, not only on account of their popularity and psychological appeal, but also on the basis of scientific accuracy; their use should be considered a ‚compliment to a man’s intelligence‘.“

Koláčové grafy na houpačce

Odpovědi na sebe nenechaly dlouho čekat. Aktivní byl především statistik Frederick E. Croxton, který provedl a publikoval hned tři další experimenty v reakci na Eellseho „nedostatečné“ pokusy. Například v Bar Charts Versus Circle Diagrams dochází podobnými experimenty jako Eells k obsáhlým závěrům, že koláčový diagram je sice někdy lepší než skládaný sloupcový, ale někdy prostě ne. Jak shrnuje Spence (2005) – tyto rané experimenty různící se kvality Eellsovy závěry nikdy přesvědčivě nevyvrátily.

„Nonetheless, by the middle of 20th century, many statisticians held strong opinions against the pie, although a number of later studies had demonstrated that the pie was not inferior to the divided bar when users has to estimate or compare simple proportions.“ (Ian Spence – No Humble Pie, 2005)

V osmdesátých letech přicházejí Cleveland a McGill, ve vizualizační komunitě známá jména, a řeší koláčový problém efektně: souboj sloupec-koláč označují za remízu, obě formy prohlašují za neefektivní a jako řešení předkládají formy vlastní: dot chartgrouped dot chart (více v jejich klasické práci Graphical Perception). Na to kritikou reagují Simkin a Hastie, pak Spence, který kontruje poukázáním na fakt, že na rozdíl od jakékoliv jiné alternativní sloupcové formy zobrazování segmentů koláče vzbuzují pocit celku a poskytují několik přirozených vizuálních „kotev“ (25 %, 50 %, atp.). Na to reaguje… Stop. Celá historie je v podstatě neustálou houpačkou mezi pozitivními a negativními přístupy, snahami obhájit výsečový diagram nebo jednoznačně a provždy prokázat jeho hloupost. Ani po sto letech, mnoha empirických výzkumech a debatách však stále nemáme jasné důkazy pro nebo proti.

Podle Spence veškerá kritika vzniká převážně díky tomu, že lidé používají koláče k úlohám, na které tyto prosté formy nestačí. Jak jsem poznamenal v úvodu: koláčový diagram je jednoduchou formou vizualizace dat a jako takový je třeba vnímat a užívat s rozvahou.

Nejnovějším přírůstkem do koláčové debaty je letošní výzkum vědců/studentů Tufts University, kteří využili systém pro funkční spektroskopii využívající blízkou infračervenou oblast elektromagnetického spektra (v orig. functional near-infrared spectroscopy, zkráceně fNIRS) ke sledování mozku participantů, kteří byli na určitý krátký čas vystaveni koláčovým diagramům a sloupcovým grafům a měli určovat poměry jednotlivých segmentů či prvků. Zařízení zaznamenávalo stav odkysličeného hemoglobinu, jehož výskyt podle výzkumníků souvisí s mentálním úsilím vynaloženým při vnímání vizuálního designu. Výsledek: žádný velký rozdíl mezi těmito formami nebyl zaznamenán, ačkoliv, a teď již opět cituji kritiky (např. Few): sama technologie se stále nejeví jako dostatečná k podobným měřením a výzkum pravděpodobně nesimuloval reálné postupy čtení vizualizovaných dat. Tak snad příště. Do té doby s koláči stále opatrně, nikoliv však nutně odmítavě.