Velkou část času na předmětu Digital Humanities jsme strávili programováním v jazyce R, proto bylo příjemnou změnou, když jsme si po „hardcore“ analýze textu mohli vyzkoušet i jednodušší metody.

Seznamte se s Voyant Tools1 – sadou nástrojů pro zkoumání textových korpusů. Stačí vložit nebo nahrát texty a můžete začít analyzovat bez čachrování se závislostmi RStudia a s kódováním souborů.

Při výběru materiálu pro analýzu jsem opět sáhnul do britského kulturního fondu, tentokrát má volba padla na Sherlocka Holmese. Nikoliv toho s chytrým telefonem a nikotinovými náplastmi, ale viktoriánského džentlmena s lupou a dýmkou v příbězích sira A. C. Doyla. Do analýzy jsem zahrnul celý kánon – čtyři romány a pět sbírek krátkých povídek. Velká výhoda je, že těmto textům vypršel copyright, takže není problém je legálně stahovat a šířit. K tomu jsem použil výborně zpracované stránky Christopha Endera The complete Sherlock Holmes.

Zdrojové texty jsem uspořádal podle typu (román/sbírka) a data vydání; výsledkem je tento korpus na Voyant Tools (s aplikací stopslov).

Voyant Tools mi přijdou vhodné především na porovnání dokumentů mezi sebou. Nečekejte však složitější nástroje pro manipulaci korpusu, jako je třeba lemmatizace – nicméně pro základní přehled o textu to stačí.

Výchozí zobrazení se hodí k průzkumu klíčových slov a jejich trendů napříč dokumenty.

Trends a Keywords in Context. Zdroj

Například z porovnání relativní frekvence výskytu je zajímavé, že prakticky vždy je řeč o panu Holmesovi; zaujala mě i poměrně vysoká frekvence jména Watson – texty jsou koneckonců psané v první osobě pohledem Johna Watsona. Při pohledu na tabulku Keywords in Context je však zřejmé, že v řadě případů se jedná o oslovení v přímé řeči; My dear Watson…

Velice užitečný je nástroj Corpus Summary, který nabízí i základní přehled o „outlierech,“ respektive slovech, jejichž frekvence značně kolísá a nebo jsou výrazněji zastoupená v konkrétním dokumentu.

Přehled základních informací o korpusu. Zdroj.

V trendech se objevují inspektoři Scotland Yardu, se kterými Holmes pracuje nejčastěji (Gregson, Lestrade, Hopkins…) a zároveň je zřejmé, kde se odehrává Pes baskervillský.

Je zde však celá řada dalších možností pro vizualizaci a průzkum textu. Pro sledování frekvence a výskytů slov v průběhu dokumentů jsou užitečné bublinky – Bubblelines. Tak například, jak často se vyskytuje v Sherlockových dobrodružstvích jeho starší bratr? Případně antagonisti – profesor Moriarty a plukovník Moran?

Bubblelines ukazují koncentraci a míru opakování konkrétních slov. Zdroj.

Zdá se, že jejich výskyt je poměrně koncentrovaný do konkrétních povídek. Příznačné je i to, že v Psovi baskervillském není ani jedna zmínka, děj se odehrává před Posledním případem a navazuje až další příběh v Návratu Sherlocka Holmese. Zajímavé je zkoumat i výskyty dalších postav – vyzkoušejte například Hudson, Lestrad, Irene Adler (Sherlock se o ní později skutečně vyjadřuje jen jako o „té ženě“), Mary Morstan (její příjmení vcelku logicky vymizí poté, co se provdá)…

Zaujal mě ještě jeden nástroj – Links umožňují zkoumat vazby mezi slovy; v zásadě se jedná o vizualizaci n-gramů.

To mě přivádí i k jednomu klasickému omylu, kterého se sám dopouštím hned v názvu článku – Sherlockovi bývá často připisován výrok Elementary, my dear Watson! Pravda je taková, že Doylův Sherlock Holmes nic takového nevyslovil – můžeme si to snadno ověřit.

Graf vazeb pro slova „elementary“ a „dear“ – nemají mezi sebou ani nepřímou vazbu (slovo „my“ bylo odstraněno jako stopslovo). Zdroj – případně vyzkoušejte včetně stopslov.

Co ve skutečnosti Holmes prohlásil je Exactly, my dear Watson. Jedna z teorií říká, že se pozměněná fráze poprvé objevila roku 1909 v sérii Psmith, Journalist od P. G. Wodehouse – ve které Sherlock Holmes vůbec nevystupuje.2 K popularizaci fráze mohly přispět i filmová zpracování Doylových děl, kde doktor Watson občas bývá znázorňován jako typický „sidekick“ – prosťáček sloužící ke komickému odlehčení. Jsem proto rád, že novější adaptace vrátily tomuto válečnému veteránovi důstojnost.

Věci zřejmě nejsou tak prosté, jak se zdají být, drahý Watsone.

Z této analýzy by se dalo určitě vytáhnout více; zajímavá může být analýza jednotlivých povídek namísto celých sbírek (k čemuž by ovšem bylo vhodné uspořádat 56 textů chronologicky…), případně porovnání všech Doylových textů. Navíc jsem ukázal jen zlomek možností Voyant Tools; další nástroje už podrobně rozebrala Martina.


Od napsání článku se Voyant Tools výrazně změnily a podpora skinů byla odstraněná; následující text už neplatí.

Rád bych však zmínil ještě jednu užitečnou funkci Voyant Tools o které mlčí i oficiální dokumentace. Základní nastavení nabízí pouze malou část nástrojů. To ovšem neznamená, že musíme zbývající nástroje používat zcela odděleně. Celý systém funguje jako dílky lega, které lze překonfigurovat do nových kombinací – ty se zde nazývají „skiny.“

Klíč se skrývá v tlačítku „export“ (s ikonou diskety) které se nachází v pravém horním rohu všech nástrojů.

Zde stačí vybrat možnost a URL for a different tool/skin and current data a následně si vybrat některou z předpřipravených konfigurací – nebo zvolte Skin Builder a udělejte si vlastní! Mně se osvědčil poslední z nabízených skinů – Windows Desktop. I přesto že jsou virtuální okna v prohlížeči trochu neohrabaná, zde je to ideální funkce na zkoumání možností, které Voyant Tools nabízí.

  1. Dříve také Voyeur Tools; dovedu si představit, proč autoři tento název opustili… 

  2. Více viz Sherlock Holmes Never Said “Elementary, My Dear Watson”