torsdag den 5. januar 2012

TED: 5 million books

TED er et projekt, der går ud på at dele idéer ved at afholde konferencer, hvor tænkere mødes og deler deres opdagelser med hinanden. Den første konference blev holdt i 1984 og havde temaet Technology, Entertainment, Design - deraf navnet.
På hjemmesiden ted.com uploades videoer fra konferencerne, så man kan sidde behageligt hjemme i sit 14 m2 1-værelses kollegiepalads og blive klogere.

Der er virkelig mange interessante videoer om alt muligt på siden, her er en om bøger:

What we learned from 5 million books


Talerne er  Jean-Baptiste Michel og Erez Lieberman Aiden fra Harvard Cultural Observatory. De taler, meget humoristisk, om hvordan man gennem ord kan komme til at forstå  menneskets historie og kulturhistorie bedre. Konklusionen er, at det mest optimale ville være simpelthen at læse alle de bøger, der nogensinde er blevet skrevet og observere forandringerne.

Da vi har at gøre med forskere, har de naturligvis lavet et diagram for at illustrere dette løsningsforslag. Som vi kan se, ville det være virkelig awesome at give sig i kast med at læse alle verdens bøger - men ikke særligt praktisk. Mere håndgribeligt er det at læse få bøger grundigt, og konkludere ud fra dem - disse er altså placeret langt oppe ad den praktiske akse, men meget lavt på awesomehedsaksen. 
Men! Så er det, at vores alle sammens Google har digitaliseret 15 millioner bøger, hvoraf mange er tilgængelige på internettet via Google Books  - hvilket er praktisk nok i sig selv. Af de 15 millioner er 5 millioner bøger og deres dertilhørende ca. 500 billioner ord blevet bedømt gode nok (ikke alle scanninger er lige god kvalitet) til at danne baggrund for et projekt, hvor Google lavede statistik for mængden af bestemte ord og sætninger over en vis periode. 

Det kan offentligheden med internetforbindelse også komme til her, og det er ret awesome. 
Grafudregneren, som Google kalder for en N-gram viewer, søger i bøger fra tidligst 1500 til senest 2008 og på 7 forskellige sprog og både britisk og amerikansk engelsk.

Her har jeg lavet en søgning på alle databasens forekomster af ordene 'Love' og 'Women' i så bredt et tidsrum som muligt og i alle engelsksprogede bøger:


Her kan det konkluderes, at man især skrev om kærlighed og kvinder i starten af 1700-tallet; at man skrev mere om kærlighed, end om kvinder; og at de to fulgtes nogenlunde ad indtil omkring årtusindeskiftet, hvor man så småt mistede interessen for kærlighed, men havde et meget større fokus på kvinder. 

Jeg synes, det er så sindssyg fedt et værktøj, fordi man kan bruge det til alt muligt:
Navne - hvor kendte har folk været, hvor hurtigt er det gået, hvor længe har man snakket om dem...
Følelser, som frygt, glæde - og så se på årstallene i forhold til krige, kriser, velstandsperioder
Specielle ord - hvor meget har man skrevet 'thou' i forhold til 'you'
Små komparative analyser - hvordan følges ord som 'Christ' og 'Soul' med et ord som 'fear'?

Altså, det er ret sjovt at lege med, og hvis man alligevel roder lidt rundt i historien, kan man jo lige så godt smide nogle ord ind i maskineriet, og se hvad der sker.