Culturomics – ett märkligt fält

En vän till mig som studerar fysik skickade mig en nyhetsnotis med den provocerande titeln: "Physicists Discover Evolutionary Laws of Language". Notisen visade sig vara mer provocerande än den faktiska vetenskapliga artikeln den handlade om så jag tänker inte kommentera den mer. Langauge Log har också gjort ett läsvärt inlägg om artikeln, och inte ska väl vi vara sämre.

Om denna post
Nyheten är denna: fyra forskare i fysik och komplexa ekonomiska system har publicerat en artikel där de studerar språkevolution (preliminär pdf här, publiceras i Scientific Reports, 3/15/2012). Jag tror att somliga läsare och skribenter på denna blogg är lite mer vana vid att icke-lingvister gör studier i lingvistik, men jag är inte riktigt härdad ännu. Jag blev lite skakad.

Här följer alltså en kort summering av och en del kommentarer rörande artikeln "Statistical Laws Governing Fluctuations in Word Use from Word Birth to Word Death" skriven av Petersen, Tenenbaum, Havlin & Stanley 2012. Jag som skriver är en masters-student i lingvistik, jag erkänner villig min begränsade erfarenhet, jag ser fram emot den givande kommentarstråden som garanterat kommer följa. Det blev kanske lite långt, men jag hoppas att ni förstår varför.

Kort sammanfattning av artikeln
Författarna har undersökt texter från 1800-2008 på engelska, hebreiska och spanska som google har scannat in. De har sökt efter mönster i ords uppkomst och död. Deras viktigaste upptäckt anser författarna är att ett språks lexikon påverkas av sociala, politiska och teknologiska faktorer samt att ord når en kritisk fas vid 30-50 års ålder då utvecklingen stabiliserar sig (vinna eller försvinna).

Det finns ett 15 min TED-talk av författarna som beskriver deras forskning för den som vill ha det lite mer tillgängligt och underhållande.

De har använt sig av data from google som är tillgänglig online för allmänheten ocksåGoogle n-gram viewer. Nedan är ett exempel på frekvensen av 'color' vs 'colour' mellan 1800 och 2000 som jag genererade för att ge er ett exempel.

Vad som framförallt är intressant med deras studier är de stora mängder data som de har att tillgå och de intressanta observationer de kan göra från dem. Vad jag har problem med känns som om de drar på lite väl stora växlar, deras mål känns lite överambitiösa med tanke på att datan både är otaggad och obalanserad. Men kanske har jag missförstått dem och deras ambitioner?

Culturomics – vad är detta för djur?
Jag vet inte riktigt var jag ska börja, det här är en så märklig nyhet. För det första är det underligt att studien presenterades som så nyskapande. På Slashdot beskriver de studien som en framgång inom fältet 'culturomics' – ett nytt fält fält där man applicerar 'data-crunching' på områden som traditionellt betraktas som humaniora. (Bilden är tagen från Gogeometry och är ett ordmoln om google's n-gram viewer.)

Det får det att låta lite som om humaniora inte redan använder kvantitativa metoder. Jag tror inte att det är en åsikt som författarna till artikeln hyser men på nyhetsrapporteringen runtomkring låter det onekligen lite så. Det gör mig besvärad å mina idolers vägnar då jag är väldigt stolt över det arbete som gjorts och görs inom lingvistik med kvantitativa metoder även om google's n-gram textsamling onekligen är den största hittills.

Efter lite runtgooglande hittade jag den här sajten – Culturomics.org. Det här är alltså ett projekt som pågått sedan 2010 och de vill göra sk 'kulturomiska' metoder och data tillgängligt till allmänheten. Den här artiklen är den tredje artikeln från projektet.

Cultromics är ett forskningsfält/en metod som praktiseras av en del av Harvard School of Engineering and Applied Science som heter Cultural Observatory. NB affiliationerna. De säger att de sysslar med creating massive datasets relevant to human culture och using these datasets to power wholly new types of analysis.

Brist på anknytning till redan existerande lingvistisk forskning

Det problem jag framförallt ser med projektet och den senaste artikeln är att det inte knyter an till de studier som redan gjorts inom lingvistik. Det kanske är för att de riktar sig till en målgrupp som inte är kunniga inom humanistisk vetenskap och lingvistik. Jag förstår inte riktigt varför de inte jämför och refererar till den enorma litteratur på ämnet som redan finns inom humanistisk forskning. Är det något jag missat? Har jag missuppfattat vad de sysslar med?

På culturomics.org hittade jag följande uttalanden i FAQ (frequently asked questions):

"How does this relate to other methods in the humanities?
Our hope is that the culturomic approach will be able to supplement existing techniques."
"How does this relate to corpus linguistics?
The data we have released can be used to study certain linguistic phenomena in phenomenal detail. But that's just one application. Most of what we do in the first paper isn't linguistics at all."
"How does this relate to "humanities computing" and "digital humanities"?
Culturomics is part of what’s known as “humanities computing” or the “digital humanities”.  Of course, the digital humanities are a very broad field, comprising a vast array of ways in which computation can help humanists. It includes such things as tools that aid in teaching, citation, and collaboration as well as digital collections of various types.
Culturomics is much more narrowly defined: its goal is to digitize and analyze data about culture on extremely large scales: all books, all newspapers, all manuscripts, etc. "
"Why were there no humanists involved in this project?
That's incorrect. […] But more than just wrong, it's irrelevant. What matters is the quality of the data and the analyses in the paper and what it means for how we think about a great variety of phenomena – not the degrees we happen to hold or not to hold. If what we seek is a serious conversation about this work, we shouldn't exclude anyone who has something significant and thoughtful to say. That would be a shame."

Jag har läst artikeln och varit runt på sajten, och jag kan inte låta bli att tänka på något som observerats tidigare på den här bloggen: vad som händer när ekonomer och/eller naturvetare tar sig an lingvistik. För även om man kan argumentera att författarnas akademiska skolning är irrelevant så märks det tydligt i deras analys att vissa grundprinciper från lingvistik skulle göra en stor skillnad. Men jag har kanske missuppfattat deras mål?

Jag ska inte var alltför nedlåtande, jag tycker faktiskt att det är en väldigt intressant studie på många sätt , framförallt till storleken(!). Jag är absolut ingen motståndare till ämnesöverskridande forskning eller stora kvantitativa studier, tvärtom!

Jag har några kommentarer som jag vill dela med mig av. Det är framförallt bristen på jämförelser med relevant lingvistisk litteratur samt lite, för mig, udda inställningar till hur man bedriver forskning i språk. Det första rör alltså olämpligheten att inte sätta studien i ett sammanhang och det andra kritik av metoden i artikeln.

Vad innebär det att "digitize and analyze data about culture on extremely large scales"?

De beskriver i abstractet att de vill "gain insight into the coevolution of language and culture". Vad vill de egentligen göra med 'culturomics'? Vad menar de?

Vad menar de med kultur? Vad innebär det för deras slutsatser att de framförallt verkar syssla med att räkna "ord" i otaggade textsamlingar (orden är inte kodade med meta-information om t.ex. ordklass osv)? Vad innebär det att de hanterar i stort sett bara skriftspråk? Hur ser de på vilka slutsatser man kan dra om kultur utifrån skrift? Vilken sorts lingvistisk relativism (språk begränsar tanke) är de ute efter? Jag vill att detta redogörs för någonstans, annars är det väldigt svårt att förstå vad de sysslar med.

När jag hör talas om att 'kultur' ska studeras och kvantifieras utan att först definieras osäkrar jag min revolver.

Språk och kultur-kopplingen
I artikeln återkommer de ofta till att kulturella, politiska och sociala förändringar har inverkan på språk. Jag tyckte det låter väldigt intressant men blir lite besviken på det verkar vara lite mer.. uppenbart än jag hoppades på. Det handlar främst om att ord som betecknar nya ting i världen tillkommer/tilltar i frekvens när det nya tinget uppfinns/blir mer populärt att tala om (t.ex. relationen mellan ordet 'antibiotics' och uppfinnandet av penicillin eller 'americanism' och världskrig). Detta är knappast oväntat.

I TED-talket påpekar det något intressant som inte är med i artiklarna, nämligen hur censur i skrift syns i historiska n-gram-studier. De klargör mycket bättre där vad de menar med kultur än vad de gör i artiklarna och på sina hemsida, men jag är fortfarande inte helt säker på vad de menar.

Det finns nästan inga kommentarer i artiklarna om att den data de baserar dessa slutsatser på är skrivet språk och att tillgången till detta medium inte har varit densamma under hela tidsperioden. Ni kan kalla mig hård, men jag tycker att dessa saker bör kommenteras om man vill skriva om hur ens data korrelerar med större samhälleliga förändringar.

Jämföra äpplen och päron? – obalanserad och otaggad data
Vidare, data från 1800-talet är väldigt, väldigt annorlunda från data från början av 2000-talet. Vilka kunde skriva? Varför skrev de? Vem var målgruppen? etc. Att jämföra texter från dessa olika perioder rakt av utan att ta dessa frågor i beaktning är i mina ögon mycket konstigt. Inte någonstans i artikeln kommenteras det hur datan är balanserat.

I FAQ på culturomics.org skriver de 

"I want to break this down by subject.
So do we. But it’s hard enough to do this well that we didn’t include it in the first paper.
"

"Why didn’t you do part-of-speech tagging?
We didn’t have time to do it for the first paper."

Jag förstår att de velat använda all data de kan få tag i, men det är ändå lämpligt att någonstans kommentera vad det innebär för resultaten att  datan är obalanserad och otaggad. Det har nämligen en väldigt stor betydelse för hur deras resultat tolkas. Om de nu kommit på hela 'culturomics'-fältet så tycker jag att man kräva lite mer än bara avancerad statistik och formler utan också lite vanliga lingvistiska metoder. Eller har jag missat poängen?

Men det är aldrig kul att erkänna tillkortakommanden och det är ännu i sin linda, är jag kanske för hård?

Definitionen av ett ord
Det verkar som (men jag är inte säker för de definierar det aldrig explicit) att de likställer 'ord' med sekvenser av bokstäver som stavas på samma sätt. Det betyder t.ex. att när det under 1800-talet fanns alternativa stavningar av samma fonologiska ord och när detta senare standardiserades ser det ut som en nergång i antalet ord i lexikonet. Eftersom det är otaggat innebär det också att ord som stavas lika men betyder olika saker tolkas som samma. Det finns inga kommentarer om det.

De diskuterar dock problem med scanningen (OCR – optical character recognition), men som sagt aldrig vad deras definition av ett ord har för konsekvenser. 

Fokus på lexikon
Dessutom är det (föga förvånande) ett väldigt fokus på lexikon, grammatik och syntax omnämns bara en gång (och dessutom i ett sammanhang som jag tror kommer uppröra en viss skribent vid denna blogg lite mer än andra):

"For example, it has been shown that primitive pidgin languages, which are little more than crude [sic] mixes of parent languages, spontaneously acquire the full range of complex syntax and grammar once they are learned by the children of a community as a native language. It is at this point a pidgin becomes a creole, in a process referred to as nativization." (Petersen, Tenenbaum, Havlin & Stanley 2012:8)

Det kanske bara är tur, för om de applicerat samma metoder och analyser för att se hur grammatik och syntax korrelerar med kultur hade jag nog gått fullständigt upp i limningen om jag ska vara ärlig…

Språk genomgår dynamiska förändringar

Författarna noterar att det först finns många ord för en ny företeelse, men att det slutar med att de flesta dör ut och en "vinner".  Återigen: varför finns det ingen anknytning till redan existerande litteratur?

"This study provides empirical evidence that words are competing actors in a system of finite resources. Just as business firms compete for market share, words demonstrate the same growth statistics because they are competing for the use of the writer/speaker and for the attention of the corresponding reader/listener (Petersen, Tenenbaum, Havlin & Stanley 2012:7)"

Liknelsen med den ekonomiska marknaden känns också något oroväckande, kan inte låta bli att undra vad en sådan liknelse ger för konnotationer för läsarna av artikeln.

De noterar att ord når en särskilt fas, efter ungefär 30-50 år, där de antingen dör ut eller stannar kvar. De påpekar att detta är väldigt likt generationsskiften. Med risk för att bli otrevlig: no shit Sherlock? Här hade det återigen suttit fint med lite jämförelser med studier i lingvistik för att ge en större bild av vad detta innebär.

Brist på jämförelser och anknytning till existerande lingvistisk litteratur – kanske en funktion av målgruppen?
Tidigt i den senaste artiklen skiver de att "language is a fundamentally dynamic complex system, consisting of heterogenous entities at the level of the units (words) and the interacting users (us). Hence, we begin this paper with two questions: (i) Do languages exhibit dynamical patterns? (ii) Do individual words exhibit dynamical patterns?" (Petersen, Tenenbaum, Havlin & Stanley 2012:1)

Detta är inte första gången i modern forskningshistoria som någon funderat på detta. Artiklarna från projektet är publicerade i Science och Nature, de verkar alltså främst vända sig till en målgrupp som till största delen består av naturvetare/ekonomer som troligen inte har erfarenhet av lingvistik. Kanske är det en nyhet för denna publik att det finns mönster i språkutveckling. Återigen, noll anknytning till redan existerande forskning. Kan inte låta bli att fråga mig ifall valet av målgrupp verkligen är optimal, men det är inte min plats.

Är det inte märkligt att publicera en artikeln om språkets evolution och inte inkludera en enda referens till den lingvistiska litteratur som redan finns på ämnet? Visst är det intressant att lägga fram empiri från en så stor datasamling, men någon form av jämförelse med existerande forskning är högst lämplig Vad är t.ex. förhållandet mellan deras darwinistiska evolutions-modell av språkförändring och grammatikalisering?

Författarna har valt att publicera i tidskrifter som framförallt behandlar naturvetenskap. Förvirringen kring att ordet 'science' på engelska oftast betyder 'naturvetenskap' och inte 'vetenskap' gör inte saken lättare. Att artikeln brister i sin anknytning till lingvistik är kanske inte oväntat om än olyckligt?

Intressant att notera är att den första artikeln som kom ur Culturomics-projektet (Lieberman, Michel, Jackson, Tang & Nowak 2007) innehöll många jämförelser med redan existerande lingvistisk litteratur.

Tidsbrist och för stor studie förklaring?

Jag förstår att det är svårt att göra en mer detaljerad analys av vad ett ord är i en studie som denna. Jag kan också förstå att de inte haft tid att titta närmre på vad det kan få för effekter att de jämfört tre språk som skiljer sig mycket i stavning och grammatik. Det kanske är något som får stryka på foten när man tar sig an ett så stort projekt som de gör i den här artikeln.. eller?

Jag tycker inte att mina krav är höga, men det kanske det är? Läsarna av Nature och Science kanske inte är intresserade? Om de valt att inte problematisera saker som "ändå bara lingvister bekymrar sig om" och som har stor inverkan på deras resultat – varför publicera i en naturvetenskaplig tidskrift? Återigen, det är kanske jag som missuppfattar målet.

Kanske är mycket av det här en konsekvens av stress, de kommenterar gång på gång att de inte haft tid att göra olika saker. Om jag inte misstar mig så släppte Google sitt n-gram korpus 2010. Det är inte helt osannolikt att de varit under press att presentera data innan andra forskarteam. Detta är bara preliminära studier, kanske kommande artiklar kommer se helt annorlunda ut.

Avslutande kommentar

Om jag läste artikeln och inte visste något om lingvistik skulle jag tro att allt detta forskningsfält var helt pinfärskt och nytt och att humanister inte sysslar med kvantitativa metoder alls. Detta stämmer inte.

Här är en bild jag själv genererat med google's n-gram viewer. Den kan man tänka på länge.

I en article på wsj.com skiver en journalist: In the end, words and sentences aren't atoms and molecules, even if they can be fodder for the same formulas.

Jag kan inte låta bli att ställa mig frågan: can they though?

Jag tackar för uppmärksamheten, ber om ursäkt för eventuella stavfel osv samt hoppas på en givande kommentarstråd.

Om du blev lite nedslagen och/eller irriterad kan jag rekommendera Hugh Laurie och Stephen Fry's sketch om teoretisk lingvistik, den muntrar upp på något märkligt vis.

P.S. en annan definition av culturomics är att det handlar om att ta reda på vad kunder tycker om produkter samt förutspå influensor och konflikter (t.e.x hitta Osama Bin Laden). På något sätt lite mer begripligt.

P.P.S. Google har ett annat verktyg som det är kul att leka med, Google Trends. Det här verktyget kom 2008 och ger en frekvenser över hur ofta någonting söks efter på Google. Intressant att notera är att 'physics' har lägre frekvens än 'economics' i N-gram viewer men högre i Trends. 'Physics' förekommer alltså mer som sökterm och mindre i de textsamlingar N-gram viewer hanterar. Den nedre regionen av diagrammet anger hur ofta söktermen förekommer i Google News Stories, där förekommer 'economics' oftare än 'physics'.

Det här inlägget postades i Okategoriserade. Bokmärk permalänken.

13 kommentarer till Culturomics – ett märkligt fält

  1. Anders Lotsson skriver:

    Det verkar vara något fel på grafen mot slutet. "Linguistics" verkar vara nere på noll före 1880, medan siffrorna är höga för "computational linguistics". "Computational linguistics" borde vara en delmängd till "linguistics" och ha lägre siffror, inte högre. Är det möjligen så att Google har räknat med ELLER, alltså med alla förekomster av något av orden?

  2. Stefan Holm skriver:

    Fysikens ofattbara framsteg det senaste seklet bygger i mycket hög grad på sannolikhetslära: Enskilda elementarpartiklar låter sig inte beskrivas men då de uppträder i myriader, kan de med otäck precision beskrivas statistiskt. Det är lite som vid en dragning av premieobligationer: vem är omöjligt att förutspå men vi kan med full visshet säga, att exakt en sparare/spelare kommer att vinna en miljon.
     
    Man kan förstå, att framgångarna kan få det att klia i fingrarna på en fysiker, när han ser en google-korpus. 10 miljoner ’ord’ må vara en flugskit jämfört med materiens byggstenar – en vattendroppe innehåller några triljoner (arton nollor) molekyler – men ändå tillräckligt för att locka till angrepp med fördelningsfunktioner.
     
    Detta har i 60-70 år gjorts inom nationalekonomin. Resultaten är dock magra – ekonomipristagarnas teorier överlever väl sällan prisceremonin. Och nu har turen kommit till lingvistiken.
     
    Där lurar samma fara: fysikens elektroner t.ex. är alla identiska och kan bara befinna sig i ett begränsat antal (kvant-) tillstånd. Ekonomi och språk däremot lär påverkas på lika många (svårförutsägbara) sätt som vädret. Naturvetare gör nog därför klokt i att hämta inspiration också från ett annat av sina framgångskoncept – kaosteori.
     
    Interdisciplinär korsbefruktning ska alltid applåderas. Det finns på tok för lite av den varan. Därför tycker jag recensionen i Language.Log var proffsig. Bättre så än ett föraktfullt: fysiker bliv vid din kvark.

  3. Rickard F skriver:

    Poängen

    Problemet är inte att man applicerar statistiska metoder på lingvistik – detta är inget nytt,  som också Hedvig påpekar. Statistiska metoder har länge använts med framgång både som forskningsredskap och för div. datorlingvistiska tillämpningar. (i det senare fallet så har dom mest framgångsrika applikationerna ofta varit som som inte innefattar någon lingvistik alls – eller väldigt lite sådan). Problemet med artikeln, om jag förstår rätt handlar mer om metodologiska tveksamheter  – samt förstås att det i sammanhanget kunde ha varit bra att konsultera sakkunniga.  

  4. Hedvig Skirgård skriver:

    @ Anders Lotsson. Det finns två linjer i grafen som har en rödaktig färg. Den övre är 'mathematics'. 'Computational linguistics' är den näst intil icke-existerande i botten.
    @ Stefan Holm & diverse kommentarer på facebook etc
    Det är väl klart att det är häftigt?
    Jag hoppas att det inte råder någon tvivel om att jag uppskattar tvärvetenskapliga projekt, det är väl självklart? Faktum är att jag tycker deras observationer, om än på obalanserat och otaggat data, är extremt intressanta. Jag menar, det är ett enormt material (största någonsin) som spänner över ett stort tidspann och de har gjort fantastiska test och observationer från det. Behöver detta sägas? Isn't it obvious?

    Men..
    Men det innebär inte att jag inte kan kritisera deras arbete ur en lingvistisk synvinkel. Jag undrar helt uppriktigt: vad innebär det för deras resultat att språk kryllar av homonymer? Vad händer när de applicerar samma metod på olika språk? Jag tvivlar inte på att det snart kommer "klia i fingrarna" på dem att ta sig an ännu mer främmande språk än spanska och hebreiska, vad kommer hända då?
    Territorialitet
    Det jag skrev är vad som går genom mitt huvud när jag läser såna här artiklar och jag tvivlar på att jag är ensam om det. Om det är några som jag vill disktuera det med så är det läsare och skribenter på denna blogg. Jag kanske blir territoriell, men om jag inte erkänner det och diskuterar det så kommer jag förbli det.

    Dessutom har en återkommande kommentar varit att det är trist när humanister är neggo och kritiserar främlingar till deras land. Jag trodde lite att det här med att granska varandra och kritisera varandra var det vi höll på med i den vetenskapliga debatten? Jag uppfattar det som att jag behandlar dem med respekt när jag tar deras studie på allvar och ger min åsikt om den. Jag förväntar mig att de kan ta det och att de vill ha mothugg. Konstigt vore väl annars?
    Dessutom förväntar jag mig att de inte låter sig nedslås av kritik utan fortsätter, det vore ju skittråkigt om de la ner. Och jag förutsätter att det är uppenbart att jag inte kommer strunta i deras framtida arbete. Varför skulle jag det? De håller ju på med intressanta grejer ju.
    Inte fysik på lingvistik
    En sak till måste vi reda ut: 'culturomics' är inte fysik applicerat på lingvistik utan tycks snarare vara statistik och analys av väldigt stora datamängder applicerat på lingvistik, antropologi och sociologi. Det är skillnad.
    Jag tycker inte riktigt det går att tala om att detta är ett tvärvetenskaplig ämne mellan lingvistik och fysik, det tycks snarare vara en metod inom humanistisk vetenskap. Det är där kärnrågan ligger för mig. För om det är en humanistisk disciplin följer också vissa förväntningar.
    Olika vetenskapliga traditioner?
    En del av de problem jag har med 'culturomics' kanske bygger på olika traditioner att författa artiklar. När jag läser en artikel om humanistisk vetenskap som inte knyter an till relevant tidigare forskning upplever jag inte det bara som social opassande utan jag ställer mig också tveksam till deras förmåga att förstå ämnet. Det är alltså för mig inte bara en brist i social kod utan också ett tecken på ovetenskaplighet. Åter igen, detta är mina erfarenheter och jag är väldigt intresserad av att höra vad andra har för erfarenheter.
    Min fysikervän berättar för mig att så är det inte bland artiklar i fysik. Där presenteras oftare studier endast i ljuset av de resultat de kommit fram till och statistiska och/eller matematiska koncept.

    Humaniora behöver det här
    Något som jag ofta saknar i humanistisk vetenskap är just kvantitativa studier och statistiska metoder. Just därför är detta inte bara intressant utan också viktig.
    I klassisk naturvetenskap tycks det mig som att det är vanligare med en detaljerad beskrivning av metoden, experimentförhållandena och statistiken runt. Jag kan personligen bli fullkomligt tokig på vissa artiklar i lingvistik som inte gör detsamma.

    Inte bara språk utan kultur
    De har i 'culturomics' inte bara tagit sig an sisyfosarbetet att förstå och kvantifiera språk utan också mänsklig kultur. Hade de begränsat sig till att använda statistiska metoder för att analysera språk hade jag ärligt talat inte blivit lika skakad.
    Men när målet är att utifrån analyser av stora boksamlingar säga något om mänsklig kultur då förväntar jag mig också en redogörelse för vad de menar med kultur och hur språk och kultur interagerar.

  5. Hedvig Skirgård skriver:

    En sak till

    Jag hoppas att det framgick att jag inte är säker på att jag förstått vad målet bakom 'culuromics' är. Det känns avgörande för min framtida förståelse av vad de sysslar med att det bringas klarhet här. Och jag vill förstå vad de sysslar med.
    Så om någon han något insiktsfullt att säga där så är jag ivrig att höra det.
    På ett ställe skriver de "Most of what we do in the first paper isn't linguistics at all.""
    Så vad… vad gör de? Jag erkänner villig mina bristande kunskaper i matematik, ekonomi och fysik. Men om någon kan försöka sig på att förklara vad de egentligen sysslar med så vore jag väldigt tacksam.

  6. Mikael Parkvall skriver:

    Jag har inget särskilt att tillägga, utan vill bara utbrista i ett fyrfaldigt "väl rutet". (Åsså förstås påpeka att  "territoriell" för oss som talar fornsvenska betyder "revirhävdande").

  7. Brita Planck skriver:

    Som av en händelse hade jag precis läst inlägget här, när en vän postade den här på Facebook. Kan inte låta bli att dela den med er… http://www.smbc-comics.com/index.php?db=comics&id=2556#comic

  8. Petter Kallioinen skriver:

    Älskar \"sånt här\"

     
    Artikeln som introducerar culturomics är en ganska ovanlig typ av artikel (jag syftar på http://www.sciencemag.org/content/331/6014/176.full) genom att den spänner över så många domäner och är baserad på såna fantastiska mängder data. Med nödvändighet är varje ämne som tas upp extremt kortfattat, kanske på gränsen till ytligt och de försöker ogenerat göra culturomics till ett säljbart buzzword. Men jag älskar "sånt här". Jag tänker mig att vi är nära något sorts teknologiskt genombrott som handlar om att hantera stora mängder data som text, bilder, ljud, geografiska data, sociala data, biologiska data. Text är frontlinjen, och storlek på corpusar är en av de viktigaste kvalitetsfaktorerna (t ex för semantic spaces). Text binder samman en massa frågor och dimensioner här, där lingvistik bara är en del. Detaljerna rättar vi till eftersom… 

  9. Hedvig Skirgård skriver:

    Jag håller med Petter, man får lite pirr i magen av vetenskaplig enthusiasm. Vore bara najs om "detaljerna" kunde stuvas undan så snabbt som möjligt så vi kan skippa en lång barndom och bara dyka rakt in i det fertila/produktiva stadiet – where the action is.

  10. Anders Lotsson skriver:

    @Hedvig. Okej.

    Slarvigt av mig.

  11. Pingback: Culturomics och grammatikutveckling | LINGVISTBLOGGEN

  12. Pingback: Varifrån kommer den indo-europeiska språkfamiljen? | LINGVISTBLOGGEN

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *


*

Följande HTML-taggar och attribut är tillåtna: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>