Översättning mellan finska och engelska är svårt när finskan har könsneutrala personliga pronomen

Teknikoptimism inom AI: Bearbeta naturligt språk (NLP)

En av de mer välkända AI-teknikerna är NLP (Natural Language Processing). Det kallas ibland att man bearbetar eller processar naturligt språk, eller till och med kan det kallas computational linguistics i akademiska kretsar. Det handlar om allt som har med människors språk att göra. Det finns också andra typer av språk, exempelvis formellt språk, likt de programmeringsspråk vi har för att instruera maskiner.

“[…] naturligt språk (är) ett språk som har utvecklats som del av en grupps kultur, och vars medlemmar förvärvar det som sitt förstaspråk. Det kan vara ett talspråk eller ett teckenspråk. Med den definitionen syftar attributet naturligt på språkets tradering från en till nästa generation och konstruerat språk är då motsatsen till naturligt språk. De autonoma språk som ibland utvecklas av tvillingar i tidig ålder (tvillingspråk) hamnar också utanför den definitionen.”
Naturligt språk (Wikipedia)

NLP:s historia

Man skulle kunna tro att detta med NLP är något nytt i och med de senare årens utveckling av chatbotar, mer eller mindre smarta assistenter som Siri och Alexa, som går att prata med. Eller alla former av maskinöversättning som Google Översätt eller de sökmotorer vi använt sedan webbens barndom.

Men precis som med AI mer generellt är NLP mycket äldre än många nog skulle gissa. NLP är rent utav från 1950-talets första hälft, från något som kallas Georgetown–experimentet. Det var en demonstration som syftade till att attrahera intresse och finansiering från den amerikanska allmänheten och myndigheter. Demonstratorn lyckades översätta 60 meningar på ryska till engelska genom att följa endast sex stycken grammatiska regler och det var ett ganska begränsat antal ord den kände till.

Prognos: 1960 kan maskiner översätta mellan alla världens språk

Optimismen var enorm. Man spådde att det skulle ta fem år innan valfri mening med text skulle kunna översättas till valfritt språk. Så blev det dock inte. Snarare är det nog först de senaste åren, åtminstone för de av oss som behärskar svenska, som vi börjat se att det funkar rätt bra.

Men språk är mer än ord, det bär kultur också. Ett exempel är om man översätter mellan finska och engelska så kan man snabbt se problemet.

Kvinna blir man efter översättning

Gå till Google, sök på Google Translate så dyker två rutor upp. I den vänstra väljer du engelska och skriver in frasen she is the prime minister, i den högra väljer du finska. Du kommer på finska få hän on pääministeri. Om du sedan klickar/duttar på de dubbelriktade pilarna för att skifta riktning av översättningen kommer den finska premiärministern istället bli en man på engelska, he is the prime minister.

Finska har enbart könsneutrala personliga pronomen, samma som svenskans nyord “hen” istället för han eller hon. Alla språk är inte kompatibla med varandra om man hoppas behålla den exakta innebörden av en text.

Moderna framsteg som TF-IDF, BERT, GPT-2

Ett statistisk förhållningssätt till hur man bygger en sökmotor är algoritmen TF-IDF (term frequency–inverse document frequency). Som namnet antyder handlar det om att ett nyckelord/begrepp behöver finnas i ett “dokument”, gärna mer än en gång, samt att ett dokument med hög nyckelordsdensitet rankas högre än ett där ordet bara nämns en enda gång bland väldigt många andra ord.
Detta utnyttjades flitigt på den unga webben. Man repeterade populära ord flera gånger för att hamna högt på sökmotorer.

Googles innovation var det som kallas Pagerank. Att en webbsida tilldeles en sorts auktoritet som var baserat på ett nätverkstänk, eller en graf. Hade en webbsida, utöver rätt nyckelord, länkar till sig från andra sidor som nämnde samma nyckelord var den troligen viktigare än en liknande med färre länkar. Om de andra sidorna själva hade hög auktoritet så spillde det över lite auktoritet till de som fick länkar till sig.

Transformer model

2017 släppte Google en tillämpning av djupinlärning till NLP, transformer model. Sent 2018 kom modellen BERT (Bidirectional Encoder Representations from Transformers) vilket höjde ribban inom ett flertal NLP-utmaningar. Något som Arbetsförmedlingen dragit nytta av när de gjort en generell språkmodell på svenska, som nu donerats till språkbanken på Göteborgs Universitet.

I februari 2019 gick OpenAI ut med sin efterföljare till GPT, kallad GPT-2. GPT-2 är duktig på att generera texter, svara på frågor och summera texter. Inledningsvis förklarades hemlighetsmakeriet bakom GPT-2 med att världen inte skulle kunna hantera denna innovation, att risken var stor för illvillig användning.

Mycket på gång inom svensk NLP

Bland annat har Vinnova stöttat både ett språkdatalabb och ett medicinskt dito hos Göteborgs Universitet. Svenska företaget Peltarion jobbar på att lösa svårigheterna kring verktyg för NLP genom sin plattform. Så det händer mycket, även på svenska.

Mer om andra sorter språk

  • Tvillingspråk - det spontana språk som uppstår mellan tvillingar.
  • Pidginspråk - begränsade och tillfälliga språk när två helt olika språk kolliderar, som “russenorsk” som norska och ryska fiskare använde i Norra ishavet för att förstås varandra.
  • Kontrollerat språk - delmängd av ett naturligt språk där ordförråd och grammatik har förenklats, ibland för att de ska bli enklare att översätta.

Publicerad: 2019-12-26
Kategori: Artificiell intelligens
Tagg: Naturligt språk (NLP)

‹ bloggen

Hör av dig