AI Sweden släppte språkmodell öppet och menar att det är forskning

Det är något som inte stämmer med AI Swedens förklaring att de bara tränat språkmodellen i forskningssyfte.

Jag har själv varit aktiv på den nod som finns i Göteborg när jag jobbade för Västra Götalandregionen. Det finns goda nätverksmöjligheter för de som är partners och det hålls en hel del evenemang, högt och lågt, där jag tycker de mer folkbildande varit bäst. Det finns ett datalab och gemensamma kontorslokaler för att bli en sorts tummelplats för de som jobbar med AI på ett eller annat sätt. AI Sweden gör många saker men främst handlar det om att få fart på tillämpandet av AI i Sverige.

Vad är det då med ”forskningssyfte” som låter knepigt? Dels rimmar det illa med syftet med AI Sweden men också hur de formulerade sin nyhet 2023.

För att börja med syftet så startades AI Sweden för att börja tillämpa AI, snarare än att vara en forskningsorganisation. De skriver själva om sitt uppdrag så här:

“AI Swedens uppdrag är att accelerera användningen av AI i Sverige, till gang för vårt samhälle, vår konkurrenskraft och alla som bor i Sverige.”
– AI Sweden internationellt

I nyheten från AI Sweden hittar vi ett klart annorlunda budskap, än att det skulle vara forskning det handlar om, redan i rubriken: ”AI Swedens språkmodell GPT-SW3 för svenska är nu tillgänglig för alla”. Läser man dessutom första stycket låter det inte direkt som forskning då man erbjuder mer eller mindre vem som helst att vidareanvända språkmodellen.

“Nu gör AI Sweden den första stora språkmodellen för de nordiska språken, GPT-SW3, fritt tillgänglig för företag och andra organisationer att använda i produkter och tjänster.”
– AI Swedens språkmodell GPT-SW3 för svenska är nu tillgänglig för alla

Man talar om ”en grundläggande resurs som ökar vår förmåga att använda AI”. Vilket förstås hade varit i linje med AI Swedens uppdrag men inte riktigt passar in i den nya berättelsen när upphovsrätt kommer på tal.

Och personuppgifterna då?

Sen hur de resonerar kring personuppgifter de behandlat i träningsdata och som kan råka vara kvar i modellen är obesvarat. Forskning har ett tydligt regelverk och ett förfarande finns för att göra en etisk prövning. Förhoppningsvis har AI Sweden sådan dokumentation att visa upp om någon vill syna den här historien i sömmarna.

Om man lyssnar till EU:s dataskyddsmyndighet EDPS säger de följande om personuppgifter i stora språkmodeller:

“LLMs store the data they learn in the form of the value of billions or trillions of parameters, rather than in a traditional database. For this reason, rectifying, deleting or even requesting access to personal data learned by LLMs, whether it is accurate or made up of “hallucinations”, may be difficult or impossible.”
– Large language models (LLM)

Är folket på AI Sweden beredda att någon inkommer med en förfrågan om rättning eller radering i enlighet med de rättigheter vi har via GDPR?

Det hade varit bättre att medge att man felat.

Mer om AI Sweden och GPT-SW3

GPT-SW3 (AI Sweden)
gpt-sw3-126m-instruct-gguf (Hugging Face)
Första svenska språkmodellen för AI är nu fritt tillgänglig (Computer Sweden, 2023)
Svensk AI tränades på nätforum utan sajternas godkännande (Sveriges Radio)
AI-initiativ tränade på svenska forum i smyg (SweClockers)

UPPDATERING: Tillägg några timmar efter publicering

Det sker mycket kommunikation bakom kulisserna efter att Sveriges Radio berättade hur AI Swedens språkmodell tagits fram. Delar av det blir jag inblandad i tack vare denna bloggpost och mitt nätverk inom AI. Jag kan inte ge detaljer utan att hänga ut någon enskild, men som vanligt visar det sig hur brett Sveriges Radio når ut och hur beroende vi som verkar inom IT är av public service. Vi kan snacka hur mycket som helst och komma fram till gemensamma sanningar, men det stannar gärna där inom vår community. Tills det tas upp av "gammelmedia", då blir det jävligt bråttom i breda lager bland de med verkligt mandat. Att man kan oroa sig för gammelmedias tynande tillvaro behöver nog en egen bloggpost.

Hur som helst, som ett exempel för att driva hem min poäng, för tre år sedan påtalade SR det här med att låta Google Analytics lyssna in på offentlig sektors webbplatser. Jäklar vad bråttom det blev helt plötsligt att byta till Matomo, Piwik PRO och Vizzit. Då hade vi haft GDPR i ett gäng år och alla varit tvungna att inventera sitt dataskydd. Men när Sveriges Radio gör ett inslag blir det på riktigt. Ingen vill behöva skämmas i public service, trots allt.

Det jag förstått angående AI Swedens GPT-SW3 är att somliga statliga myndigheter, som trodde de kunde automatisera viss kommunikation med invånare, nog inte förstått att exempelvis Flashback ingått som källa för träningsdata. Eller hur stor andel av träningsdatan som var texter av något oklar kvalitet. Det låter en aning naivt att inte kolla upp det kan jag tycka.

Om man inte själv använt Flashback kan det hända att man lyssnat på podden Flashback Forever för att förstå att det inte är språkdata som följer Myndigheternas skrivregler eller ens diskuterar saker som har med ett sansat samtal att göra. Lyckligtvis verkar det i innovationskretsar finnas förståelse för olika kvaliteter på träningsdata.

"Vi har tränat vår modell på redaktionell text, inte Flashback"
– AI på svenska kan transformera den offentliga sektorn (RISE)

Jag misstänker att offentlig sektor, lyckligtvis, är aningens konservativ och har vissa krav på även det här nya "AI" innan de släpper lös det i sin verksamhet.