Bør norske team kjøre lokale AI-kodeassistenter selv?

Ornith-1.0 og lanseringen fra DeepReinforce

Sommeren 2026 delte utvikleren Simon Willison sine første inntrykk av Ornith-1.0, den første modellen fra selskapet DeepReinforce, som han kjørte lokalt for agentisk koding (simonwillison.net). Poenget er ikke modellen alene, men hva den representerer: en åpen-vekt kodemodell god nok til reelt arbeid, tilgjengelig for team som vil kjøre den selv. For norske ledere og CTO-er som vurderer AI i utviklingsarbeidet, flytter det spørsmålet fra om lokale modeller duger til når de er riktig valg.

Ornith-1.0 kommer i flere varianter: 9B Dense, 31B Dense, 35B MoE og 397B MoE (simonwillison.net). Den er bygget på de forhåndstrente modellene Gemma 4 og Qwen 3.5, der Qwen 3.5 er lisensiert under Apache 2.0 (simonwillison.net). Spennet fra en liten tett variant til en stor MoE-modell er nettopp det som gjør denne typen slipp interessant: du kan velge størrelse etter maskinvaren du faktisk har.

Hva lanseringen signaliserer

At en helt ny aktør kan slippe en konkurransedyktig kodemodell, og at en erfaren utvikler tar den rett i bruk lokalt, sier noe om modenheten i økosystemet. Åpne modeller er ikke lenger på etterskudd, argumenterer flere oversikter fra 2026 (python.plainenglish.io). Ifølge Stanford AI Index er ytelsesgapet mellom den best rangerte og den tiende best rangerte modellen nede i 5,4% (kilo.ai). Når toppen er så tett, blir lisens, kontroll og driftskostnad avgjørende, ikke bare rå benchmark-poeng.

Fra kuriosa til reelt alternativ

Åpne modeller nærmer seg lukkede på flere mål. Åpne modeller treffer nå 89% på LiveCodeBench og 96% på AIME 2025 (whatllm.org). Kimi K2.5 scorer 96% på AIME 2025 og slår de fleste proprietære alternativer på matematikk (whatllm.org). For et team betyr det at valget mellom lokal drift, hostet modell og proprietært API nå er en reell avveining, ikke et valg mellom kvalitet og kompromiss. Resten av denne artikkelen handler om hvordan du tar det valget.

Open source mot open weight

Begrepene brukes om hverandre, men de betyr ikke det samme, og forskjellen har juridiske konsekvenser. Skillet er enkelt i prinsippet: open-source publiserer vekter, treningskode og datasett, mens open-weight kun publiserer vektene (kilo.ai). Nesten alt som markedsføres som «åpent» i kodemodell-markedet i 2026 er i praksis open-weight.

Hva åpent faktisk betyr

AI-modeller som hevder å være åpen kildekode, ligger langs et spekter fra helt åpent til helt lukket (legalblogs.wolterskluwer.com). Open Source Initiative (OSI) har utviklet en egen definisjon, OSAID, som krever at man enten slipper treningsdataene eller gir detaljert informasjon om dem (discuss.opensource.org). I praksis finnes det ikke ett eneste OSAID-kompatibelt system som ikke slipper datasettet sitt (discuss.opensource.org). Når en leverandør kaller en modell «open source» uten å dele treningsdata, er det etter denne standarden nærmere «open washing».

Lisensene varierer mer enn du tror

Selv blant open-weight-modeller spriker lisensene. GLM-5.2 slippes under MIT-lisens (bentoml.com), Gemma 4 31B under Apache 2.0 (bentoml.com), mens Kimi K2.7 Code kommer under en Modified MIT-lisens (kilo.ai). Noen lisenser har praktiske terskler: Metas Llama2 utløste kommersielle vilkår ved 700 millioner månedlige aktive brukere (legalblogs.wolterskluwer.com). For de fleste norske SMB-er er den terskelen irrelevant, men den viser at «åpen» og «fri til all bruk» ikke er samme sak.

Bruk av åpen kildekode-programvare eller -data kan dessuten ha en propagerende effekt som gjør hele modellen åpen (legalblogs.wolterskluwer.com). Og utviklere kan holdes ansvarlige hvis kode eller data er dysfunksjonelle og forårsaker skade eller krenker rettigheter (legalblogs.wolterskluwer.com). Lisensen du velger, er derfor et ansvarsspørsmål, ikke bare et kostnadsspørsmål.

Hvorfor skillet betyr noe for norske team

For et team som skal velge modell, avgjør åpenhetsgraden hva du kan gjøre. Med ekte open-source kan du inspisere treningsdata og finjustere fritt. Med open-weight får du vektene, kan kjøre modellen lokalt og bygge oppå den, men uten full innsikt i hvordan den ble trent. Begge deler gir mer kontroll enn et lukket API, der du bare ser inn- og utdata. Dette skillet henger tett sammen med reguleringen, som vi kommer tilbake til: EU AI Act definerer ikke engang «open-source» eksplisitt (orrick.com). For en dypere gjennomgang av modellvalg for norske bedrifter, se vår artikkel om valg av språkmodell.

Rammeverk for å velge lokal, hostet eller API-modell

Valget mellom lokal drift, hostet åpen modell og proprietært API er en avveining mellom kontroll, kostnad og innsats. Det finnes ikke ett riktig svar for alle team, men det finnes et riktig svar for ditt team gitt datafølsomhet, budsjett og teknisk kapasitet. Tabellen under oppsummerer de tre veiene.

Driftsmodell	Passer når	Viktigste kompromiss
Lokal drift	Sensitiv kildekode, offline-krav, forutsigbar kostnad over tid	Maskinvare, drift og oppdatering på eget bord
Hostet åpen modell	Vil unngå leverandørlås uten å drifte egne GPU-er	Data forlater maskinen, avhengighet av tredjepart
Proprietært API	Trenger sterkeste modell med minst mulig oppsett	Løpende kostnad, leverandørlås, data til ekstern part

Når lokal drift gir mening

Lokal drift passer når kildekoden er sensitiv, når du har offline- eller suverenitetskrav, eller når du vil ha forutsigbar kostnad uten løpende API-regning. Muligheten er reell: Llama 4 Scout kan kjøres lokalt på vanlig maskinvare, og gpt-oss finnes i en 20b-variant som passer på forbrukerhardware (developers.redhat.com). Prisen betaler du i maskinvare, oppsett og vedlikehold, ikke per token.

Når hostet åpen modell passer

Vil du ha åpen-vekt-fleksibiliteten uten å drifte GPU-er selv, er hostet drift mellomveien. Serverløse plattformer lar deg deployere åpne kodemodeller i skala, der infrastrukturvalget avgjør om agenten lykkes (modal.com). Du beholder valgfrihet mellom modeller og slipper leverandørlås til en enkelt API-tilbyder, men dataene dine forlater fortsatt egen maskin, og du er avhengig av en tredjepart for oppetid.

Når proprietært API er riktig

Trenger du den sterkeste tilgjengelige modellen med minst mulig oppsett, er et proprietært API ofte raskeste vei. GPT-5.5 regnes som den sterkeste offentlige kodingsmodellen for langvarig agentisk arbeid, og Cursor har blitt standard AI-kodingsassistent for Claude-brukere. Kompromisset er løpende kostnad, avhengighet og at koden din sendes til en ekstern part.

Aluras erfaring er at lokale og åpen-vekt kodemodeller gir norske team reell fleksibilitet på lisens og kontroll, men at fordelen bare realiseres med styring og verifikasjon før produksjon. Åpen tilgang uten en prosess for review og observerbarhet flytter risiko, den fjerner den ikke.

Praktisk vurdering av maskinvare og modellstørrelse

Skal du kjøre en modell lokalt, er tre tall avgjørende: parameterantall, lagringsplass og kontekstvindu. Parameterantallet styrer hvor mye minne modellen krever, lagringsplassen avgjør om den passer på disken din, og kontekstvinduet bestemmer hvor mye kode den kan holde i hodet samtidig. Tabellen viser hva et utvalg åpne kodemodeller faktisk krever.

Modell (variant)	Parametere	Lagringsplass	Kontekstvindu
DeepSeek-Coder-V2 (light)	16 mrd	9 GB	-
DeepSeek-Coder-V2 (massive)	236 mrd	133 GB	-
Qwen 3 Coder (QAO)	-	85 GB	256k
CodeLlama 70B	-	39 GB	-
gpt-oss (20b)	20 mrd	forbrukerhardware	-
gpt-oss (120b)	117 mrd	en 80 GB GPU	-

Modellstørrelse og minne

Spennet er stort. DeepSeek-Coder-V2 finnes i en light-variant på 16 milliarder parametere som tar 9 GB, og en massiv versjon på 236 milliarder parametere som krever 133 GB lagringsplass (youtube.com). CodeLlama 70B tar 39 GB, og en QAO-variant av Qwen 3 Coder tar 85 GB (youtube.com). Mixture-of-Experts hjelper: gpt-oss-120B har omtrent 117B parametere (python.plainenglish.io), men 120b-varianten passer på en enkelt 80 GB GPU (developers.redhat.com). Små språkmodeller forbedrer seg raskere enn de fleste er klar over (developers.redhat.com), noe som gjør beskjeden maskinvare mer og mer aktuelt.

Kontekstvindu i praksis

Kontekstvinduet avgjør hvor stor kodebase modellen kan resonnere over på en gang. Her har åpne modeller tatt igjen forspranget. Llama 4 Scout støtter opptil 10 millioner tokens (whatllm.org), GLM 5.2 har 1M-token kontekstvindu (kilo.ai), og Qwen3.5-397B-A17B støtter 262K token native kontekst, utvidbar til over en million (bentoml.com). Merk at hostede varianter ofte har større vindu enn de du kan kjøre selv: Qwen3.6-Plus tilbyr 1 million tokens via API, mens open-weight-variantene kjører på 262 144 tokens (modal.com).

Verktøy for lokal kjøring

Du trenger ikke bygge infrastrukturen fra bunnen. Ollama lar deg kjøre modeller lokalt med minimalt oppsett, og vLLM er blitt standarden for produksjonsdrift: prosjektet var det mest populære open source-prosjektet målt i antall bidragsytere på GitHub i 2025 (developers.redhat.com), med over 60 000 GitHub-stjerner og over 1 700 bidragsytere ved slutten av 2025 (developers.redhat.com). Til utforsking finnes det aggregatorer med bredt utvalg, for eksempel 126 tilgjengelige modeller i Hugging Chat (youtube.com).

Markedet for åpne kodemodeller i 2026

Markedet er tettere og mer variert enn på flere år. De store MoE-modellene dominerer toppen, kinesiske familier leder på nedlastinger, og benchmark-gapet mot lukkede modeller krymper. Tabellen samler et utvalg av de mest omtalte åpne og åpen-vekt kodemodellene.

Modell	Totale parametere	Aktive parametere	Kontekst	Lisens
GLM-5.2	754B	40B	1M	MIT
DeepSeek-V4-Pro	1.6T	49B	-	-
MiMo-V2.5-Pro	1.02T	42B	-	MIT
Kimi-K2.6	~1T	32B	256K	Modified MIT
Qwen3.5-397B-A17B	397B	17B	262K	-
Gemma 4 31B	31B	tett	256K	Apache 2.0
MiniMax-M3	428B	-	1M	-

De store MoE-modellene

Toppen består av store Mixture-of-Experts-modeller der bare en brøkdel av parameterne er aktive per token. GLM-5.2 har 754B parametere og 40B aktive per token, under MIT-lisens (bentoml.com). DeepSeek V4 Pro har 1.6T totale parametere og 49B aktive (kilo.ai), trent på 32T tokens (bentoml.com). MiMo-V2.5-Pro har 1.02T totale og 42B aktive, også under MIT (bentoml.com). Kimi K2.6 har rundt 1T totale parametere og 32B aktive, og regnes som en viktig ny åpen-vekt-utfordrer.

For team med mindre maskinvare finnes effektive alternativer. Qwen3 Coder Next har 80B totale parametere og bare 3B aktive per token (kilo.ai), optimalisert for kodeagenter og lokale arbeidsflyter. DeepSeek V4 Flash er en effektivitetsoptimalisert MoE med 284B totale og 13B aktive (kilo.ai).

Kina-dominansen

Tyngdepunktet har flyttet seg geografisk. Totale modelldownloads skiftet fra USA-dominert til Kina-dominert i løpet av sommeren 2025 (developers.redhat.com), og Qwen-familien er blitt de mest brukte målt i kumulative nedlastinger ved utgangen av 2025 (developers.redhat.com). Kimi K2 er en av de største åpne modellene med rundt 1 billion parametere og 32 milliarder aktive per token (developers.redhat.com). For norske team er dette relevant utover teknikken: opphavsland kan påvirke innkjøpspolicy og risikovurdering, selv når modellen er åpen-vekt.

Benchmarks og gapet mot lukkede modeller

På kodebenchmarks er avstanden liten. DeepSeek V4-Pro leder alle evaluerte modeller på LiveCodeBench med 93.5 (kilo.ai). MiniMax M3 scorer 59,0% på SWE-Bench Pro (kilo.ai), og DeepSeek-Coder-V2 når 90,2% på HumanEval (modal.com). Til sammenligning leder GPT-5.5 OpenAIs publiserte agentiske kodetall med 82,7% på Terminal-Bench 2.0 og 58,6% på SWE-Bench Pro, mens Claude Sonnet 4.6 scorer 75,2% på SWE-bench. De åpne modellene er ikke lenger på etterskudd (python.plainenglish.io).

Adopsjon og tillit blant utviklere

Bruken av AI-verktøy stiger, men tilliten til dem faller. Den kombinasjonen former hvordan et team bør innføre verktøyene: bredt i bruk, men strengt i verifikasjon.

Bruken øker, tilliten synker

84% av utviklere bruker eller planlegger å bruke AI-verktøy i utviklingsprosessen (uvik.net). Samtidig stoler kun 29% på at AI-utdata er nøyaktige, ned fra 40% i 2024 (uvik.net). Den største frustrasjonen, oppgitt av 66%, er utdata som er «nesten riktig, men ikke helt» (uvik.net). Utviklere bruker AI i omtrent 60% av arbeidet sitt, men kan fullt ut delegere bare 0-20% av oppgavene (resources.anthropic.com). Bruk er altså ikke det samme som blind tillit.

Copilot, Cursor og Claude Code

Markedslederne viser skalaen. GitHub Copilot nådde omtrent 20 millioner totale brukere innen juli 2025 (uvik.net), og 90% av Fortune 100-selskapene har tatt det i bruk (uvik.net). Cursor oversteg 2 milliarder dollar i årlig tilbakevendende inntekt (uvik.net). Claude Code nådde 18% adopsjon blant utviklere (uvik.net). For en gjennomgang av det mest utbredte verktøyet, se vår guide til GitHub Copilot. Poenget for dette temaet er at åpne modeller konkurrerer mot etablerte, godt finansierte proprietære verktøy.

Kostnad ved lokal drift mot API-priser

Kostnadsbildet avgjør ofte valget mer enn benchmarks gjør. API gir lav inngangskostnad og høy variabel kostnad; lokal drift gir høy inngangskostnad og lav variabel kostnad. Tabellen viser gjeldende API-priser for et utvalg modeller, per million tokens.

Modell	Input (per 1M tokens)	Output (per 1M tokens)
GPT-5.5 (kort kontekst)	$5	$30
Claude Opus 4.8	$5	$25
Claude Sonnet 4.6	$3	$15
GLM-5.1	$1.40	$4.40
MiniMax M2.7	$0.30	$1.20

API-prisene i 2026

Prisspennet er betydelig. GPT-5.5 koster $5 input, $0.50 cached input og $30 output per 1M tokens for kort kontekst, og $10 input, $1 cached input og $45 output for lang kontekst. Claude Opus 4.8 ligger på $5/$25 og Claude Sonnet 4.6 på $3/$15. I den andre enden er MiniMax M2.7 det beste budsjettvalget for frontier-kvalitet uten frontier-pris til $0.30/$1.20, og GLM-5.1 koster $1.40/$4.40.

Hva lokal drift faktisk koster

Lokal drift flytter kostnaden fra token til maskinvare. En modell som gpt-oss-120B krever en 80 GB GPU (developers.redhat.com), mens en 20b-variant kjører på forbrukerhardware (developers.redhat.com). Massive kodemodeller kan kreve over 130 GB lagringsplass (youtube.com). Til dette kommer strøm, drift og tid til oppdatering. Fordelen er at kostnaden er forutsigbar og ikke skalerer med bruk: når maskinen først står der, koster ekstra bruk marginalt lite.

Regnestykket for team

Typisk månedlig kostnad ligger på $20-50 for individuelle utviklere og $100-500 for team, og tung API-bruk med Opus kan nå $200+ i måneden per bruker. Regnestykket avhenger av volum: ved lav og uforutsigbar bruk vinner API, ved høyt og jevnt volum begynner lokal eller hostet drift å lønne seg. Legg til at åpne modeller fjerner risikoen for plutselige prisøkninger fra en enkelt leverandør.

EU AI Act og forpliktelsene for åpne GPAI-modeller

Dette er den delen norske team oftest undervurderer. EU AI Act gir unntak for åpen kildekode, men unntakene er smale og gjelder ikke i det hele tatt for modeller med systemrisiko. Norge er tett koblet til EU-regelverket gjennom EØS, og loven har uansett ekstraterritoriell rekkevidde. Tabellen viser tidslinjen for når forpliktelsene slår inn.

Dato	Hendelse
1. august 2024	AI Act trådte i kraft
2. februar 2025	Forbud mot uakseptabel risiko gjelder
2. mai 2025	GPAI Code of Practice publiseres
2. august 2025	Forpliktelser for GPAI-leverandører gjelder
2. august 2026	Forpliktelser for høyrisikosystemer gjelder
2. august 2027	Full implementering

Tidslinjen og hva som gjelder når

AI Act trådte i kraft 1. august 2024 og implementeres i faser frem til 2. august 2027 (linuxfoundation.eu). Forbudene mot uakseptabel risiko begynte å gjelde 2. februar 2025, forpliktelsene for GPAI-modellleverandører fra 2. august 2025, og forpliktelsene for høyrisikosystemer fra 2. august 2026 (linuxfoundation.eu). Loven ble publisert i EUs offisielle journal 12. juli 2024 (openfuture.eu), etter at Europaparlamentet vedtok teksten 13. mars 2024 med 523 stemmer for (openfuture.eu). Bøtene er reelle: opptil €35 millioner for brudd på forbudene (linuxfoundation.eu), og opptil 3% av årlig global omsetning for andre brudd (interface-eu.org).

Unntaket for åpen kildekode er smalt

AI Act skaper unntak for åpen kildekode-systemer og GPAI-modeller, men det er ikke et blankt unntak (linuxfoundation.eu). For AI-systemer gjelder unntaket ikke for uakseptabel risiko, høyrisiko eller transparensrisiko-kategoriene (linuxfoundation.eu), og har derfor liten praktisk effekt fordi de fleste forpliktelsene nettopp treffer disse kategoriene (orrick.com). For GPAI-modeller er unntaket bredere, men fritar bare to forpliktelser: å utarbeide teknisk dokumentasjon og å gjøre viss informasjon tilgjengelig for nedstrøms leverandører (orrick.com). Loven har dessuten ekstraterritoriell rekkevidde og gjelder leverandører utenfor EU som plasserer modeller på EU-markedet (linuxfoundation.eu).

Systemrisiko og FLOPs-terskelen

Det viktigste unntaket har et unntak: leverandører av åpen kildekode-GPAI-modeller med systemrisiko er ikke fritatt fra noen forpliktelser (linuxfoundation.eu). Terskelen for systemrisiko er satt til 10^25 FLOP (openfuture.eu). Per februar 2025 var det 25 modeller globalt som oversteg terskelen ifølge Linux Foundation (linuxfoundation.eu), mens en annen analyse anslår 33 modeller som ville fanges opp (interface-eu.org). For de aller største åpne modellene er dette en reell vurdering, ikke en teoretisk.

Alura mener åpen vekt ikke automatisk gir fritak fra EU AI Act. Norske team må selv sjekke hvilke GPAI-forpliktelser som gjelder, særlig for modeller som kan treffe systemrisiko-terskelen. Å anta at «åpen» betyr «utenfor loven» er den dyreste antakelsen du kan gjøre her.

Sikkerhet og styring når AI skriver koden

Når andelen maskinskrevet kode stiger, endrer risikoprofilen seg. Feilene blir flere og annerledes, og de krever andre kontrollmekanismer enn manuell koding gjorde. Dette gjelder uansett driftsmodell, men blir ekstra viktig med åpne vekter der ansvaret ligger tydeligere hos teamet selv.

Produksjonsfeil øker

AI-generert kode dominerer nå produksjonen. 67% av teknologiledere rapporterer at AI genererer eller betydelig refaktorerer mellom 51% og 75% av ukentlig kode (newrelic.com), og hos Google er 75% av produksjonskoden AI-generert (newrelic.com). Samtidig har 78% av organisasjoner sett en målbar økning i produksjonshendelser direkte knyttet til AI-kode (newrelic.com), og AI-generert kode har en 1,7 ganger så høy rate av kritiske kjøretidsproblemer som menneskeskrevet kode (newrelic.com). Feilmodusene fordeler seg på integrasjonsfeil (30%), compliance-problemer (30%), dataintegritet (29%) og nye sikkerhetssårbarheter (28%) (newrelic.com).

Observerbarhet er ikke valgfritt

Paradokset er at 94% av teknologiledere vurderer AI-generert kode som høyere kvalitet enn menneskeskrevet ved review (newrelic.com). Det er derfor 96% av lederne rangerer observerbarhet som kritisk for å håndtere AI-genererte miljøer (newrelic.com).

Aluras posisjon er tydelig: AI-generert kode skal verifiseres. Observerbarhet og review er ikke valgfritt når andelen maskinskrevet kode øker. Med 95% av organisasjoner som formelt eller uformelt autoriserer maskin-generert programvare i produksjon (newrelic.com), er styring det som skiller kontrollert bruk fra ukontrollert.

Sikkerhetsrisiko ved åpne vekter

Åpne vekter har en egen risikoprofil. Åpen kildekode-modeller kan brukes og distribueres uten finjusterte sikkerhetstiltak, slik at ondsinnede aktører kan omgå sikkerhetsmekanismer (lesswrong.com). BadLlama-artikkelen viste at det kostet bare $200 å trene bort sikkerhets-finjusteringen på den største modellen de testet (lesswrong.com). Samtidig argumenterer mange for at åpenhet er nødvendig for å hindre konsentrasjon av makt og rikdom fra AI (lesswrong.com), og over 1 800 personer signerte Mozillas felleserklæring om AI-sikkerhet og åpenhet (lesswrong.com). For et team betyr det at åpne vekter gir mer kontroll, men også mer ansvar for å legge sikkerhetslagene selv.

Vanlige feil norske team gjør med AI-generert kode

De fleste feilene er ikke tekniske, de er organisatoriske. Her er de fire som går igjen, med tallene som viser hvorfor de koster.

Sender uverifisert kode til produksjon

Den dyreste feilen er å behandle AI-utdata som ferdig kode. 86% rapporterer økt «brannslukking» og nødintervensjon fra senioringeniører (newrelic.com). Når 66% av utviklere sier at utdata er «nesten riktig, men ikke helt» (uvik.net), er review-steget det som fanger differansen mellom nesten og helt.

Antar at åpen vekt betyr fritak

Mange antar at en åpen modell setter dem utenfor regelverket. Det stemmer ikke: unntaket for GPAI-modeller fritar bare to forpliktelser (orrick.com), og er ikke tilgjengelig for modeller med systemrisiko (orrick.com). AI Act definerer ikke engang «open-source», noe som gir Europakommisjonen tolkningsrom (orrick.com). Selv lisensvilkårene kan derfor bære forpliktelser du må lese nøye.

Undervurderer maskinvare og drift

Å velge lokal drift uten å regne på maskinvaren ender ofte i skuffelse. En massiv kodemodell kan kreve 133 GB lagringsplass (youtube.com) og en 80 GB GPU for de større open-weight-variantene (developers.redhat.com). Løsningen er ikke å droppe lokal drift, men å matche modellstørrelse mot faktisk maskinvare: en 20b-variant på forbrukerhardware (developers.redhat.com) eller en effektiv MoE med få aktive parametere, som Qwen3 Coder Next med 3B aktive per token (kilo.ai).

Ofte stilte spørsmål om lokale AI-kodeassistenter

Kortversjonen av spørsmålene norske team stiller oftest, med svar forankret i tallene over.

Kan en åpen modell matche GPT-5.5 og Claude?

På kodebenchmarks er avstanden liten. DeepSeek V4-Pro leder LiveCodeBench med 93.5 (kilo.ai), og åpne modeller når 89% på LiveCodeBench generelt (whatllm.org). GPT-5.5 er fortsatt sterkest for langvarig agentisk arbeid, men for de fleste kodeoppgaver er gapet på topplista nede i 5,4% (kilo.ai).

Hvilken maskinvare trenger jeg?

Det avhenger av modellen. En light-variant som DeepSeek-Coder-V2 tar 9 GB (youtube.com) og gpt-oss 20b kjører på forbrukerhardware (developers.redhat.com). Vil du kjøre de store, trenger du en 80 GB GPU for modeller som gpt-oss-120B (developers.redhat.com).

Slipper jeg EU AI Act hvis modellen er åpen?

Nei. Unntaket fritar bare to GPAI-forpliktelser (orrick.com), gjelder ikke for høyrisiko eller systemrisiko (linuxfoundation.eu), og loven har ekstraterritoriell rekkevidde (linuxfoundation.eu). Systemrisiko-terskelen er 10^25 FLOP (openfuture.eu).

Er lokal drift billigere enn API?

Det kommer an på volum. API koster fra $0.30/$1.20 per million tokens for MiniMax M2.7 opp til $200+ i måneden per bruker ved tung Opus-bruk. Ved jevnt, høyt volum lønner lokal drift seg; ved lav og uforutsigbar bruk vinner API.

Hvor mye kan jeg delegere til en kodeagent?

Mindre enn hypen tilsier. Utviklere bruker AI i rundt 60% av arbeidet, men kan fullt ut delegere bare 0-20% av oppgavene (resources.anthropic.com). Agenter kan løse krevende oppgaver, som en vLLM-oppgave løst med 99,9% numerisk nøyaktighet på sju timer (resources.anthropic.com), men mennesket blir orkestratoren, ikke tilskueren.

Oppsummering og hva du gjør på mandag

Lokale og åpen-vekt kodemodeller er et reelt alternativ i 2026, ikke et kompromiss. Benchmark-gapet mot lukkede modeller er lite (kilo.ai), maskinvaren rekker ned til forbrukernivå for mindre modeller (developers.redhat.com), og lisensene gir kontroll du ikke får med et lukket API. Men fordelen kommer med to betingelser: du må håndtere EU AI Act selv (linuxfoundation.eu), og du må verifisere koden som produseres, siden 78% ser flere produksjonshendelser fra AI-kode (newrelic.com).

Valget er ikke lokal eller API. Mange team ender med en blanding: en åpen modell lokalt for sensitiv kode og rutinearbeid, et sterkt API for de tyngste agentiske oppgavene. Det viktige er at valget er bevisst, dokumentert og styrt.

Sjekklisten for mandag

Start med tre konkrete steg. For det første: kartlegg datafølsomheten i kodebasen din og avgjør hva som kan sendes til et eksternt API og hva som må bli værende lokalt. For det andre: sjekk om modellen du vurderer nærmer seg systemrisiko-terskelen på 10^25 FLOP (openfuture.eu), og gå gjennom hvilke GPAI-forpliktelser som gjelder deg (orrick.com). For det tredje: sett opp observerbarhet og review som fast praksis før du skalerer bruken, slik 96% av lederne anbefaler (newrelic.com).

Trenger du å velge mellom konkrete modeller, se vår gjennomgang av ulike AI-modeller og hvorfor AI skyver team mot typede språk når andelen maskinskrevet kode stiger. Den underliggende bevegelsen er den samme: AI skriver mer av koden, og verdien flytter seg til styringen rundt den.

I Alura bygger vi AI-infrastruktur for norske virksomheter, fra dataplattformer til agentiske systemer i produksjon. Vi er ikke en SaaS-leverandør. Vi er håndverkere som setter sammen byggesteinene som faktisk fungerer for din situasjon.

Bestill en arkitektur-samtale: vi går gjennom din nåværende infrastruktur, identifiserer integrasjonspunkter, og foreslår en pragmatisk vei videre. Uforpliktende, 45 minutter.