Hvordan vi tester

hvilkenAI.no tester AI-modeller på praktiske, hverdagslige oppgaver — ikke akademiske benchmarks.

🛡️

Uavhengig og uten kommersielle bindinger

hvilkenAI har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskap med AI-leverandørene vi tester. Vi mottar ingen provisjon, rabatter eller fordeler fra noen modell-leverandør. Alle anbefalinger er basert utelukkende på testresultatene. Vi finansieres av abonnementsinntekter fra Pro-brukere og annonsering — aldri av leverandørene vi evaluerer.

Vår filosofi

Vi tester det folk faktisk bruker AI til: skrive e-poster, oppsummere tekst, svare på spørsmål, følge instruksjoner på norsk, svensk og dansk. Hvis en modell scorer bra hos oss, fungerer den bra for deg.

Hva vi måler

Norsk språkkvalitet (0–5)

Hvor godt forstår og skriver modellen norsk bokmål? Svarte den på norsk, eller falt den tilbake til engelsk?

Instruksjonsfølging (0–5)

Gjør modellen det du faktisk ber om? Riktig lengde, format og innhold teller.

Hastighet (tokens/sekund)

Hvor raskt får du svar? Vi måler tokens per sekund og tid til første token (TTFT).

Pris (kr per million tokens)

Hva koster det i norske kroner? Oppdateres daglig basert på valutakurs.

Samlet score (0–10)

Vektet totalvurdering som kombinerer norsk, instruksjon, hastighet og verdi per krone.

Orkestrator-score (0–10) — unik for hvilkenAI.no

Hvor godt egnet er modellen til å styre andre AI-modeller på norsk? Beregnes fra norsk × instruksjon — multiplikasjon straffer svakhet i begge dimensjoner. En modell som ikke skriver norsk kan ikke orkestrere effektivt på norsk.

Se orkestrator-rangering →

Modellutvalg og testfrekvens

Hver morgen evaluerer vi over 350 tilgjengelige modeller via OpenRouter API. Vi velger automatisk de 12 modellene som presterer best, fordelt på tre priskategorier: premium, mellomklasse og budsjett. Utvalget er ikke hardkodet — nye modeller testes automatisk når de dukker opp, og modeller som feiler erstattes med neste kandidat fra samme priskategori.

Daglig benchmark kl. 07:30 med standardiserte oppgaver per språk (norsk, svensk, dansk). Ukentlig rapport hver fredag med trender og anbefalinger.

Fokus

Vi fokuserer på praktisk bruk i Skandinavia — ikke akademiske benchmarks. Vi tester det vanlige folk og bedrifter faktisk gjør med AI i hverdagen. Resultatene oppdateres daglig, ikke en gang i kvartalet.

Endringslogg — hva vi har oppdaget

Reelle observasjoner fra daglig benchmark. Dette er det kvartalsrapporter ikke fanger.

2026-05-29 Magnum v4 72B entret topplisten med norsk score 4/5 — høyeste norsk-score blant alle modeller i dag.

2026-05-28 GPT-4 (v0314) scoret 0/10 — foreldet modell ble automatisk erstattet av neste kandidat fra premium-kategorien.

2026-05-28 inclusionAI: Ling-2.6-flash hoppet fra 4.3 → 7.2 over natten uten varsling fra leverandøren — en stille oppdatering fanget av daglig testing.

2026-05-25 Llama 3.1 8B Instruct forbedret seg fra 7.3 → 9.0 — budsjett-modell med plutselig ytelseshopp, nå blant de absolutt beste.

2026-05-25 Claude Opus 4.7 (Fast) gikk fra 6.4 → 8.2 (+1.8) på én dag — stille leverandøroppdatering uten announcering.

2026-05-21 Z.ai GLM 5.1 krasjet fra 6.5 → 1.2 (-5.3) — API-ustabilitet hos leverandøren. Modellen ble flagget og reservekandidat aktivert.

2026-05-20 Z.ai GLM 5.1 dukket opp for første gang i benchmark med score 6.5/10.

2026-05-18 AionLabs: Aion-1.0 scoret 0/5 på norsk ved debut — premium-kategorien, men klarte ikke norsk. Erstattet automatisk.

Hvorfor daglig testing?

De fleste AI-benchmarks publiseres månedlig eller kvartalsvis. Men AI-modeller oppdateres kontinuerlig — ofte uten at leverandøren annonserer det. En modell som var best i forrige uke kan ha falt til nummer 5 denne uken. Daglig testing fanger disse endringene i sanntid.

AI-markedet endrer seg fra dag til dag. Leverandører oppdaterer modellene sine uten forvarsel — vi har fanget flere slike «stille oppdateringer» fordi scoren plutselig endret seg. En rapport i kvartalet fanger ikke dette. Daglig testing gjør det.

For bedrifter som bruker AI i daglig drift betyr dette at beslutningsgrunnlaget alltid er oppdatert. Du trenger ikke vente 3 måneder på neste rapport for å vite om du bruker riktig modell.

Se også

← Tilbake til forsiden