Hvordan vi tester
hvilkenAI.no tester AI-modeller på praktiske, hverdagslige oppgaver — ikke akademiske benchmarks.
Uavhengig og uten kommersielle bindinger
hvilkenAI har ingen affiliate-avtaler, sponsorer eller kommersielle partnerskap med AI-leverandørene vi tester. Vi mottar ingen provisjon, rabatter eller fordeler fra noen modell-leverandør. Alle anbefalinger er basert utelukkende på testresultatene. Vi finansieres av abonnementsinntekter fra Pro-brukere og annonsering — aldri av leverandørene vi evaluerer.
Vår filosofi
Hva vi måler
Norsk språkkvalitet (0–5)
Hvor godt forstår og skriver modellen norsk bokmål? Svarte den på norsk, eller falt den tilbake til engelsk?
Instruksjonsfølging (0–5)
Gjør modellen det du faktisk ber om? Riktig lengde, format og innhold teller.
Hastighet (tokens/sekund)
Hvor raskt får du svar? Vi måler tokens per sekund og tid til første token (TTFT).
Pris (kr per million tokens)
Hva koster det i norske kroner? Oppdateres daglig basert på valutakurs.
Samlet score (0–10)
Vektet totalvurdering som kombinerer norsk, instruksjon, hastighet og verdi per krone.
Orkestrator-score (0–10) — unik for hvilkenAI.no
Hvor godt egnet er modellen til å styre andre AI-modeller på norsk? Beregnes fra norsk × instruksjon — multiplikasjon straffer svakhet i begge dimensjoner. En modell som ikke skriver norsk kan ikke orkestrere effektivt på norsk.
Se orkestrator-rangering →Modellutvalg og testfrekvens
Fokus
Endringslogg — hva vi har oppdaget
Reelle observasjoner fra daglig benchmark. Dette er det kvartalsrapporter ikke fanger.
Hvorfor daglig testing?
De fleste AI-benchmarks publiseres månedlig eller kvartalsvis. Men AI-modeller oppdateres kontinuerlig — ofte uten at leverandøren annonserer det. En modell som var best i forrige uke kan ha falt til nummer 5 denne uken. Daglig testing fanger disse endringene i sanntid.
AI-markedet endrer seg fra dag til dag. Leverandører oppdaterer modellene sine uten forvarsel — vi har fanget flere slike «stille oppdateringer» fordi scoren plutselig endret seg. En rapport i kvartalet fanger ikke dette. Daglig testing gjør det.
For bedrifter som bruker AI i daglig drift betyr dette at beslutningsgrunnlaget alltid er oppdatert. Du trenger ikke vente 3 måneder på neste rapport for å vite om du bruker riktig modell.
Se også