Er disse målingene representative for vanlig bruk?

Benchmark-resultater gir en god indikasjon, men responstid kan variere med belastning, tidspunkt og oppgavetype. Resultatene er mest nyttige for å sammenligne modeller over tid.

AI-benchmark på norsk: over 350 modeller

Beste i sin klasse

🏆

Høyest score

Cohere: Command R+ (08-2024)

8.5/10

🇳🇴

Best på norsk

Meta: Llama 3.2 3B Instruct

8.0/10

⚡

Raskest

Google: Gemma 3 4B

224 t/s

💰

Billigst (score ≥ 3)

Meta: Llama 3.2 3B Instruct

$0.05/1M

📊

Beste verdi

Cohere: Command R7B (12-2024)

Verdi 180.0

🔗

Beste orkestrator

Cohere: Command R+ (08-2024)

Orch 8.0/10

Er premium verdt det?

Premium norsk-score

3.5/5

Mid-range norsk-score

3.5/5

Prisforskjell

~10×

For norsk tekst og enkle oppgaver holder mid-range svært godt. Premium lønner seg ved kompleks resonnering, lange dokumenter og når presisjon er kritisk.

Alle resultater

#	Modell	Tier	t/s	TTFT	norsk	Instr	Score	Orch.	Verdi	EU	Pris/1M
1	Cohere: Command R+ (08-2024) cohere	Premium	194	129 ms	8.0	10.0	8.5	8.0	3.6	—	$2.50 ≈25 kr
2	Cohere: Command R7B (12-2024) cohere	Budsjett	171	224 ms	8.0	10.0	8.4	8.0	180.0	—	$0.04 ≈0 kr
3	Anthropic: Claude Opus 4.8 (Fast) anthropic	Premium	146	136 ms	8.0	10.0	8.0	8.0	0.9	🇪🇺 EU	$10.00 ≈99 kr
4	Anthropic: Claude Haiku 4.5 anthropic Stabil	Mid-range	90	146 ms	8.0	10.0	7.4	8.0	8.9	🇪🇺 EU	$1.00 ≈10 kr
5	Meta: Llama 3.2 3B Instruct meta-llama Stabil	Budsjett	222	99 ms	8.0	8.0	8.1	6.4	133.3	—	$0.05 ≈0 kr
6	Google: Gemini 2.5 Pro google Stabil	Mid-range	138	78 ms	8.0	4.0	5.3	3.2	4.8	~EU	$1.25 ≈12 kr
7	Google: Gemma 3 4B google Stabil	Budsjett	224	132 ms	6.0	10.0	8.2	6.0	133.3	~EU	$0.05 ≈0 kr
8	Meta: Llama 3.3 70B Instruct meta-llama	Mid-range	202	78 ms	6.0	10.0	7.9	6.0	72.7	—	$0.10 ≈1 kr
9	OpenAI: GPT-5.4 Nano openai Stabil	Mid-range	162	79 ms	6.0	10.0	7.4	6.0	38.1	—	$0.20 ≈2 kr
10	OpenAI: GPT-4 Turbo openai Stabil	Premium	92	204 ms	6.0	10.0	6.7	6.0	0.8	—	$10.00 ≈99 kr
11	Perplexity: Sonar Pro Search perplexity Stabil	Premium	65	219 ms	6.0	10.0	6.4	6.0	2.7	~EU	$3.00 ≈30 kr
12	DeepSeek: DeepSeek V4 Flash deepseek	Budsjett	139	90 ms	4.0	8.0	5.5	3.2	60.0	—	$0.09 ≈1 kr

Responstid siste 14 dager

Slik tester vi

Vi evaluerer over 350 AI-modeller og presenterer de beste resultatene hver morgen. Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Les mer om metodikken →

Vanlige spørsmål

Vi evaluerer over 350 tilgjengelige modeller og presenterer de beste resultatene fra siste benchmark. Utvalget oppdateres dynamisk når markedet endrer seg.

Språk-scoren viser hvor godt modellen leverer svar på riktig språk og med god språkkvalitet. Scoren vises som et normalisert tall.

Instruksjons-scoren viser hvor godt modellen følger oppgaven den får. Vi viser resultatet som en enkel, normalisert score.

Scoren kombinerer språkforståelse, kvalitet, hastighet, pris og stabilitet. Den nøyaktige vektingen er proprietær.

Beste verdi peker på modeller som gir sterke resultater i forhold til pris. Den nøyaktige beregningen er proprietær.

AI-benchmark på norsk: dagens beste modeller