Performance Drop - promp eval time #17920

d-shehu · 2025-12-10T22:34:46Z

d-shehu
Dec 10, 2025

I just updated to b7347 from a previous releases b738. And I've noticed an across-the-board reduction in eval time. Oddly the eval time is about the same.

No other changes to OS, drivers or llama cli parameters. Testing with a single GPU, RTX 3090, on a variety of models including Gemma 27B, Deepseek R1 70B, GPT-OSS 120B.

Any one else see this or just me? Thanks.

Deepseek R1 70B - Previous

common_perf_print: prompt eval time =     426.54 ms /    13 tokens (   32.81 ms per token,    30.48 tokens per second)
common_perf_print:        eval time =  158021.47 ms /  2127 runs   (   74.29 ms per token,    13.46 tokens per second)

Deepseek R1 70B - Current

common_perf_print: prompt eval time =     528.70 ms /    13 tokens (   40.67 ms per token,    24.59 tokens per second)
common_perf_print:        eval time =  151626.33 ms /  2208 runs   (   68.67 ms per token,    14.56 tokens per second)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Performance Drop - promp eval time #17920

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Performance Drop - promp eval time #17920

Uh oh!

d-shehu Dec 10, 2025

Replies: 0 comments

d-shehu
Dec 10, 2025