llama.cpp/llama_cpp/server/model.py

from __future__ import annotations

import json

from typing import Dict, Optional, Union, List

import llama_cpp
import llama_cpp.llama_speculative as llama_speculative

from llama_cpp.server.settings import ModelSettings


class LlamaProxy:
    def __init__(self, models: List[ModelSettings]) -> None:
        assert len(models) > 0, "No models provided!"

        self._model_settings_dict: dict[str, ModelSettings] = {}
        for model in models:
            if not model.model_alias:
                model.model_alias = model.model
            self._model_settings_dict[model.model_alias] = model

        self._current_model: Optional[llama_cpp.Llama] = None
        self._current_model_alias: Optional[str] = None

        self._default_model_settings: ModelSettings = models[0]
        self._default_model_alias: str = self._default_model_settings.model_alias  # type: ignore

        # Load default model
        self._current_model = self.load_llama_from_model_settings(
            self._default_model_settings
        )
        self._current_model_alias = self._default_model_alias

    def __call__(self, model: Optional[str] = None) -> llama_cpp.Llama:
        if model is None:
            model = self._default_model_alias

        if model not in self._model_settings_dict:
            model = self._default_model_alias

        if model == self._current_model_alias:
            if self._current_model is not None:
                return self._current_model

        self._current_model = None

        settings = self._model_settings_dict[model]
        self._current_model = self.load_llama_from_model_settings(settings)
        self._current_model_alias = model
        return self._current_model

    def __getitem__(self, model: str):
        return self._model_settings_dict[model].model_dump()

    def __setitem__(self, model: str, settings: Union[ModelSettings, str, bytes]):
        if isinstance(settings, (bytes, str)):
            settings = ModelSettings.model_validate_json(settings)
        self._model_settings_dict[model] = settings

    def __iter__(self):
        for model in self._model_settings_dict:
            yield model

    def free(self):
        if self._current_model:
            del self._current_model

    @staticmethod
    def load_llama_from_model_settings(settings: ModelSettings) -> llama_cpp.Llama:
        chat_handler = None
        if settings.chat_format == "llava-1-5":
            assert settings.clip_model_path is not None, "clip model not found"
            chat_handler = llama_cpp.llama_chat_format.Llava15ChatHandler(
                clip_model_path=settings.clip_model_path, verbose=settings.verbose
            )
        elif settings.chat_format == "hf-autotokenizer":
            assert (
                settings.hf_pretrained_model_name_or_path is not None
            ), "hf_pretrained_model_name_or_path must be set for hf-autotokenizer"
            chat_handler = (
                llama_cpp.llama_chat_format.hf_autotokenizer_to_chat_completion_handler(
                    settings.hf_pretrained_model_name_or_path
                )
            )
        elif settings.chat_format == "hf-tokenizer-config":
            assert (
                settings.hf_tokenizer_config_path is not None
            ), "hf_tokenizer_config_path must be set for hf-tokenizer-config"
            chat_handler = (
                llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(
                    json.load(open(settings.hf_tokenizer_config_path))
                )
            )

        draft_model = None
        if settings.draft_model is not None:
            draft_model = llama_speculative.LlamaPromptLookupDecoding(
                num_pred_tokens=settings.draft_model_num_pred_tokens
            )

        kv_overrides: Optional[Dict[str, Union[bool, int, float]]] = None
        if settings.kv_overrides is not None:
            assert isinstance(settings.kv_overrides, list)
            kv_overrides = {}
            for kv in settings.kv_overrides:
                key, value = kv.split("=")
                if ":" in value:
                    value_type, value = value.split(":")
                    if value_type == "bool":
                        kv_overrides[key] = value.lower() in ["true", "1"]
                    elif value_type == "int":
                        kv_overrides[key] = int(value)
                    elif value_type == "float":
                        kv_overrides[key] = float(value)
                    else:
                        raise ValueError(f"Unknown value type {value_type}")

        _model = llama_cpp.Llama(
            model_path=settings.model,
            # Model Params
            n_gpu_layers=settings.n_gpu_layers,
            main_gpu=settings.main_gpu,
            tensor_split=settings.tensor_split,
            vocab_only=settings.vocab_only,
            use_mmap=settings.use_mmap,
            use_mlock=settings.use_mlock,
            kv_overrides=kv_overrides,
            # Context Params
            seed=settings.seed,
            n_ctx=settings.n_ctx,
            n_batch=settings.n_batch,
            n_threads=settings.n_threads,
            n_threads_batch=settings.n_threads_batch,
            rope_scaling_type=settings.rope_scaling_type,
            rope_freq_base=settings.rope_freq_base,
            rope_freq_scale=settings.rope_freq_scale,
            yarn_ext_factor=settings.yarn_ext_factor,
            yarn_attn_factor=settings.yarn_attn_factor,
            yarn_beta_fast=settings.yarn_beta_fast,
            yarn_beta_slow=settings.yarn_beta_slow,
            yarn_orig_ctx=settings.yarn_orig_ctx,
            mul_mat_q=settings.mul_mat_q,
            logits_all=settings.logits_all,
            embedding=settings.embedding,
            offload_kqv=settings.offload_kqv,
            # Sampling Params
            last_n_tokens_size=settings.last_n_tokens_size,
            # LoRA Params
            lora_base=settings.lora_base,
            lora_path=settings.lora_path,
            # Backend Params
            numa=settings.numa,
            # Chat Format Params
            chat_format=settings.chat_format,
            chat_handler=chat_handler,
            # Speculative Decoding
            draft_model=draft_model,
            # Misc
            verbose=settings.verbose,
        )
        if settings.cache:
            if settings.cache_type == "disk":
                if settings.verbose:
                    print(f"Using disk cache with size {settings.cache_size}")
                cache = llama_cpp.LlamaDiskCache(capacity_bytes=settings.cache_size)
            else:
                if settings.verbose:
                    print(f"Using ram cache with size {settings.cache_size}")
                cache = llama_cpp.LlamaRAMCache(capacity_bytes=settings.cache_size)
            _model.set_cache(cache)
        return _model
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00			`from __future__ import annotations`

feat: Add ability to load chat format from huggingface autotokenizer or tokenizer_config.json files. 2024-01-19 02:21:37 +00:00			`import json`

Implement GGUF metadata KV overrides (#1011) * Implement GGUF metadata overrides * whitespace fix * Fix kv overrides. * Fix pointer and pickle * Match llama.cpp kv_overrides cli argument --------- Co-authored-by: Andrei <abetlen@gmail.com> 2024-01-15 17:29:29 +00:00			`from typing import Dict, Optional, Union, List`
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00
			`import llama_cpp`
Add speculative decoding (#1120) * Add draft model param to llama class, implement basic prompt lookup decoding draft model * Use samplingcontext for sampling * Use 1d array * Use draft model for sampling * Fix dumb mistake * Allow for later extensions to the LlamaDraftModel api * Cleanup * Adaptive candidate prediction * Update implementation to match hf transformers * Tuning * Fix bug where last token was not used for ngram prediction * Remove heuristic for num_pred_tokens (no benefit) * fix: n_candidates bug. * Add draft_model_num_pred_tokens server setting * Cleanup * Update README 2024-01-31 19:08:14 +00:00			`import llama_cpp.llama_speculative as llama_speculative`
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00
			`from llama_cpp.server.settings import ModelSettings`


			`class LlamaProxy:`
			`def __init__(self, models: List[ModelSettings]) -> None:`
			`assert len(models) > 0, "No models provided!"`

			`self._model_settings_dict: dict[str, ModelSettings] = {}`
			`for model in models:`
			`if not model.model_alias:`
			`model.model_alias = model.model`
			`self._model_settings_dict[model.model_alias] = model`

			`self._current_model: Optional[llama_cpp.Llama] = None`
			`self._current_model_alias: Optional[str] = None`

			`self._default_model_settings: ModelSettings = models[0]`
			`self._default_model_alias: str = self._default_model_settings.model_alias # type: ignore`

			`# Load default model`
			`self._current_model = self.load_llama_from_model_settings(`
			`self._default_model_settings`
			`)`
			`self._current_model_alias = self._default_model_alias`

			`def __call__(self, model: Optional[str] = None) -> llama_cpp.Llama:`
			`if model is None:`
			`model = self._default_model_alias`

			`if model not in self._model_settings_dict:`
			`model = self._default_model_alias`

			`if model == self._current_model_alias:`
			`if self._current_model is not None:`
			`return self._current_model`

			`self._current_model = None`

			`settings = self._model_settings_dict[model]`
			`self._current_model = self.load_llama_from_model_settings(settings)`
			`self._current_model_alias = model`
			`return self._current_model`

			`def __getitem__(self, model: str):`
			`return self._model_settings_dict[model].model_dump()`

			`def __setitem__(self, model: str, settings: Union[ModelSettings, str, bytes]):`
			`if isinstance(settings, (bytes, str)):`
			`settings = ModelSettings.model_validate_json(settings)`
			`self._model_settings_dict[model] = settings`

			`def __iter__(self):`
			`for model in self._model_settings_dict:`
			`yield model`

			`def free(self):`
			`if self._current_model:`
			`del self._current_model`

			`@staticmethod`
			`def load_llama_from_model_settings(settings: ModelSettings) -> llama_cpp.Llama:`
			`chat_handler = None`
			`if settings.chat_format == "llava-1-5":`
			`assert settings.clip_model_path is not None, "clip model not found"`
			`chat_handler = llama_cpp.llama_chat_format.Llava15ChatHandler(`
			`clip_model_path=settings.clip_model_path, verbose=settings.verbose`
			`)`
feat: Add ability to load chat format from huggingface autotokenizer or tokenizer_config.json files. 2024-01-19 02:21:37 +00:00			`elif settings.chat_format == "hf-autotokenizer":`
			`assert (`
			`settings.hf_pretrained_model_name_or_path is not None`
			`), "hf_pretrained_model_name_or_path must be set for hf-autotokenizer"`
			`chat_handler = (`
fix: pass chat handler not chat formatter for huggingface autotokenizer and tokenizer_config formats. 2024-01-21 23:38:04 +00:00			`llama_cpp.llama_chat_format.hf_autotokenizer_to_chat_completion_handler(`
feat: Add ability to load chat format from huggingface autotokenizer or tokenizer_config.json files. 2024-01-19 02:21:37 +00:00			`settings.hf_pretrained_model_name_or_path`
			`)`
			`)`
			`elif settings.chat_format == "hf-tokenizer-config":`
			`assert (`
			`settings.hf_tokenizer_config_path is not None`
			`), "hf_tokenizer_config_path must be set for hf-tokenizer-config"`
			`chat_handler = (`
fix: pass chat handler not chat formatter for huggingface autotokenizer and tokenizer_config formats. 2024-01-21 23:38:04 +00:00			`llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(`
feat: Add ability to load chat format from huggingface autotokenizer or tokenizer_config.json files. 2024-01-19 02:21:37 +00:00			`json.load(open(settings.hf_tokenizer_config_path))`
			`)`
			`)`

Add speculative decoding (#1120) * Add draft model param to llama class, implement basic prompt lookup decoding draft model * Use samplingcontext for sampling * Use 1d array * Use draft model for sampling * Fix dumb mistake * Allow for later extensions to the LlamaDraftModel api * Cleanup * Adaptive candidate prediction * Update implementation to match hf transformers * Tuning * Fix bug where last token was not used for ngram prediction * Remove heuristic for num_pred_tokens (no benefit) * fix: n_candidates bug. * Add draft_model_num_pred_tokens server setting * Cleanup * Update README 2024-01-31 19:08:14 +00:00			`draft_model = None`
			`if settings.draft_model is not None:`
			`draft_model = llama_speculative.LlamaPromptLookupDecoding(`
			`num_pred_tokens=settings.draft_model_num_pred_tokens`
			`)`

Implement GGUF metadata KV overrides (#1011) * Implement GGUF metadata overrides * whitespace fix * Fix kv overrides. * Fix pointer and pickle * Match llama.cpp kv_overrides cli argument --------- Co-authored-by: Andrei <abetlen@gmail.com> 2024-01-15 17:29:29 +00:00			`kv_overrides: Optional[Dict[str, Union[bool, int, float]]] = None`
			`if settings.kv_overrides is not None:`
			`assert isinstance(settings.kv_overrides, list)`
			`kv_overrides = {}`
			`for kv in settings.kv_overrides:`
			`key, value = kv.split("=")`
			`if ":" in value:`
			`value_type, value = value.split(":")`
			`if value_type == "bool":`
			`kv_overrides[key] = value.lower() in ["true", "1"]`
			`elif value_type == "int":`
			`kv_overrides[key] = int(value)`
			`elif value_type == "float":`
			`kv_overrides[key] = float(value)`
			`else:`
			`raise ValueError(f"Unknown value type {value_type}")`
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00
			`_model = llama_cpp.Llama(`
			`model_path=settings.model,`
			`# Model Params`
			`n_gpu_layers=settings.n_gpu_layers,`
			`main_gpu=settings.main_gpu,`
			`tensor_split=settings.tensor_split,`
			`vocab_only=settings.vocab_only,`
			`use_mmap=settings.use_mmap,`
			`use_mlock=settings.use_mlock,`
Implement GGUF metadata KV overrides (#1011) * Implement GGUF metadata overrides * whitespace fix * Fix kv overrides. * Fix pointer and pickle * Match llama.cpp kv_overrides cli argument --------- Co-authored-by: Andrei <abetlen@gmail.com> 2024-01-15 17:29:29 +00:00			`kv_overrides=kv_overrides,`
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00			`# Context Params`
			`seed=settings.seed,`
			`n_ctx=settings.n_ctx,`
			`n_batch=settings.n_batch,`
			`n_threads=settings.n_threads,`
			`n_threads_batch=settings.n_threads_batch,`
			`rope_scaling_type=settings.rope_scaling_type,`
			`rope_freq_base=settings.rope_freq_base,`
			`rope_freq_scale=settings.rope_freq_scale,`
			`yarn_ext_factor=settings.yarn_ext_factor,`
			`yarn_attn_factor=settings.yarn_attn_factor,`
			`yarn_beta_fast=settings.yarn_beta_fast,`
			`yarn_beta_slow=settings.yarn_beta_slow,`
			`yarn_orig_ctx=settings.yarn_orig_ctx,`
			`mul_mat_q=settings.mul_mat_q,`
			`logits_all=settings.logits_all,`
			`embedding=settings.embedding,`
			`offload_kqv=settings.offload_kqv,`
			`# Sampling Params`
			`last_n_tokens_size=settings.last_n_tokens_size,`
			`# LoRA Params`
			`lora_base=settings.lora_base,`
			`lora_path=settings.lora_path,`
			`# Backend Params`
			`numa=settings.numa,`
			`# Chat Format Params`
			`chat_format=settings.chat_format,`
			`chat_handler=chat_handler,`
Add speculative decoding (#1120) * Add draft model param to llama class, implement basic prompt lookup decoding draft model * Use samplingcontext for sampling * Use 1d array * Use draft model for sampling * Fix dumb mistake * Allow for later extensions to the LlamaDraftModel api * Cleanup * Adaptive candidate prediction * Update implementation to match hf transformers * Tuning * Fix bug where last token was not used for ngram prediction * Remove heuristic for num_pred_tokens (no benefit) * fix: n_candidates bug. * Add draft_model_num_pred_tokens server setting * Cleanup * Update README 2024-01-31 19:08:14 +00:00			`# Speculative Decoding`
			`draft_model=draft_model,`
[Feat] Multi model support (#931) * Update Llama class to handle chat_format & caching * Add settings.py * Add util.py & update __main__.py * multimodel * update settings.py * cleanup * delete util.py * Fix /v1/models endpoint * MultiLlama now iterable, app check-alive on "/" * instant model init if file is given * backward compability * revert model param mandatory * fix error * handle individual model config json * refactor * revert chathandler/clip_model changes * handle chat_handler in MulitLlama() * split settings into server/llama * reduce global vars * Update LlamaProxy to handle config files * Add free method to LlamaProxy * update arg parsers & install server alias * refactor cache settings * change server executable name * better var name * whitespace * Revert "whitespace" This reverts commit bc5cf51c64a95bfc9926e1bc58166059711a1cd8. * remove exe_name * Fix merge bugs * Fix type annotations * Fix type annotations * Fix uvicorn app factory * Fix settings * Refactor server * Remove formatting fix * Format * Use default model if not found in model settings * Fix * Cleanup * Fix * Fix * Remove unnused CommandLineSettings * Cleanup * Support default name for copilot-codex models --------- Co-authored-by: Andrei Betlen <abetlen@gmail.com> 2023-12-22 10:51:25 +00:00			`# Misc`
			`verbose=settings.verbose,`
			`)`
			`if settings.cache:`
			`if settings.cache_type == "disk":`
			`if settings.verbose:`
			`print(f"Using disk cache with size {settings.cache_size}")`
			`cache = llama_cpp.LlamaDiskCache(capacity_bytes=settings.cache_size)`
			`else:`
			`if settings.verbose:`
			`print(f"Using ram cache with size {settings.cache_size}")`
			`cache = llama_cpp.LlamaRAMCache(capacity_bytes=settings.cache_size)`
			`_model.set_cache(cache)`
			`return _model`