Implemented logit processors and stop criteria's

2023-05-24 21:55:44 +02:00 · 2023-05-24 21:55:44 +02:00 · 5bb780d455
commit 5bb780d455
parent e5d596e0e9
1 changed files with 27 additions and 0 deletions
--- a/llama_cpp/llama.py
+++ b/llama_cpp/llama.py
@ -316,6 +316,7 @@ class Llama:
        mirostat_tau: llama_cpp.c_float,
        mirostat_eta: llama_cpp.c_float,
        penalize_nl: bool = True,
        logits_processors=None
    ):
        assert self.ctx is not None
        assert len(self.eval_logits) > 0
@ -328,6 +329,10 @@ class Llama:
            else last_n_tokens_size
        )
        logits = self.eval_logits[-1]
        for processor in logits_processors:
            logits = processor(list(self.eval_tokens), logits)
        self.eval_logits[-1] = logits
        nl_logit = logits[self._token_nl]
        candidates = self._candidates
        for i, logit in enumerate(logits):
@ -436,6 +441,8 @@ class Llama:
        mirostat_eta: float = 0.1,
        mirostat_tau: float = 5.0,
        penalize_nl: bool = True,
        logits_processors=None
    ):
        """Sample a token from the model.
@ -468,6 +475,8 @@ class Llama:
            mirostat_tau=llama_cpp.c_float(mirostat_tau),
            mirostat_eta=llama_cpp.c_float(mirostat_eta),
            penalize_nl=penalize_nl,
            logits_processors=logits_processors
        )
    def generate(
@ -484,6 +493,7 @@ class Llama:
        mirostat_mode: int = 0,
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
        logits_processors=None
    ) -> Generator[int, Optional[Sequence[int]], None]:
        """Create a generator of tokens from a prompt.
@ -541,6 +551,7 @@ class Llama:
                mirostat_mode=mirostat_mode,
                mirostat_tau=mirostat_tau,
                mirostat_eta=mirostat_eta,
                logits_processors=logits_processors
            )
            tokens_or_none = yield token
            tokens = [token]
@ -637,6 +648,8 @@ class Llama:
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
        model: Optional[str] = None,
        logits_processors=None,
        stopping_criterias=None
    ) -> Union[Iterator[Completion], Iterator[CompletionChunk]]:
        assert self.ctx is not None
        completion_id: str = f"cmpl-{str(uuid.uuid4())}"
@ -700,6 +713,7 @@ class Llama:
            frequency_penalty=frequency_penalty,
            presence_penalty=presence_penalty,
            repeat_penalty=repeat_penalty,
            logits_processors=logits_processors
        ):
            if token == self._token_eos:
                text = self.detokenize(completion_tokens)
@ -707,6 +721,14 @@ class Llama:
                break
            completion_tokens.append(token)
            for stopping_crit in stopping_criterias:
                if stopping_crit(completion_tokens, None):
                    text = self.detokenize(completion_tokens)
                    finish_reason = "stop"
                    break
            if finish_reason == "stop":
                break
            all_text = self.detokenize(completion_tokens)
@ -1006,6 +1028,8 @@ class Llama:
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
        model: Optional[str] = None,
        logits_processors=None,
        stopping_criterias=None
    ) -> Union[Completion, Iterator[CompletionChunk]]:
        """Generate text from a prompt.
@ -1048,6 +1072,9 @@ class Llama:
            mirostat_tau=mirostat_tau,
            mirostat_eta=mirostat_eta,
            model=model,
            logits_processors=logits_processors,
            stopping_criterias=stopping_criterias
        )
        if stream:
            chunks: Iterator[CompletionChunk] = completion_or_chunks