Add StoppingCriteria and LogitsProcessor to generate to match huggingface API

2023-05-25 14:04:54 -04:00 · 2023-05-25 14:04:54 -04:00 · 1d247e0f35
commit 1d247e0f35
parent c6a9659972
1 changed files with 42 additions and 32 deletions
--- a/llama_cpp/llama.py
+++ b/llama_cpp/llama.py
@ -4,7 +4,17 @@ import uuid
 import time
 import math
 import multiprocessing
-from typing import List, Optional, Union, Generator, Sequence, Iterator, Deque, Tuple, Callable
+from typing import (
+    List,
+    Optional,
+    Union,
+    Generator,
+    Sequence,
+    Iterator,
+    Deque,
+    Tuple,
+    Callable,
+)
 from collections import deque, OrderedDict

 from . import llama_cpp
@ -72,6 +82,24 @@ class LlamaState:
        self.llama_state_size = llama_state_size


+LogitsProcessor = Callable[[List[int], List[float]], List[float]]
+
+
+class LogitsProcessorList(List[LogitsProcessor]):
+    def __call__(self, input_ids: List[int], scores: List[float]) -> List[float]:
+        for processor in self:
+            scores = processor(input_ids, scores)
+        return scores
+
+
+StoppingCriteria = Callable[[List[int], List[float]], bool]
+
+
+class StoppingCriteriaList(List[StoppingCriteria]):
+    def __call__(self, input_ids: List[int], logits: List[float]) -> bool:
+        return any([stopping_criteria(input_ids, logits) for stopping_criteria in self])
+
+
 class Llama:
    """High-level Python wrapper for a llama.cpp model."""

@ -316,12 +344,10 @@ class Llama:
        mirostat_tau: llama_cpp.c_float,
        mirostat_eta: llama_cpp.c_float,
        penalize_nl: bool = True,
-        logits_processors: List[Callable[[List[int], List[float]], List[float]]] = None
+        logits_processor: Optional[LogitsProcessorList] = None,
    ):
        assert self.ctx is not None
        assert len(self.eval_logits) > 0
-        if logits_processors is None:
-            logits_processors = []

        n_vocab = self.n_vocab()
        n_ctx = self.n_ctx()
@ -332,10 +358,10 @@ class Llama:
            else last_n_tokens_size
        )
        logits = self.eval_logits[-1]
-        for processor in logits_processors:
-            logits = processor(list(self.eval_tokens), logits)

-        self.eval_logits[-1] = logits
+        if logits_processor is not None:
+            logits = logits_processor(list(self.eval_tokens), logits)
+
        nl_logit = logits[self._token_nl]
        candidates = self._candidates
        for i, logit in enumerate(logits):
@ -444,8 +470,7 @@ class Llama:
        mirostat_eta: float = 0.1,
        mirostat_tau: float = 5.0,
        penalize_nl: bool = True,
-        logits_processors:  List[Callable[[List[int], List[float]], List[float]]] = None
-
+        logits_processor: Optional[LogitsProcessorList] = None,
    ):
        """Sample a token from the model.

@ -478,8 +503,7 @@ class Llama:
            mirostat_tau=llama_cpp.c_float(mirostat_tau),
            mirostat_eta=llama_cpp.c_float(mirostat_eta),
            penalize_nl=penalize_nl,
-            logits_processors=logits_processors
-
+            logits_processor=logits_processor,
        )

    def generate(
@ -496,7 +520,8 @@ class Llama:
        mirostat_mode: int = 0,
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
-        logits_processors: List[Callable[[List[int], List[float]], List[float]]] = None
+        logits_processor: Optional[LogitsProcessorList] = None,
+        stopping_criteria: Optional[StoppingCriteriaList] = None,
    ) -> Generator[int, Optional[Sequence[int]], None]:
        """Create a generator of tokens from a prompt.

@ -554,8 +579,12 @@ class Llama:
                mirostat_mode=mirostat_mode,
                mirostat_tau=mirostat_tau,
                mirostat_eta=mirostat_eta,
-                logits_processors=logits_processors
+                logits_processor=logits_processor,
            )
+            if stopping_criteria is not None and stopping_criteria(
+                list(self.eval_tokens), self.eval_logits[-1]
+            ):
+                return
            tokens_or_none = yield token
            tokens = [token]
            if tokens_or_none is not None:
@ -651,14 +680,9 @@ class Llama:
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
        model: Optional[str] = None,
-        logits_processors: List[Callable[[List[int], List[float]], List[float]]] = None,
-        stopping_criterias: List[Callable[[List[int], List[float]], bool]] = None,
    ) -> Union[Iterator[Completion], Iterator[CompletionChunk]]:
        assert self.ctx is not None

-        if stopping_criterias is None:
-            stopping_criterias = []
-
        completion_id: str = f"cmpl-{str(uuid.uuid4())}"
        created: int = int(time.time())
        completion_tokens: List[int] = []
@ -720,7 +744,6 @@ class Llama:
            frequency_penalty=frequency_penalty,
            presence_penalty=presence_penalty,
            repeat_penalty=repeat_penalty,
-            logits_processors=logits_processors
        ):
            if token == self._token_eos:
                text = self.detokenize(completion_tokens)
@ -728,14 +751,6 @@ class Llama:
                break

            completion_tokens.append(token)
-            for stopping_crit in stopping_criterias:
-                if stopping_crit(completion_tokens, None):
-                    text = self.detokenize(completion_tokens)
-                    finish_reason = "stop"
-                    break
-
-            if finish_reason == "stop":
-                break

            all_text = self.detokenize(completion_tokens)

@ -1035,8 +1050,6 @@ class Llama:
        mirostat_tau: float = 5.0,
        mirostat_eta: float = 0.1,
        model: Optional[str] = None,
-        logits_processors: List[Callable[[List[int], List[float]], List[float]]] = None,
-        stopping_criterias: List[Callable[[List[int], List[float]], bool]] = None
    ) -> Union[Completion, Iterator[CompletionChunk]]:
        """Generate text from a prompt.

@ -1079,9 +1092,6 @@ class Llama:
            mirostat_tau=mirostat_tau,
            mirostat_eta=mirostat_eta,
            model=model,
-            logits_processors=logits_processors,
-            stopping_criterias=stopping_criterias
-
        )
        if stream:
            chunks: Iterator[CompletionChunk] = completion_or_chunks