diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py index 7be51e1..bbce4b2 100644 --- a/llama_cpp/llama.py +++ b/llama_cpp/llama.py @@ -709,6 +709,9 @@ class Llama: print("Llama._create_completion: cache save", file=sys.stderr) self.cache[prompt_tokens + completion_tokens] = self.save_state() + if self.verbose: + llama_cpp.llama_print_timings(self.ctx) + if stream: yield { "id": completion_id, @@ -780,9 +783,6 @@ class Llama: "top_logprobs": top_logprobs, } - if self.verbose: - llama_cpp.llama_print_timings(self.ctx) - yield { "id": completion_id, "object": "text_completion",