misc: Format

2024-02-28 14:27:40 -05:00 · 2024-02-28 14:27:40 -05:00 · 727d60c28a
commit 727d60c28a
parent 0d37ce52b1
5 changed files with 44 additions and 39 deletions
--- a/llama_cpp/server/app.py
+++ b/llama_cpp/server/app.py
@ -200,7 +200,7 @@ async def authenticate(
    "/v1/completions",
    summary="Completion",
    dependencies=[Depends(authenticate)],
-    response_model= Union[
+    response_model=Union[
        llama_cpp.CreateCompletionResponse,
        str,
    ],
@ -216,15 +216,15 @@ async def authenticate(
                        "title": "Completion response, when stream=False",
                    }
                },
-                "text/event-stream":{
+                "text/event-stream": {
                    "schema": {
                        "type": "string",
-                      "title": "Server Side Streaming response, when stream=True. " +
-                        "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
-                      "example": """data: {... see CreateCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]"""
-                    }
+                        "title": "Server Side Streaming response, when stream=True. "
+                        + "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
+                        "example": """data: {... see CreateCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]""",
                    }
                },
+            },
        }
    },
 )
@ -290,7 +290,7 @@ async def create_completion(
                inner_send_chan=send_chan,
                iterator=iterator(),
            ),
-            sep='\n',
+            sep="\n",
        )
    else:
        return iterator_or_completion
@ -310,10 +310,10 @@ async def create_embedding(


@router.post(
-    "/v1/chat/completions", summary="Chat", dependencies=[Depends(authenticate)],
-    response_model= Union[
-        llama_cpp.ChatCompletion, str
-    ],
+    "/v1/chat/completions",
+    summary="Chat",
+    dependencies=[Depends(authenticate)],
+    response_model=Union[llama_cpp.ChatCompletion, str],
    responses={
        "200": {
            "description": "Successful Response",
@ -321,20 +321,22 @@ async def create_embedding(
                "application/json": {
                    "schema": {
                        "anyOf": [
-                            {"$ref": "#/components/schemas/CreateChatCompletionResponse"}                            
+                            {
+                                "$ref": "#/components/schemas/CreateChatCompletionResponse"
+                            }
                        ],
                        "title": "Completion response, when stream=False",
                    }
                },
-                "text/event-stream":{
+                "text/event-stream": {
                    "schema": {
                        "type": "string",
-                      "title": "Server Side Streaming response, when stream=True" +
-                        "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
-                      "example": """data: {... see CreateChatCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]"""
-                    }
+                        "title": "Server Side Streaming response, when stream=True"
+                        + "See SSE format: https://developer.mozilla.org/en-US/docs/Web/API/Server-sent_events/Using_server-sent_events#Event_stream_format",  # noqa: E501
+                        "example": """data: {... see CreateChatCompletionResponse ...} \\n\\n data: ... \\n\\n ... data: [DONE]""",
                    }
                },
+            },
        }
    },
 )
@ -383,7 +385,7 @@ async def create_chat_completion(
                inner_send_chan=send_chan,
                iterator=iterator(),
            ),
-            sep='\n',
+            sep="\n",
        )
    else:
        return iterator_or_completion
--- a/llama_cpp/server/errors.py
+++ b/llama_cpp/server/errors.py
@ -22,6 +22,7 @@ from llama_cpp.server.types import (
    CreateChatCompletionRequest,
 )

+
 class ErrorResponse(TypedDict):
    """OpenAI style error response"""

@ -207,4 +208,3 @@ class RouteErrorHandler(APIRoute):
                )

        return custom_route_handler
-
--- a/llama_cpp/server/model.py
+++ b/llama_cpp/server/model.py
@ -88,15 +88,15 @@ class LlamaProxy:
            assert (
                settings.hf_tokenizer_config_path is not None
            ), "hf_tokenizer_config_path must be set for hf-tokenizer-config"
-            chat_handler = (
-                llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(
+            chat_handler = llama_cpp.llama_chat_format.hf_tokenizer_config_to_chat_completion_handler(
                json.load(open(settings.hf_tokenizer_config_path))
            )
-            )

        tokenizer: Optional[llama_cpp.BaseLlamaTokenizer] = None
        if settings.hf_pretrained_model_name_or_path is not None:
-            tokenizer = llama_tokenizer.LlamaHFTokenizer.from_pretrained(settings.hf_pretrained_model_name_or_path)
+            tokenizer = llama_tokenizer.LlamaHFTokenizer.from_pretrained(
+                settings.hf_pretrained_model_name_or_path
+            )

        draft_model = None
        if settings.draft_model is not None:
@ -126,12 +126,15 @@ class LlamaProxy:
        kwargs = {}

        if settings.hf_model_repo_id is not None:
-            create_fn = functools.partial(llama_cpp.Llama.from_pretrained, repo_id=settings.hf_model_repo_id, filename=settings.model)
+            create_fn = functools.partial(
+                llama_cpp.Llama.from_pretrained,
+                repo_id=settings.hf_model_repo_id,
+                filename=settings.model,
+            )
        else:
            create_fn = llama_cpp.Llama
            kwargs["model_path"] = settings.model

-
        _model = create_fn(
            **kwargs,
            # Model Params
--- a/llama_cpp/server/settings.py
+++ b/llama_cpp/server/settings.py
@ -74,7 +74,9 @@ class ModelSettings(BaseSettings):
        ge=0,
        description="The number of threads to use when batch processing.",
    )
-    rope_scaling_type: int = Field(default=llama_cpp.LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED)
+    rope_scaling_type: int = Field(
+        default=llama_cpp.LLAMA_ROPE_SCALING_TYPE_UNSPECIFIED
+    )
    rope_freq_base: float = Field(default=0.0, description="RoPE base frequency")
    rope_freq_scale: float = Field(
        default=0.0, description="RoPE frequency scaling factor"
@ -193,6 +195,4 @@ class Settings(ServerSettings, ModelSettings):
 class ConfigFileSettings(ServerSettings):
    """Configuration file format settings."""

-    models: List[ModelSettings] = Field(
-        default=[], description="Model configs"
-    )
+    models: List[ModelSettings] = Field(default=[], description="Model configs")