diff --git a/llama_cpp/llama_cpp.py b/llama_cpp/llama_cpp.py
index 9979a67..13daadb 100644
--- a/llama_cpp/llama_cpp.py
+++ b/llama_cpp/llama_cpp.py
@@ -230,6 +230,15 @@ LLAMA_ROPE_SCALING_LINEAR = 1
 LLAMA_ROPE_SCALING_YARN = 2
 LLAMA_ROPE_SCALING_MAX_VALUE = LLAMA_ROPE_SCALING_YARN
 
+# enum llama_pooling_type {
+#     LLAMA_POOLING_NONE = 0,
+#     LLAMA_POOLING_MEAN = 1,
+#     LLAMA_POOLING_CLS  = 2,
+# };
+LLAMA_POOLING_NONE = 0
+LLAMA_POOLING_MEAN = 1
+LLAMA_POOLING_CLS = 2
+
 # enum llama_split_mode {
 #     LLAMA_SPLIT_NONE    = 0, // single GPU
 #     LLAMA_SPLIT_LAYER   = 1, // split layers and KV across GPUs
diff --git a/vendor/llama.cpp b/vendor/llama.cpp
index 8084d55..4524290 160000
--- a/vendor/llama.cpp
+++ b/vendor/llama.cpp
@@ -1 +1 @@
-Subproject commit 8084d554406b767d36b3250b3b787462d5dd626f
+Subproject commit 4524290e87b8e107cc2b56e1251751546f4b9051