[FIX]fix rejection sampling when topp=0 using _SAMPLING_EPS (PaddlePaddle#2967)

Sunny-bot1 · web-flow · commit 7c5e34e72d65 · 2025-07-22T05:53:37.000-07:00
* fix rejection sampling when topp=0

* fix
diff --git a/custom_ops/gpu_ops/sample_kernels/sampling.cuh b/custom_ops/gpu_ops/sample_kernels/sampling.cuh
@@ -292,7 +292,7 @@ __global__ void TopKTopPSamplingFromProbKernel(DType* probs, IdType* output,
   curand_init(philox_seed, bx, philox_offset, &state);
   const uint32_t row_idx = bx;
   const uint32_t k = top_k_arr[row_idx] == 0 ? d : top_k_arr[row_idx];
-  const float p = top_p_arr[row_idx] == 0 ? 1e-6 : top_p_arr[row_idx];
+  const float p = top_p_arr[row_idx];
 
   extern __shared__ __align__(
       alignof(SamplingTempStorage<BLOCK_THREADS, SCAN_ALGORITHM, REDUCE_ALGORITHM>))
diff --git a/fastdeploy/input/ernie_processor.py b/fastdeploy/input/ernie_processor.py
@@ -123,6 +123,8 @@ def process_request(self, request, max_model_len=None, **kwargs):
         if request.get("temperature") < _SAMPLING_EPS:
             # zero temperature is equivalent to greedy sampling
             request.set("temperature", 1)
+        if request.get("top_p") < _SAMPLING_EPS:
+            request.set("top_p", _SAMPLING_EPS)
         data_processor_logger.info(f"Processed request {request}")
         return request
 
@@ -174,6 +176,8 @@ def process_request_dict(self, request, max_model_len=None):
         if request.get("temperature") < _SAMPLING_EPS:
             # zero temperature is equivalent to greedy sampling
             request["temperature"] = 1
+        if request.get("top_p") < _SAMPLING_EPS:
+            request["top_p"] = _SAMPLING_EPS
         data_processor_logger.info(f"Processed request {request}")
 
         return request
diff --git a/fastdeploy/input/text_processor.py b/fastdeploy/input/text_processor.py
@@ -252,6 +252,8 @@ def process_request(self, request, max_model_len=None, **kwargs):
         if request.get("temperature") < _SAMPLING_EPS:
             # zero temperature is equivalent to greedy sampling
             request.set("temperature", 1)
+        if request.get("top_p") < _SAMPLING_EPS:
+            request.set("top_p", _SAMPLING_EPS)
         data_processor_logger.info(f"Processed request {request}")
         return request
 
@@ -297,6 +299,8 @@ def process_request_dict(self, request, max_model_len=None, **kwargs):
         if request.get("temperature") < _SAMPLING_EPS:
             # zero temperature is equivalent to greedy sampling
             request["temperature"] = 1
+        if request.get("top_p") < _SAMPLING_EPS:
+            request["top_p"] = _SAMPLING_EPS
         data_processor_logger.info(f"Processed request {request}")
         return request