THUDM · cklxx · Dec 26, 2025 · Dec 26, 2025
diff --git a/slime/rollout/rm_hub/deepscaler.py b/slime/rollout/rm_hub/deepscaler.py
@@ -1,12 +1,17 @@
 from .math_utils import extract_answer, grade_answer_mathd, grade_answer_sympy
 
 
-def get_deepscaler_rule_based_reward(response, label):
+def _extract_solution_text(response: str) -> str | None:
     if "</think>" in response:
-        model_solution = response.split("</think>")[-1]
-    elif "###Response" in response:
-        model_solution = response.split("###Response")[1]
-    else:
+        return response.split("</think>")[-1]
+    if "###Response" in response:
+        return response.split("###Response")[1]
+    return response
+
+
+def get_deepscaler_rule_based_reward(response, label):
+    model_solution = _extract_solution_text(response)
+    if not model_solution:
         return 0
 
     model_answer = extract_answer(model_solution)

diff --git a/tests/test_math_reward_utils.py b/tests/test_math_reward_utils.py
@@ -0,0 +1,6 @@
+from slime.rollout.rm_hub.deepscaler import get_deepscaler_rule_based_reward
+
+
+def test_deepscaler_reward_fallback_without_markers():
+    response = "Answer: \\boxed{42}"
+    assert get_deepscaler_rule_based_reward(response, "42") == 1