diff --git a/README.md b/README.md index 782e69d..6c921d3 100644 --- a/README.md +++ b/README.md @@ -112,6 +112,7 @@ OLLAMA_BASE_URL=http://localhost:11434 Обработка задачи 99 (164/164) Модель 1/1: google_gemini-2_5-flash-preview (google/gemini-2.5-flash-preview) Обработка задач завершена +... ``` Для проверки формата результата (не попадает ли в код посторонние теги) можно решить только одну задачу: diff --git a/config/models.yml b/config/models.yml index 6070db1..dff246a 100644 --- a/config/models.yml +++ b/config/models.yml @@ -146,6 +146,12 @@ openrouter: note: https://openrouter.ai/moonshotai/kimi-k2 done: false + z-ai_glm_4: + name: z-ai/glm-4.5 + provider: openrouter.ai + note: https://openrouter.ai/z-ai/glm-4.5 + done: false + # Ollama модели ollama: ollama_llama3_2: diff --git a/lib/human_eval/solver.rb b/lib/human_eval/solver.rb index e3be376..3cd5f98 100644 --- a/lib/human_eval/solver.rb +++ b/lib/human_eval/solver.rb @@ -183,6 +183,7 @@ def prepare_prompt(content) # Логируем полный промпт debug 'Полный промпт для отправки:' + debug "Длина промпта: #{prompt.length} символов" debug '---BEGIN FULL PROMPT---' debug prompt debug '---END FULL PROMPT---' @@ -212,6 +213,7 @@ def call_model_api(prompt, model_key, provider) def process_model_response(raw_solution, model_name, output_file) # Логируем полученный ответ debug "Получено решение от модели #{model_name}" + debug "Длина ответа: #{raw_solution.length}" debug '---BEGIN MODEL RESPONSE---' debug raw_solution debug '---END MODEL RESPONSE---' @@ -219,6 +221,9 @@ def process_model_response(raw_solution, model_name, output_file) # Извлекаем код из ответа solution = extract_and_join_code_blocks(raw_solution) + debug "Длина извлеченного решения: #{solution.length}" + debug "Решение пустое после strip: #{solution.strip.empty?}" + # Проверяем, что решение не пустое if solution.strip.empty? error "❌ Модель #{model_name} вернула пустое решение!" @@ -279,7 +284,7 @@ def prepare_openrouter_request(uri, model_name, prompt) messages: [{ role: 'user', content: prompt }], temperature: 0.1, # max_tokens: 31_000, # 1000 - для всех, 31000 - для o3-mini-high - max_tokens: 1_000, # 1000 - для всех, 31000 - для o3-mini-high + max_tokens: 16_000, # Увеличиваем лимит для предотвращения обрезания stream: false }.to_json @@ -302,6 +307,16 @@ def process_openrouter_response(response, model_name) # Парсим JSON parsed_response = JSON.parse(response.body) + # Добавляем отладку + debug "Полный ответ API: #{parsed_response.inspect}" + + # Проверяем finish_reason + finish_reason = parsed_response.dig('choices', 0, 'finish_reason') + if finish_reason == 'length' + error "⚠️ Ответ модели #{model_name} был обрезан из-за лимита токенов (finish_reason: length)" + error 'Увеличьте max_tokens или сократите промпт' + end + # Извлекаем содержимое content = parsed_response.dig('choices', 0, 'message', 'content') @@ -312,6 +327,11 @@ def process_openrouter_response(response, model_name) raise 'Пустой ответ от API' end + debug "Извлеченное содержимое (длина: #{content.length}):" + debug '---BEGIN CONTENT---' + debug content + debug '---END CONTENT---' + # Кодируем в UTF-8 content.encode('UTF-8', invalid: :replace, undef: :replace, replace: '?') rescue JSON::ParserError => e diff --git a/reports/human_eval_for_ruby_report_full.html b/reports/human_eval_for_ruby_report_full.html index f98f506..eed63f3 100644 --- a/reports/human_eval_for_ruby_report_full.html +++ b/reports/human_eval_for_ruby_report_full.html @@ -64,7 +64,7 @@
Дата: 2025-07-13 13:03:04
+Дата: 2025-08-03 17:30:21
| google_gemma_3_27b_it | 77% | ||||
| deepseek_deepseek_chat | 77% | ||||
| qwen_qwen_2_5_coder_32b_instruct | 75% | ||||
| mistralai_codestral_2501 | 75% | ||||
| google_gemini_flash_1_5 | 75% | ||||
| inception_mercury_coder_small_beta | 74% | ||||
| mistralai_codestral_2501 | 75% | ||||
| qwen_qwen3_235b_a22b | 74% | ||||
| z_ai_glm_4 | 74% | ||||
| inception_mercury_coder_small_beta | 74% | ||||
| google_gemma_3_12b_it | 71% | ||||
| meta_llama_llama_3_1_70b_instruct | 69% | ||||
| mistralai_mistral_small_3_1_24b_instruct | 67% | openai_o3_mini_high | qwen_qwen2_5_vl_3b_instruct_free | qwen_qwen_2_5_coder_32b_instruct | +z_ai_glm_4 |
|---|---|---|---|---|---|
| t0 | ✓ | @@ -148,6 +150,7 @@✓ | ✓ | ✓ | +✓ |
| t1 | ✗ | @@ -177,6 +180,7 @@✗ | ✗ | ✗ | +✗ |
| t10 | ✓ | @@ -205,6 +209,7 @@✗ | ✗ | ✗ | +✓ |
| t100 | ✗ | @@ -233,6 +238,7 @@✗ | ✗ | ✗ | +✓ |
| t101 | ✓ | @@ -262,6 +268,7 @@✓ | ✓ | ✗ | +✓ |
| t102 | ✗ | @@ -290,6 +297,7 @@✗ | ✓ | ✗ | +✓ |
| t103 | ✗ | @@ -317,6 +325,7 @@✗ | ✗ | ✗ | +✗ |
| t104 | ✓ | @@ -345,6 +354,7 @@✗ | ✓ | ✗ | +✗ |
| t105 | ✓ | @@ -373,6 +383,7 @@✗ | ✓ | ✗ | +✓ |
| t106 | ✓ | @@ -401,6 +412,7 @@✗ | ✓ | ✗ | +✓ |
| t107 | ✓ | @@ -429,6 +441,7 @@✓ | ✓ | ✗ | +✗ |
| t108 | ✗ | @@ -457,6 +470,7 @@✗ | ✗ | ✗ | +✓ |
| t109 | ✓ | @@ -486,6 +500,7 @@✓ | ✓ | ✗ | +✓ |
| t11 | ✓ | @@ -514,6 +529,7 @@✗ | ✓ | ✗ | +✗ |
| t110 | ✓ | @@ -542,6 +558,7 @@✓ | ✗ | ✗ | +✓ |
| t111 | ✗ | @@ -571,6 +588,7 @@✓ | ✗ | ✗ | +✓ |
| t112 | ✗ | @@ -600,6 +618,7 @@✓ | ✓ | ✗ | +✓ |
| t113 | ✓ | @@ -629,6 +648,7 @@✓ | ✓ | ✗ | +✗ |
| t114 | ✓ | @@ -657,6 +677,7 @@✗ | ✓ | ✗ | +✓ |
| t115 | ✗ | @@ -686,6 +707,7 @@✓ | ✓ | ✗ | +✗ |
| t116 | ✗ | @@ -713,6 +735,7 @@✓ | ✗ | ✓ | +✓ |
| t117 | ✓ | @@ -740,6 +763,7 @@✓ | ✗ | ✗ | +✓ |
| t118 | ✗ | @@ -768,6 +792,7 @@✗ | ✗ | ✓ | +✓ |
| t119 | ✗ | @@ -796,6 +821,7 @@✓ | ✗ | ✗ | +✗ |
| t12 | ✓ | @@ -824,6 +850,7 @@✓ | ✓ | ✓ | +✓ |
| t120 | ✗ | @@ -852,6 +879,7 @@✗ | ✓ | ✓ | +✗ |
| t121 | ✓ | @@ -880,6 +908,7 @@✗ | ✓ | ✓ | +✓ |
| t122 | ✗ | @@ -907,6 +936,7 @@✓ | ✓ | ✓ | +✓ |
| t123 | ✓ | @@ -934,6 +964,7 @@✗ | ✓ | ✓ | +✗ |
| t124 | ✓ | @@ -961,6 +992,7 @@✓ | ✗ | ✓ | +✓ |
| t125 | ✓ | @@ -989,6 +1021,7 @@✗ | ✗ | ✓ | +✗ |
| t126 | ✓ | @@ -1016,6 +1049,7 @@✗ | ✓ | ✓ | +✗ |
| t127 | ✓ | @@ -1043,6 +1077,7 @@✗ | ✓ | ✓ | +✓ |
| t128 | ✗ | @@ -1070,6 +1105,7 @@✗ | ✗ | ✗ | +✗ |
| t129 | ✗ | @@ -1097,6 +1133,7 @@✓ | ✗ | ✗ | +✓ |
| t13 | ✓ | @@ -1124,6 +1161,7 @@✓ | ✗ | ✓ | +✗ |
| t130 | ✗ | @@ -1151,6 +1189,7 @@✓ | ✗ | ✗ | +✓ |
| t131 | ✓ | @@ -1179,6 +1218,7 @@✗ | ✓ | ✓ | +✓ |
| t132 | ✓ | @@ -1206,6 +1246,7 @@✗ | ✗ | ✓ | +✗ |
| t133 | ✓ | @@ -1234,6 +1275,7 @@✓ | ✓ | ✓ | +✓ |
| t134 | ✓ | @@ -1261,6 +1303,7 @@✗ | ✗ | ✗ | +✗ |
| t135 | ✗ | @@ -1288,6 +1331,7 @@✓ | ✓ | ✗ | +✓ |
| t136 | ✓ | @@ -1315,6 +1359,7 @@✓ | ✓ | ✓ | +✓ |
| t137 | ✗ | @@ -1342,6 +1387,7 @@✗ | ✗ | ✗ | +✗ |
| t138 | ✓ | @@ -1369,6 +1415,7 @@✗ | ✗ | ✓ | +✗ |
| t139 | ✓ | @@ -1396,6 +1443,7 @@✓ | ✓ | ✓ | +✓ |
| t14 | ✓ | @@ -1423,6 +1471,7 @@✓ | ✓ | ✓ | +✓ |
| t140 | ✓ | @@ -1450,6 +1499,7 @@✗ | ✗ | ✓ | +✗ |
| t141 | ✓ | @@ -1477,6 +1527,7 @@✓ | ✗ | ✓ | +✓ |
| t142 | ✓ | @@ -1504,6 +1555,7 @@✓ | ✓ | ✓ | +✓ |
| t143 | ✓ | @@ -1531,6 +1583,7 @@✓ | ✓ | ✓ | +✓ |
| t144 | ✓ | @@ -1558,6 +1611,7 @@✓ | ✓ | ✓ | +✓ |
| t145 | ✓ | @@ -1585,6 +1639,7 @@✓ | ✗ | ✗ | +✗ |
| t146 | ✓ | @@ -1612,6 +1667,7 @@✓ | ✗ | ✓ | +✓ |
| t147 | ✗ | @@ -1639,6 +1695,7 @@✓ | ✗ | ✗ | +✗ |
| t148 | ✓ | @@ -1666,6 +1723,7 @@✓ | ✗ | ✓ | +✓ |
| t149 | ✓ | @@ -1694,6 +1752,7 @@✓ | ✓ | ✓ | +✓ |
| t15 | ✓ | @@ -1721,6 +1780,7 @@✓ | ✓ | ✓ | +✓ |
| t150 | ✓ | @@ -1748,6 +1808,7 @@✓ | ✓ | ✓ | +✗ |
| t151 | ✓ | @@ -1775,6 +1836,7 @@✓ | ✓ | ✓ | +✓ |
| t152 | ✓ | @@ -1802,6 +1864,7 @@✓ | ✗ | ✓ | +✓ |
| t153 | ✓ | @@ -1829,6 +1892,7 @@✓ | ✗ | ✗ | +✓ |
| t154 | ✗ | @@ -1856,6 +1920,7 @@✓ | ✗ | ✗ | +✓ |
| t155 | ✓ | @@ -1883,6 +1948,7 @@✓ | ✗ | ✓ | +✓ |
| t156 | ✓ | @@ -1910,6 +1976,7 @@✓ | ✓ | ✓ | +✓ |
| t157 | ✓ | @@ -1937,6 +2004,7 @@✓ | ✓ | ✓ | +✓ |
| t158 | ✗ | @@ -1964,6 +2032,7 @@✓ | ✗ | ✓ | +✗ |
| t159 | ✗ | @@ -1991,6 +2060,7 @@✗ | ✗ | ✓ | +✗ |
| t16 | ✓ | @@ -2018,6 +2088,7 @@✓ | ✓ | ✓ | +✗ |
| t160 | ✓ | @@ -2045,6 +2116,7 @@✗ | ✓ | ✓ | +✗ |
| t161 | ✓ | @@ -2073,6 +2145,7 @@✗ | ✓ | ✓ | +✗ |
| t162 | ✓ | @@ -2100,6 +2173,7 @@✓ | ✓ | ✓ | +✓ |
| t163 | ✓ | @@ -2128,6 +2202,7 @@✗ | ✓ | ✓ | +✗ |
| t17 | ✓ | @@ -2155,6 +2230,7 @@✓ | ✓ | ✓ | +✓ |
| t18 | ✓ | @@ -2182,6 +2258,7 @@✓ | ✓ | ✓ | +✓ |
| t19 | ✓ | @@ -2210,6 +2287,7 @@✓ | ✓ | ✓ | +✓ |
| t2 | ✓ | @@ -2237,6 +2315,7 @@✓ | ✓ | ✓ | +✓ |
| t20 | ✓ | @@ -2264,6 +2343,7 @@✓ | ✗ | ✓ | +✓ |
| t21 | ✗ | @@ -2292,6 +2372,7 @@✗ | ✗ | ✗ | +✗ |
| t22 | ✓ | @@ -2319,6 +2400,7 @@✓ | ✓ | ✓ | +✓ |
| t23 | ✓ | @@ -2346,6 +2428,7 @@✓ | ✓ | ✓ | +✓ |
| t24 | ✓ | @@ -2373,6 +2456,7 @@✓ | ✓ | ✓ | +✓ |
| t25 | ✓ | @@ -2401,6 +2485,7 @@✗ | ✓ | ✓ | +✗ |
| t26 | ✓ | @@ -2428,6 +2513,7 @@✓ | ✗ | ✓ | +✓ |
| t27 | ✓ | @@ -2455,6 +2541,7 @@✓ | ✗ | ✗ | +✓ |
| t28 | ✓ | @@ -2482,6 +2569,7 @@✓ | ✓ | ✓ | +✓ |
| t29 | ✓ | @@ -2509,6 +2597,7 @@✓ | ✓ | ✓ | +✓ |
| t3 | ✓ | @@ -2536,6 +2625,7 @@✓ | ✓ | ✓ | +✓ |
| t30 | ✓ | @@ -2563,6 +2653,7 @@✓ | ✓ | ✓ | +✓ |
| t31 | ✓ | @@ -2590,6 +2681,7 @@✓ | ✓ | ✓ | +✓ |
| t32 | ✗ | @@ -2617,6 +2709,7 @@✓ | ✗ | ✗ | +✓ |
| t33 | ✓ | @@ -2644,6 +2737,7 @@✓ | ✗ | ✗ | +✓ |
| t34 | ✓ | @@ -2671,6 +2765,7 @@✓ | ✓ | ✓ | +✗ |
| t35 | ✓ | @@ -2698,6 +2793,7 @@✓ | ✓ | ✓ | +✓ |
| t36 | ✓ | @@ -2726,6 +2822,7 @@✗ | ✓ | ✗ | +✓ |
| t37 | ✓ | @@ -2753,6 +2850,7 @@✓ | ✗ | ✓ | +✓ |
| t38 | ✓ | @@ -2780,6 +2878,7 @@✗ | ✗ | ✓ | +✗ |
| t39 | ✓ | @@ -2808,6 +2907,7 @@✗ | ✗ | ✓ | +✓ |
| t4 | ✓ | @@ -2835,6 +2935,7 @@✓ | ✓ | ✓ | +✓ |
| t40 | ✗ | @@ -2862,6 +2963,7 @@✓ | ✗ | ✓ | +✓ |
| t41 | ✓ | @@ -2889,6 +2991,7 @@✓ | ✓ | ✓ | +✓ |
| t42 | ✓ | @@ -2916,6 +3019,7 @@✓ | ✓ | ✓ | +✓ |
| t43 | ✓ | @@ -2943,6 +3047,7 @@✓ | ✗ | ✗ | +✓ |
| t44 | ✗ | @@ -2971,6 +3076,7 @@✗ | ✓ | ✓ | +✓ |
| t45 | ✗ | @@ -2999,6 +3105,7 @@✗ | ✗ | ✗ | +✗ |
| t46 | ✓ | @@ -3027,6 +3134,7 @@✓ | ✓ | ✓ | +✓ |
| t47 | ✗ | @@ -3054,6 +3162,7 @@✗ | ✓ | ✓ | +✓ |
| t48 | ✓ | @@ -3081,6 +3190,7 @@✓ | ✓ | ✓ | +✓ |
| t49 | ✓ | @@ -3109,6 +3219,7 @@✓ | ✗ | ✓ | +✗ |
| t5 | ✓ | @@ -3136,6 +3247,7 @@✓ | ✓ | ✓ | +✓ |
| t50 | ✓ | @@ -3163,6 +3275,7 @@✓ | ✗ | ✓ | +✓ |
| t51 | ✓ | @@ -3190,6 +3303,7 @@✓ | ✓ | ✓ | +✓ |
| t52 | ✓ | @@ -3217,6 +3331,7 @@✓ | ✓ | ✓ | +✓ |
| t53 | ✓ | @@ -3244,6 +3359,7 @@✓ | ✓ | ✓ | +✓ |
| t54 | ✓ | @@ -3271,6 +3387,7 @@✓ | ✓ | ✓ | +✓ |
| t55 | ✓ | @@ -3298,6 +3415,7 @@✓ | ✗ | ✗ | +✓ |
| t56 | ✓ | @@ -3325,6 +3443,7 @@✓ | ✓ | ✓ | +✗ |
| t57 | ✓ | @@ -3352,6 +3471,7 @@✓ | ✗ | ✓ | +✓ |
| t58 | ✓ | @@ -3379,6 +3499,7 @@✓ | ✗ | ✓ | +✓ |
| t59 | ✗ | @@ -3406,6 +3527,7 @@✓ | ✗ | ✓ | +✓ |
| t6 | ✓ | @@ -3433,6 +3555,7 @@✓ | ✗ | ✓ | +✓ |
| t60 | ✓ | @@ -3460,6 +3583,7 @@✓ | ✓ | ✓ | +✓ |
| t61 | ✓ | @@ -3487,6 +3611,7 @@✓ | ✓ | ✓ | +✗ |
| t62 | ✓ | @@ -3514,6 +3639,7 @@✗ | ✗ | ✗ | +✗ |
| t63 | ✓ | @@ -3541,6 +3667,7 @@✓ | ✓ | ✓ | +✓ |
| t64 | ✓ | @@ -3568,6 +3695,7 @@✓ | ✗ | ✗ | +✓ |
| t65 | ✓ | @@ -3595,6 +3723,7 @@✗ | ✗ | ✗ | +✗ |
| t66 | ✓ | @@ -3622,6 +3751,7 @@✓ | ✓ | ✓ | +✓ |
| t67 | ✓ | @@ -3649,6 +3779,7 @@✓ | ✗ | ✗ | +✓ |
| t68 | ✓ | @@ -3676,6 +3807,7 @@✓ | ✗ | ✓ | +✓ |
| t69 | ✓ | @@ -3703,6 +3835,7 @@✓ | ✗ | ✓ | +✓ |
| t7 | ✓ | @@ -3730,6 +3863,7 @@✓ | ✓ | ✓ | +✓ |
| t70 | ✗ | @@ -3757,6 +3891,7 @@✓ | ✗ | ✓ | +✓ |
| t71 | ✓ | @@ -3784,6 +3919,7 @@✓ | ✗ | ✓ | +✓ |
| t72 | ✓ | @@ -3811,6 +3947,7 @@✓ | ✗ | ✓ | +✓ |
| t73 | ✓ | @@ -3838,6 +3975,7 @@✓ | ✓ | ✓ | +✓ |
| t74 | ✓ | @@ -3865,6 +4003,7 @@✓ | ✓ | ✓ | +✓ |
| t75 | ✓ | @@ -3893,6 +4032,7 @@✗ | ✓ | ✓ | +✓ |
| t76 | ✗ | @@ -3920,6 +4060,7 @@✓ | ✗ | ✗ | +✗ |
| t77 | ✗ | @@ -3948,6 +4089,7 @@✗ | ✓ | ✓ | +✓ |
| t78 | ✓ | @@ -3975,6 +4117,7 @@✓ | ✗ | ✗ | +✓ |
| t79 | ✓ | @@ -4002,6 +4145,7 @@✓ | ✓ | ✓ | +✓ |
| t8 | ✓ | @@ -4029,6 +4173,7 @@✓ | ✓ | ✓ | +✓ |
| t80 | ✗ | @@ -4056,6 +4201,7 @@✓ | ✗ | ✗ | +✓ |
| t81 | ✗ | @@ -4083,6 +4229,7 @@✗ | ✗ | ✗ | +✗ |
| t82 | ✓ | @@ -4111,6 +4258,7 @@✓ | ✓ | ✓ | +✗ |
| t83 | ✗ | @@ -4138,6 +4286,7 @@✓ | ✗ | ✓ | +✓ |
| t84 | ✓ | @@ -4165,6 +4314,7 @@✓ | ✗ | ✓ | +✓ |
| t85 | ✓ | @@ -4192,6 +4342,7 @@✓ | ✗ | ✓ | +✓ |
| t86 | ✓ | @@ -4220,6 +4371,7 @@✗ | ✗ | ✗ | +✗ |
| t87 | ✓ | @@ -4247,6 +4399,7 @@✓ | ✗ | ✓ | +✓ |
| t88 | ✓ | @@ -4274,6 +4427,7 @@✓ | ✗ | ✓ | +✓ |
| t89 | ✗ | @@ -4301,6 +4455,7 @@✓ | ✗ | ✗ | +✓ |
| t9 | ✓ | @@ -4328,6 +4483,7 @@✓ | ✗ | ✓ | +✓ |
| t90 | ✓ | @@ -4356,6 +4512,7 @@✗ | ✓ | ✓ | +✓ |
| t91 | ✗ | @@ -4383,6 +4540,7 @@✓ | ✗ | ✗ | +✓ |
| t92 | ✓ | @@ -4410,6 +4568,7 @@✓ | ✓ | ✓ | +✓ |
| t93 | ✗ | @@ -4437,6 +4596,7 @@✓ | ✗ | ✗ | +✓ |
| t94 | ✓ | @@ -4464,6 +4624,7 @@✓ | ✓ | ✓ | +✓ |
| t95 | ✓ | @@ -4491,6 +4652,7 @@✓ | ✗ | ✗ | +✓ |
| t96 | ✓ | @@ -4518,6 +4680,7 @@✓ | ✗ | ✓ | +✓ |
| t97 | ✓ | @@ -4545,6 +4708,7 @@✓ | ✗ | ✗ | +✓ |
| t98 | ✓ | @@ -4572,6 +4736,7 @@✗ | ✓ | ✓ | +✓ |
| t99 | ✓ | @@ -4599,5 +4764,6 @@✓ | ✓ | ✓ | +✓ |