Mbpp/299

❌ 均未通过 Base: FAIL Plus: FAIL
测试评估
指标结果
Base 测试FAIL
Plus 测试FAIL
代码长度35 字符
模型生成的代码 (35 字符)
from collections import defaultdict
Base 失败测试用例
  • 无失败测试
Plus 失败测试用例
  • 无失败测试