← 返回总览
Mbpp/454
❌ 均未通过
Base:
FAIL
Plus:
FAIL
测试评估
指标
结果
Base 测试
FAIL
Plus 测试
FAIL
代码长度
9 字符
模型生成的代码 (9 字符)
import re
Base 失败测试用例
无失败测试
Plus 失败测试用例
无失败测试