书生大模型专属 HELM(Holistic Evaluation of Language Models)综合评测体系,是上海人工智能实验室打造的开源适配、多模态兼容、全场景覆盖的大模型全方位评估方案,依托HELM标准化框架,精准刻画书生全系列模型的能力边界与领先优势。
HELM(Holistic Evaluation of Language Models),斯坦福大学推出的全面、标准化、可复现大语言模型综合评估框架,以三维场景矩阵+多层指标体系,全方位刻画模型能力边界与落地风险。