HELM(Holistic Evaluation of Language Models),斯坦福大学推出的全面、标准化、可复现大语言模型综合评估框架,以三维场景矩阵+多层指标体系,全方位刻画模型能力边界与落地风险。