HELM(Holistic Evaluation of Language Models),斯坦福大学推出的全面、标准化、可复现大语言模型综合评估框架,以三维场景矩阵+多层指标体系,全方位刻画模型能力边界与落地风险。
全球权威双盲众测大模型对战平台,以人类真实偏好给出中立 Elo 排名。
大规模、防作弊、动态采样的大语言模型长期稳健公平评测基准
生物医学文献推理问答基准数据集,基于 PubMed 摘要做yes/no/maybe三分类,用于评测医学大模型。
一、产品介绍 AI Ping是清华...
阿里巴巴自研的全能型 AI 助手,基于 Qwen 大模型打造,主打会聊天、能办事,深度整合阿里生态,一站式覆盖办公、学习、生活全场景。