AI模型评测 | 链路百科

AI模型评测

HELM（Holistic Evaluation of Language Models）

HELM（Holistic Evaluation of Language Models）

HELM（Holistic Evaluation of Language Models），斯坦福大学推出的全面、标准化、可复现大语言模型综合评估框架，以三维场景矩阵+多层指标体系，全方位刻画模型能力边界与落地风险。

AHELMAI伦理评估crfm-helmHELM

Chatbot Arena（LMSYS Arena）

Chatbot Arena（LMSYS Arena）

全球权威双盲众测大模型对战平台，以人类真实偏好给出中立 Elo 排名。

Chatbot ArenaLMSYS大模型评测，双盲测试，Elo 排名，模型对战，人类偏好，中立评测，LLM 基准，全球榜单

LLMEval3-前沿AI

LLMEval3-前沿AI

大规模、防作弊、动态采样的大语言模型长期稳健公平评测基准

LLMEval3大模型评测，LLM 评估，防作弊评测，动态采样，模型基准，NLP学术评测，AI 选型，长期评估

生物医学文献推理问答基准数据集，基于 PubMed 摘要做yes/no/maybe三分类，用于评测医学大模型。

医学 QA大模型评测，医疗 AI文献问答，阅读理解，基准数据集，医学推理，yes/no/maybe生物医学 NLP

AI Ping-信息聚合平台

一、产品介绍 AI Ping是清华...

AI Ping大模型评测，API 聚合，智能路由，模型调用，AI 开发，统一 API性能榜单

千问（Qwen）

千问（Qwen）

阿里巴巴自研的全能型 AI 助手，基于 Qwen 大模型打造，主打会聊天、能办事，深度整合阿里生态，一站式覆盖办公、学习、生活全场景。

Agent 智能体千问，Qwen通义千问，AI 助手，生态办事，多模态，长文本处理，学习辅导，办公效率，免费 AI阿里 AI