拿捏AI

拿捏AI 拿捏AI 拿捏AI 拿捏AI
  • AI工具箱
  • AI排行榜
  • 办公提效
  • 图片处理
  • 设计助手
  • 视频制作
  • 音频制作
  • 编程工具
  • 求职助手
  • 模型接口
  • AI在线学
  • 模型开发
  • 发现有趣
拿捏AI 拿捏AI
  • 下载电脑版
  • 登录
拿捏AI 拿捏AI

    #AI模型评测

    Open LLM Leaderboard
    Open LLM Leaderboard

    Hugging Face推出的开源大模型排行榜单

    MMLU
    MMLU

    大规模多任务语言理解基准

    SuperCLUE
    SuperCLUE

    中文通用大模型综合性测评基准

    H2O EvalGPT
    H2O EvalGPT

    H2O.ai推出的基于Elo评级方法的大模型评估系统

    PubMedQA
    PubMedQA

    生物医学研究问答数据集和模型得分排行榜

    FlagEval
    FlagEval

    智源研究院推出的FlagEval(天秤)大模型评测平台

    LLMEval3
    LLMEval3

    由复旦大学NLP实验室推出的大模型评测基准

    C-Eval
    C-Eval

    一个全面的中文基础模型评估套件

    OpenCompass
    OpenCompass

    上海人工智能实验室推出的大模型开放评测体系

    CMMLU
    CMMLU

    一个综合性的大模型中文评估基准

    HELM
    HELM

    斯坦福大学推出的大模型评测体系

    MMBench
    MMBench

    全方位的多模态大模型能力评测体系

    Chatbot Arena
    Chatbot Arena

    以众包方式进行匿名随机对战的LLM基准平台

    拿捏AI 关于我们 免责声明 鄂ICP备2024042591号-6