山鲸AI丶一站式知识库
返回首页AI创作鲸选商店
  • 开始使用
    • 介绍
    • 快速开始
  • 🎨AI绘画
    • 使用教程(电脑版)
    • 使用教程(手机版)
    • Midjourney V6版本详解
    • Midjourney 常见敏感/违禁词
    • Midjourney 提示词汇总
    • 常用参数
    • 咒语结构
  • 定价标准
    • 会员套餐
    • 积分套餐
    • 积分消耗明细
  • 常见问题
    • AI绘画错误问题汇总
    • 关于套餐订阅
    • 关于AI作品版权
    • 4K、HD等所谓的Rendering词有用吗?
    • 咒语的词语顺序会影响结果吗?
    • 为什么GPT不知道自己身份?
    • 这么多AI模型,我到底怎么选?
    • 山鲸AI朋友圈模板怎么使用?
  • 工具推荐
    • 图像分离/分割
    • 高清放大/增强
    • 抠图/去除背景
    • 垂直领域AI工具
    • 其他AI辅助工具
  • 知识库汇总
    • Midjourney 系列
    • ChatGPT 系列
    • Stable Diffusion 系列
    • Photoshop AI 系列
  • 关于我们
    • 联系方式
    • 更新日志
      • 2024.01.01 Version 2.1.0
      • 2023.12.21 Version 2.0.0
      • 2023.12.10 Version 1.9.3
      • 2023.11.29 Version 1.9.2
      • 2023.11.25 Version 1.9.1.3
      • 2023.11.27 Version 1.9.1.2
      • 2023.11.22 Version 1.9.1
      • 2023.11.18 Version 1.9.0
    • 山鲸AI官方社区
    • 山鲸AI创作平台
  • 协议政策
    • 用户协议
    • 隐私政策
由 GitBook 提供支持
在本页
  • C-Eval
  • SuperCLUE
  • 总排行榜(2023年11月)

这有帮助吗?

  1. 常见问题

这么多AI模型,我到底怎么选?

目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。

上一页为什么GPT不知道自己身份?下一页山鲸AI朋友圈模板怎么使用?

最后更新于1年前

这有帮助吗?

模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。

C-Eval

C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。

SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。

它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。

目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新

总排行榜(2023年11月)

排名
模型
机构
总分
OPEN 多轮开放问题
OPT 能力客观题

-

GPT4-Turbo

OpenAI

89.79

97.53

78.18

-

GPT-4

OpenAI

75.14

73.01

78.33

🏅️

文心一言4.0

百度

74.02

73.62

74.61

🥈

Moonshot

月之暗面

72.88

71.47

74.99

🥉

Yi-34B-Chat

零一万物

71.87

71.21

72.85

4

BlueLM

vivo

67.14

64.88

70.53

5

腾讯混元

腾讯

66.96

62.27

74

6

通义千问2.0(v1030)

阿里巴巴

66.94

61.01

75.83

7

ChatGLM3-Turbo

清华&智谱

66.5

63.27

71.34

-

Claude2

Anthropic

60.62

57.82

64.82

8

云雀大模型(豆包)

字节跳动

60.42

55.96

67.11

-

GPT3.5-Turbo

OpenAI

59.39

57.16

62.73

9

XVERSE-13B-2-Chat

元象科技

58.31

49.95

70.84

10

Qwen-14B-Chat

阿里巴巴

57.9

49.05

71.18

11

讯飞星火V3.0

科大讯飞

57.18

51

66.45

12

Baichuan2-13B-Chat

百川智能

56.33

50.33

65.33

13

MiniMax-Abab5.5

MiniMax

55.08

45.27

69.8

14

360GPT_S2_V10

360

46.47

33.35

66.14

15

ChatGLM3-6B

清华&智谱

46.24

38.01

58.58

16

Chinese-Alpaca-2-13B

yiming cui

43.42

38.09

51.42

-

Llama-2-13B-Chat

Meta

31.47

28.67

35.67

SuperCLUE
SuperCLUE官网
Logo
Leaderboard | C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval官网
Logo