这么多AI模型,我到底怎么选?
目前网站支持 GPT3.5、 GPT4.0、 文心一言、讯飞星火、阿里通义千问等等大模型。
模型有这么多,应该怎么选呢?这里可以参考一下各个评测机构的数据。
C-Eval
C-Eval是一个全面的中文基础模型评估套件。 它由13948个多项选择题组成,涵盖52个不同的学科和四个难度级别,如下所示。 您可以在Explore查看我们的数据集示例,或查看我们的论文以了解更多详细信息。涵盖了52个不同学科的13948个多项选择题, 分为四个难度级别。更多详情参考网站。
SuperCLUE
中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新
总排行榜(2023年11月)
最后更新于