推广 热搜:     系统  行业  教师  中国  参数  机械  设备  基金 

DeepSeek-R1效果与其他模型对比方法

   日期:2025-02-22     移动:http://mip.tpjde.com/quote/13236.html

DeepSeek-R1效果与其他模型对比方法

DeepSeek-R1效果与其他模型对比方法

大模型工坊

对于所有的模型,最大生成长度设定为 32768 个词元。对于需要采样的基准测试,我们采用 0.6 的温度参数、0.95 的核采样概率(top - p 值),并且每个查询生成 64 个回复,以此来估计单次尝试通过率(pass)。

  • 最大生成长度(maximum generation length):指模型在生成文本时,最多能够输出的词元数量。词元(token)是文本处理中的基本单位,它可以是一个单词、一个子词或者一个字符,具体取决于分词方法。
  • 温度(tperature):在文本生成中,是用于控制生成文本随机性的超参数。较高的温度值(如接近 1)会使模型生成更加随机、多样化的文本;较低的温度值(如接近 0)会使模型生成更加确定、保守的文本,倾向于选择概率最高的词元。
  • 核采样( - p sampling):一种文本生成采样策略,也称为 nucleus sampling。它根据词元概率的累积分布来选择一个子集,使得该中词元概率之和达到 p(即 top - p 值),然后再从这个子集中采样选择下一个词元。
  • :是一种评估指标,通常用于衡量模型在单次尝试中完成特定任务的成功率。比如在多项选择任务中,模型给出的第一个答案如果正确,就算作一次成功,统计多次尝试中的成功比例,就是 pass。

Category

Benchmark (Metric)

Claude-3.5-Sonnet-1022

GPT-4o 0513

DeepSeek V3

OpenAI o1-mini

OpenAI o1-1217

DeepSeek R1

Architecture

MoE

MoE

Activated Params

37B

37B

Total Params

671B

671B

English

MMLU (Pass)

88.3

87.2

88.5

85.2

91.8

90.8

MMLU-Redux (EM)

88.9

88.0

89.1

86.7

92.9

MMLU-Pro (EM)

78.0

72.6

75.9

80.3

84.0

DROP (3-shot F1)

88.3

83.7

91.6

83.9

90.2

92.2

IF-eval (prompt Strict)

86.5

84.3

86.1

84.8

83.3

GPQA-Diamond (Pass)

65.0

49.9

59.1

60.0

75.7

71.5

SimpleQA (Correct)

28.4

38.2

24.9

7.0

47.0

30.1

frameS (Acc.)

72.5

80.5

73.3

76.9

82.5

Alpacaeval2.0 (LC-winrate)

52.0

51.1

70.0

57.8

87.6

ArenaHard (GPT-4-1106)

85.2

80.4

85.5

92.0

92.3

Code

LiveCodeBench (Pass-COT)

33.8

34.2

53.8

63.4

65.9

Codeforces (Percentile)

20.3

23.6

58.7

93.4

96.6

96.3

Codeforces (Rating)

717

759

1134

1820

2061

2029

SWE Verified (Resolved)

50.8

38.8

42.0

41.6

48.9

49.2

Aider-Polyglot (Acc.)

45.3

16.0

49.6

32.9

61.7

53.3

Math

AIME 2024 (Pass)

16.0

9.3

39.2

63.6

79.2

79.8

MATH-500 (Pass)

78.3

74.6

90.2

90.0

96.4

97.3

CNMO 2024 (Pass)

13.1

10.8

43.2

67.6

78.8

Chinese

CLUEWSC (EM)

85.4

87.9

90.9

89.9

92.8

C-eval (EM)

76.7

76.0

86.5

68.9

91.8

C-SimpleQA (Correct)

55.4

58.7

68.0

40.3

本文地址:http://www.tpjde.com/quote/13236.html    推平第 http://www.tpjde.com/ , 查看更多

特别提示:本信息由相关企业自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关行业动态
推荐行业动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2023001713号