PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

Mo Yu¹⁼ Tsz Ting Chung²⁼ Chulun Zhou³⁼ Tong Li³⁼ Rui Lu³⁼ Jiangnan Li¹⁼ Liyan Xu¹⁼

Haoshu Lu⁴ Ning Zhang¹ Jing Li⁴ Jie Zhou¹

¹ WeChat AI ² HKUST ³ CUHK ⁴ NJIT

⁼ equal contribution

Rank	Model	Overall F1-Scores on Human Study Set
Macro-Avg	Consistent	Contradict
Sorted by Macro-Avg	Human	81.7	79.5	83.9
1 DeepSeek	DeepSeek-R1 THINK OPEN	65.0	65.0	65.0
2 Google DeepMind	Gemini-2.5-Pro THINK	64.3	52.0	76.8
3 Google DeepMind	Gemini-2.5-Flash THINK	63.4	55.2	71.6
4 Alibaba Cloud	Qwen3-235B-A22B (+RAG top-40) RAG THINK OPEN	63.1	56.9	69.3
5 DeepResearch	OpenAI DeepResearch THINK	62.5	58.4	66.7
6 DeepSeek	DeepSeek-R1 + Many-Shot ICL THINK OPEN	62.3	62.0	62.7
7 Google DeepMind	Gemini-2.5-Flash (+RAG top-40) RAG THINK	60.7	45.8	75.6
8 Alibaba Cloud	Qwen3-32B (+RAG top-40) RAG THINK OPEN	60.5	60.0	61.0
9 OpenAI	GPT-4o RAG	60.2	50.8	69.6
10 Alibaba Cloud	Qwen3-32B (SFT, +RAG top-40) SFT RAG THINK OPEN	59.7	60.1	59.2
11 Google DeepMind	Gemini-2.5-Pro + Many-Shot ICL THINK	59.5	46.0	73.0
12 DeepSeek	DeepSeek-R1 (+RAG top-40) RAG THINK OPEN	59.1	42.4	75.9

Rank

Model

Overall F1-Scores on Human Study Set

Macro-Avg

Consistent

Contradict

Sorted by
Macro-Avg

Human

81.7

79.5

83.9

DeepSeek

DeepSeek-R1
THINK OPEN

65.0

65.0

Google DeepMind

Gemini-2.5-Pro
THINK

64.3

52.0

76.8

Google DeepMind

Gemini-2.5-Flash
THINK

63.4

55.2

71.6

Alibaba Cloud

Qwen3-235B-A22B (+RAG top-40)
RAG THINK OPEN

63.1

56.9

69.3

DeepResearch

OpenAI DeepResearch
THINK

62.5

58.4

66.7

DeepSeek

DeepSeek-R1 + Many-Shot ICL
THINK OPEN

62.3

62.0

62.7

Google DeepMind

Gemini-2.5-Flash (+RAG top-40)
RAG THINK

60.7

45.8

75.6

Alibaba Cloud

Qwen3-32B (+RAG top-40)
RAG THINK OPEN

60.5

60.0

61.0

OpenAI

GPT-4o
RAG

60.2

50.8

69.6

Alibaba Cloud

Qwen3-32B (SFT, +RAG top-40)
SFT RAG THINK OPEN

59.7

60.1

59.2

Google DeepMind

Gemini-2.5-Pro + Many-Shot ICL
THINK

59.5

46.0

73.0

DeepSeek

DeepSeek-R1 (+RAG top-40)
RAG THINK OPEN

59.1

42.4

75.9

Rank	Model	Overall F1-Scores	F1-Scores on Subset
Macro-Avg	Consistent	Contradict	Public Set
Sorted by Macro-Avg	Human	81.7*	79.5*	83.9*	-
1 Google DeepMind	Gemini-2.5-Pro THINK	65.1	61.4	68.9	62.0
2 OpenAI	GPT-4o RAG	62.9	61.2	64.6	63.2
3 Google DeepMind	Gemini-2.5-Flash THINK	61.8	62.4	61.1	59.6
4 DeepSeek	DeepSeek-R1 THINK OPEN	61.3	69.2	53.4	66.2
5 Alibaba Cloud	Qwen3-32B (+RAG top-40) RAG THINK OPEN	61.3	67.3	55.4	64.1
6 Google DeepMind	Gemini-2.5-Pro (+RAG top-40) RAG THINK OPEN	60.7	53.7	67.8	59.9
7 OpenAI	o3-mini (+RAG top-40) RAG THINK OPEN	60.0	67.0	53.0	64.0
8 Alibaba Cloud	Qwen3-235B-A22B (+RAG top-40) RAG THINK OPEN	59.7	59.7	59.7	60.7
9 DeepSeek	DeepSeek-R1 (+RAG top-40) RAG THINK OPEN	59.1	51.3	66.9	61.8
10 OpenAI	GPT-4o	57.8	69.9	45.8	62.7
11 Google DeepMind	Gemini-2.5-Flash (+RAG top-40) RAG THINK	57.8	48.9	66.8	52.0
12 Alibaba Cloud	Qwen3-235B-A22B THINK OPEN	57.3	70.1	44.5	59.1
13 Alibaba Cloud	Qwen2.5-72B (+RAG top-40) RAG OPEN	56.4	57.9	54.9	56.0
14 Alibaba Cloud	Qwen2.5-72B OPEN	55.7	66.4	45.0	59.7
15 Alibaba Cloud	Qwen3-32B THINK OPEN	53.5	69.7	37.4	55.9
16 OpenAI	o3-mini THINK	53.5	68.8	38.2	56.4

Rank

Model

Overall F1-Scores

F1-Scores on Subset

Macro-Avg

Consistent

Contradict

Public Set

Sorted by
Macro-Avg

Human

81.7*

79.5*

83.9*

Google DeepMind

Gemini-2.5-Pro
THINK

65.1

61.4

68.9

62.0

OpenAI

GPT-4o
RAG

62.9

61.2

64.6

63.2

Google DeepMind

Gemini-2.5-Flash
THINK

61.8

62.4

61.1

59.6

DeepSeek

DeepSeek-R1
THINK OPEN

61.3

69.2

53.4

66.2

Alibaba Cloud

Qwen3-32B (+RAG top-40)
RAG THINK OPEN

61.3

67.3

55.4

64.1

Google DeepMind

Gemini-2.5-Pro (+RAG top-40)
RAG THINK OPEN

60.7

53.7

67.8

59.9

OpenAI

o3-mini (+RAG top-40)
RAG THINK OPEN

60.0

67.0

53.0

64.0

Alibaba Cloud

Qwen3-235B-A22B (+RAG top-40)
RAG THINK OPEN

59.7

60.7

DeepSeek

DeepSeek-R1 (+RAG top-40)
RAG THINK OPEN

59.1

51.3

66.9

61.8

OpenAI

GPT-4o

57.8

69.9

45.8

62.7

Google DeepMind

Gemini-2.5-Flash (+RAG top-40)
RAG THINK

57.8

48.9

66.8

52.0

Alibaba Cloud

Qwen3-235B-A22B
THINK OPEN

57.3

70.1

44.5

59.1

Alibaba Cloud

Qwen2.5-72B (+RAG top-40)
RAG OPEN

56.4

57.9

54.9

56.0

Alibaba Cloud

Qwen2.5-72B
OPEN

55.7

66.4

45.0

59.7

Alibaba Cloud

Qwen3-32B
THINK OPEN

53.5

69.7

37.4

55.9

OpenAI

o3-mini
THINK

53.5

68.8

38.2

56.4