Gym/resources_servers/proof_judge/configs/proof_judge.yaml at main · hackIDLE/Gym · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
proof_judge:
  resources_servers:
    proof_judge:
      entrypoint: app.py
      judge_model_server:
        type: responses_api_models
        name: policy_model
      judge_model_name: ''
      alpha: 1.0
      beta: 0.0
      temperature: 1.0
      top_p: 1.0
      max_tokens: 100000
      zero_reward_incorrect_groups: false # Give a reward of 0 if all the proofs in a group are incorrect
      expected_group_size: -1 # = Group size when zero_reward_incorrect_groups is true
      assert_think_end: false
      domain: math
      description: Theorem proving with verifier + meta-verifier judge (combined env)
      verified: false
proof_simple_agent:
  responses_api_agents:
    simple_agent:
      entrypoint: app.py
      resources_server:
        type: resources_servers
        name: proof_judge
      model_server:
        type: responses_api_models
        name: policy_model
      datasets:
      - name: example
        type: example
        jsonl_fpath: resources_servers/proof_judge/data/example.jsonl