`evorl.algorithms.meta.pbt_ppo.param_ppo`¶

Module Contents¶

Classes¶

`ParamPPOAgent`
`ParamPPOWorkflow`

Functions¶

make_mlp_ppo_agent

API¶

class evorl.algorithms.meta.pbt_ppo.param_ppo.ParamPPOAgent[source]¶

Bases: evorl.algorithms.ppo.PPOAgent

init(obs_space: evorl.envs.Space, action_space: evorl.envs.Space, key: chex.PRNGKey) → evorl.agent.AgentState[source]¶

loss(agent_state: evorl.agent.AgentState, sample_batch: evorl.sample_batch.SampleBatch, key: chex.PRNGKey) → evorl.types.LossDict[source]¶

class evorl.algorithms.meta.pbt_ppo.param_ppo.ParamPPOWorkflow(env: evorl.envs.Env, agent: evorl.agent.Agent, optimizer: optax.GradientTransformation, evaluator: evorl.evaluators.Evaluator, config: omegaconf.DictConfig)[source]¶

Bases: evorl.algorithms.ppo.PPOWorkflow

classmethod name()[source]¶

setup(key: chex.PRNGKey) → evorl.types.State[source]¶

step(state: evorl.types.State) → tuple[evorl.metrics.MetricBase, evorl.types.State][source]¶

evorl.algorithms.meta.pbt_ppo.param_ppo.make_mlp_ppo_agent(action_space: evorl.envs.Space, clip_epsilon: float = 0.2, actor_hidden_layer_sizes: tuple[int] = (256, 256), critic_hidden_layer_sizes: tuple[int] = (256, 256), normalize_obs: bool = False)[source]¶

evorl.algorithms.meta.pbt_ppo.param_ppo¶

Module Contents¶

Classes¶

Functions¶

API¶

`evorl.algorithms.meta.pbt_ppo.param_ppo`¶