`garage.np.algos.cem`¶

Cross Entropy Method.

class CEM(env_spec, policy, n_samples, discount=0.99, init_std=1, best_frac=0.05, extra_std=1.0, extra_decay_time=100)¶

Cross Entropy Method.

CEM works by iteratively optimizing a gaussian distribution of policy.

In each epoch, CEM does the following: 1. Sample n_samples policies from a gaussian distribution of

mean cur_mean and std cur_std.

Collect episodes for each policy.
Update cur_mean and cur_std by doing Maximum Likelihood Estimation over the n_best top policies in terms of return.

Parameters

train(self, trainer)¶

Initialize variables and start training.

Parameters: trainer (Trainer) – Experiment trainer, which provides services such as snapshotting and sampler control.
Returns: The average return in last epoch cycle.
Return type: float

garage.np.algos.cem¶