Optimizers

Optimizers manage weight update starting from gradient values. They may have complex internal states to better move on the loss multi-dimensional surface. Please use the fixed signature __init__(hyperparameters: Namespace, named_parameters: Generator) -> None for all the subclasses.

ElectraAdamW

This optimizer is same as AdamW but for a small fix to the moving average update mechanism. Original implementation can be found here.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Optimizers

ElectraAdamW

Files

README.md

Latest commit

History

README.md

File metadata and controls

Optimizers

ElectraAdamW