optimizer.html

---

title: Optimizer


keywords: fastai
sidebar: home_sidebar

summary: "Define the general fastai optimizer and the variants"
description: "Define the general fastai optimizer and the variants"
nb_path: "nbs/12_optimizer.ipynb"
---
<!--

#################################################
### THIS FILE WAS AUTOGENERATED! DO NOT EDIT! ###
#################################################
# file to edit: nbs/12_optimizer.ipynb
# command to build the docs after a change: nbdev_build_docs

-->

<div class="container" id="notebook-container">
        
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">add_docs</span><span class="p">(</span><span class="n">_BaseOptimizer</span><span class="p">,</span> 
         <span class="n">all_params</span><span class="o">=</span><span class="s2">&quot;List of param_groups, parameters, and hypers&quot;</span><span class="p">,</span>
         <span class="n">freeze_to</span><span class="o">=</span><span class="s2">&quot;Freeze parameter groups up to `n`&quot;</span><span class="p">,</span>
         <span class="n">freeze</span><span class="o">=</span><span class="s2">&quot;Freeze up to last parameter group&quot;</span><span class="p">,</span>
         <span class="n">set_freeze</span><span class="o">=</span><span class="s2">&quot;Set `rg` for parameter group `n` only&quot;</span><span class="p">,</span>
         <span class="n">unfreeze</span><span class="o">=</span><span class="s2">&quot;Unfreeze the entire model&quot;</span><span class="p">,</span>
         <span class="n">set_hypers</span><span class="o">=</span><span class="s2">&quot;`set_hyper` for all `kwargs`&quot;</span><span class="p">,</span>
         <span class="n">set_hyper</span><span class="o">=</span><span class="s2">&quot;Set the value(s) in `v` for hyper-parameter `k`&quot;</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h2 id="Optimizer" class="doc_header"><code>class</code> <code>Optimizer</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L64" class="source_link" style="float:right">[source]</a></h2><blockquote><p><code>Optimizer</code>(<strong><code>params</code></strong>, <strong><code>cbs</code></strong>, <strong><code>train_bn</code></strong>=<em><code>True</code></em>, <strong>**<code>defaults</code></strong>) :: <code>_BaseOptimizer</code></p>
</blockquote>
<p>Base optimizer class for the fastai library, updating <code>params</code> with <code>cbs</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">add_docs</span><span class="p">(</span><span class="n">Optimizer</span><span class="p">,</span> 
         <span class="n">zero_grad</span><span class="o">=</span><span class="s2">&quot;Standard PyTorch API: Zero all the grad attributes of the parameters&quot;</span><span class="p">,</span>
         <span class="n">step</span><span class="o">=</span><span class="s2">&quot;Standard PyTorch API: Update the stats and execute the steppers in on all parameters that have a grad&quot;</span><span class="p">,</span>
         <span class="n">state_dict</span><span class="o">=</span><span class="s2">&quot;Return the state of the optimizer in a dictionary&quot;</span><span class="p">,</span>
         <span class="n">load_state_dict</span><span class="o">=</span><span class="s2">&quot;Load the content of `sd`&quot;</span><span class="p">,</span>
         <span class="n">clear_state</span><span class="o">=</span><span class="s2">&quot;Reset the state of the optimizer&quot;</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Initializing-an-Optimizer">Initializing an Optimizer<a class="anchor-link" href="#Initializing-an-Optimizer"> </a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p><a href="/torch_core.html#params"><code>params</code></a> will be used to create the <code>param_groups</code> of the optimizer. If it's a collection (or a generator) of parameters, it will be a <a href="https://fastcore.fast.ai/foundation#L"><code>L</code></a> containing one <a href="https://fastcore.fast.ai/foundation#L"><code>L</code></a> with all the parameters. To define multiple parameter groups <a href="/torch_core.html#params"><code>params</code></a> should be passed as a collection (or a generator) of <a href="https://fastcore.fast.ai/foundation#L"><code>L</code></a>s.
{% include note.html content='In PyTorch, <code>model.parameters()</code> returns a generator with all the parameters, that you can directly pass to <code>Optimizer</code>.' %}</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="n">noop</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="p">[[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">]])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="nb">range</span><span class="p">(</span><span class="mi">3</span><span class="p">),</span> <span class="n">noop</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="p">[[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">]],</span> <span class="n">noop</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="p">[[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">]])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(([</span><span class="n">o</span><span class="p">,</span><span class="n">o</span><span class="o">+</span><span class="mi">1</span><span class="p">]</span> <span class="k">for</span> <span class="n">o</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span><span class="mi">4</span><span class="p">,</span><span class="mi">2</span><span class="p">)),</span> <span class="n">noop</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="p">[[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">],[</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">]])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p><code>cbs</code> is a list of functions that will be composed when applying the step. For instance, you can compose a function making the SGD step, with another one applying weight decay. Additionally, each <code>cb</code> can have a <a href="https://fastcore.fast.ai/foundation#defaults"><code>defaults</code></a> attribute that contains hyper-parameters and their default value. Those are all gathered at initialization, and new values can be passed to override those defaults with the <a href="https://fastcore.fast.ai/foundation#defaults"><code>defaults</code></a> kwargs. The steppers will be called by <a href="/optimizer.html#Optimizer.step"><code>Optimizer.step</code></a> (which is the standard PyTorch name), and gradients can be cleared with <a href="/optimizer.html#Optimizer.zero_grad"><code>Optimizer.zero_grad</code></a> (also a standard PyTorch name).</p>
<p>Once the defaults have all been pulled off, they are copied as many times as there are <code>param_groups</code> and stored in <code>hypers</code>. To apply different hyper-parameters to different groups (differential learning rates, or no weight decay for certain layers for instance), you will need to adjust those values after the init.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">tst_arg</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span> <span class="k">return</span> <span class="n">p</span>
<span class="n">tst_arg</span><span class="o">.</span><span class="n">defaults</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">lr</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">)</span>

<span class="k">def</span> <span class="nf">tst_arg2</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">lr2</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span> <span class="k">return</span> <span class="n">p</span>
<span class="n">tst_arg2</span><span class="o">.</span><span class="n">defaults</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">lr2</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>

<span class="k">def</span> <span class="nf">tst_arg3</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mi">0</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span> <span class="k">return</span> <span class="n">p</span>
<span class="n">tst_arg3</span><span class="o">.</span><span class="n">defaults</span> <span class="o">=</span> <span class="nb">dict</span><span class="p">(</span><span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">)</span>

<span class="k">def</span> <span class="nf">tst_arg4</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span> <span class="k">return</span> <span class="n">p</span>

<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="n">tst_arg</span><span class="p">,</span><span class="n">tst_arg2</span><span class="p">,</span> <span class="n">tst_arg3</span><span class="p">])</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr2&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">,</span> <span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">,</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">0.1</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">0.1</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">0.1</span><span class="p">}])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>For each hyper-parameter, you can pass a slice or a collection to set them, if there are multiple parameter groups. A slice will be converted to a log-uniform collection from its beginning to its end, or if it only has an end <code>e</code>, to a collection of as many values as there are parameter groups that are <code>...,e/10,e/10,e</code>.</p>
<p>Setting an hyper-parameter with a collection that has a different number of elements than the optimizer has parameter groups will raise an error.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">])</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">0.1</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">0.2</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">],[</span><span class="mi">4</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="nb">slice</span><span class="p">(</span><span class="mf">1e-2</span><span class="p">))</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">],[</span><span class="mi">4</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="nb">slice</span><span class="p">(</span><span class="mf">1e-4</span><span class="p">,</span><span class="mf">1e-2</span><span class="p">))</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-4</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}])</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-4</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">3</span><span class="p">],</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">},</span> <span class="p">{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="p">[</span><span class="mi">4</span><span class="p">],</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}])</span>
<span class="n">test_fail</span><span class="p">(</span><span class="k">lambda</span><span class="p">:</span> <span class="n">Optimizer</span><span class="p">([[</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">],[</span><span class="mi">3</span><span class="p">],[</span><span class="mi">4</span><span class="p">]],</span> <span class="n">tst_arg</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">])))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Basic-steppers">Basic steppers<a class="anchor-link" href="#Basic-steppers"> </a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>To be able to give examples of optimizer steps, we will need some steppers, like the following:</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="sgd_step" class="doc_header"><code>sgd_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L101" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>sgd_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">tst_param</span><span class="p">(</span><span class="n">val</span><span class="p">,</span> <span class="n">grad</span><span class="o">=</span><span class="kc">None</span><span class="p">):</span>
    <span class="s2">&quot;Create a tensor with `val` and a gradient of `grad` for testing&quot;</span>
    <span class="n">res</span> <span class="o">=</span> <span class="n">tensor</span><span class="p">([</span><span class="n">val</span><span class="p">])</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
    <span class="n">res</span><span class="o">.</span><span class="n">grad</span> <span class="o">=</span> <span class="n">tensor</span><span class="p">([</span><span class="n">val</span><span class="o">/</span><span class="mi">10</span> <span class="k">if</span> <span class="n">grad</span> <span class="ow">is</span> <span class="kc">None</span> <span class="k">else</span> <span class="n">grad</span><span class="p">])</span><span class="o">.</span><span class="n">float</span><span class="p">()</span>
    <span class="k">return</span> <span class="n">res</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">(</span><span class="mf">1.</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">sgd_step</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="mf">1.</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.9</span><span class="p">]))</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.1</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="weight_decay" class="doc_header"><code>weight_decay</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L105" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>weight_decay</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>wd</code></strong>, <strong><code>do_wd</code></strong>=<em><code>True</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Weight decay as decaying <code>p</code> with <code>lr*wd</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">(</span><span class="mf">1.</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">weight_decay</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="mf">1.</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.9</span><span class="p">]))</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.1</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="l2_reg" class="doc_header"><code>l2_reg</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L112" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>l2_reg</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>wd</code></strong>, <strong><code>do_wd</code></strong>=<em><code>True</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>L2 regularization as adding <code>wd*p</code> to <code>p.grad</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">(</span><span class="mf">1.</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">l2_reg</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="mf">1.</span><span class="p">,</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">1.</span><span class="p">]))</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.2</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>{% include warning.html content='Weight decay and L2 regularization is the same thing for basic SGD, but for more complex optimizers, they are very different.' %}</p>

</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Making-the-step">Making the step<a class="anchor-link" href="#Making-the-step"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.step" class="doc_header"><code>Optimizer.step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L81" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.step</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>This method will loop over all param groups, then all parameters for which <code>grad</code> is not None and call each function in <code>stepper</code>, passing it the parameter <code>p</code> with the hyper-parameters in the corresponding dict in <code>hypers</code>.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">r</span> <span class="o">=</span> <span class="n">L</span><span class="o">.</span><span class="n">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)</span>
<span class="k">def</span> <span class="nf">tst_params</span><span class="p">():</span> <span class="k">return</span> <span class="n">r</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">tst_param</span><span class="p">)</span>

<span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="n">r</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">mul</span><span class="p">(</span><span class="mf">0.99</span><span class="p">)))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="p">[</span><span class="n">weight_decay</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">],</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="n">r</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">mul</span><span class="p">(</span><span class="mf">0.98</span><span class="p">)))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">params</span><span class="p">[</span><span class="o">-</span><span class="mi">1</span><span class="p">]</span><span class="o">.</span><span class="n">grad</span> <span class="o">=</span> <span class="kc">None</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.</span><span class="p">,</span> <span class="mf">0.99</span><span class="p">,</span> <span class="mf">1.98</span><span class="p">,</span> <span class="mf">3.</span><span class="p">])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="n">params</span><span class="p">[:</span><span class="mi">2</span><span class="p">],</span> <span class="n">params</span><span class="p">[</span><span class="mi">2</span><span class="p">:]],</span> <span class="n">sgd_step</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;lr&#39;</span><span class="p">]</span> <span class="o">=</span> <span class="mf">0.01</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.</span><span class="p">,</span> <span class="mf">0.999</span><span class="p">,</span> <span class="mf">1.98</span><span class="p">,</span> <span class="mf">2.97</span><span class="p">])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.zero_grad" class="doc_header"><code>Optimizer.zero_grad</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L76" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.zero_grad</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="p">[</span><span class="n">weight_decay</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">],</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
<span class="p">[</span><span class="n">test_eq</span><span class="p">(</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">,</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.</span><span class="p">]))</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">];</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Some of the <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> <code>cbs</code> can be functions updating the state associated with a parameter. That state can then be used by any stepper. The best example is a momentum calculation.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">tst_stat</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="o">**</span><span class="n">kwargs</span><span class="p">):</span> 
    <span class="n">s</span> <span class="o">=</span> <span class="n">kwargs</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="s1">&#39;sum&#39;</span><span class="p">,</span> <span class="n">torch</span><span class="o">.</span><span class="n">zeros_like</span><span class="p">(</span><span class="n">p</span><span class="p">))</span> <span class="o">+</span> <span class="n">p</span><span class="o">.</span><span class="n">data</span>
    <span class="k">return</span> <span class="p">{</span><span class="s1">&#39;sum&#39;</span><span class="p">:</span> <span class="n">s</span><span class="p">}</span>
<span class="n">tst_stat</span><span class="o">.</span><span class="n">defaults</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">}</span>

<span class="c1">#Test Optimizer init</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="n">tst_stat</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">}])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="n">tst_stat</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.99</span><span class="p">}])</span>

<span class="c1">#Test stat</span>
<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">)</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">tst_stat</span><span class="p">(</span><span class="n">x</span><span class="p">)</span>
<span class="k">assert</span> <span class="s1">&#39;sum&#39;</span> <span class="ow">in</span> <span class="n">state</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="n">state</span><span class="p">[</span><span class="s1">&#39;sum&#39;</span><span class="p">])</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">tst_stat</span><span class="p">(</span><span class="n">x</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;sum&#39;</span><span class="p">],</span> <span class="mi">2</span><span class="o">*</span><span class="n">x</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="Statistics">Statistics<a class="anchor-link" href="#Statistics"> </a></h2>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="average_grad" class="doc_header"><code>average_grad</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L119" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>average_grad</code>(<strong><code>p</code></strong>, <strong><code>mom</code></strong>, <strong><code>dampening</code></strong>=<em><code>False</code></em>, <strong><code>grad_avg</code></strong>=<em><code>None</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Keeps track of the avg grads of <code>p</code> in <code>state</code> with <code>mom</code>.</p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p><code>dampening=False</code> gives the classical formula for momentum in SGD:</p>

<pre><code>new_val = old_val * mom + grad</code></pre>
<p>whereas <code>dampening=True</code> makes it an exponential moving average:</p>

<pre><code>new_val = old_val * mom + grad * (1-mom)</code></pre>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])</span>
<span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">)</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span> <span class="o">*</span> <span class="mf">1.9</span><span class="p">)</span>

<span class="c1">#Test dampening</span>
<span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span>  <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">dampening</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="mf">0.1</span><span class="o">*</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">)</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">dampening</span><span class="o">=</span><span class="kc">True</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="p">(</span><span class="mf">0.1</span><span class="o">*</span><span class="mf">0.9</span><span class="o">+</span><span class="mf">0.1</span><span class="p">)</span><span class="o">*</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="average_sqr_grad" class="doc_header"><code>average_sqr_grad</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L129" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>average_sqr_grad</code>(<strong><code>p</code></strong>, <strong><code>sqr_mom</code></strong>, <strong><code>dampening</code></strong>=<em><code>True</code></em>, <strong><code>sqr_avg</code></strong>=<em><code>None</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p><code>dampening=False</code> gives the classical formula for momentum in SGD:</p>

<pre><code>new_val = old_val * mom + grad**2</code></pre>
<p>whereas <code>dampening=True</code> makes it an exponential moving average:</p>

<pre><code>new_val = old_val * mom + (grad**2) * (1-mom)</code></pre>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])</span>
<span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_sqr_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">sqr_mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">,</span> <span class="n">dampening</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;sqr_avg&#39;</span><span class="p">],</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="mi">2</span><span class="p">))</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_sqr_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">sqr_mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">,</span> <span class="n">dampening</span><span class="o">=</span><span class="kc">False</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;sqr_avg&#39;</span><span class="p">],</span> <span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="mi">2</span><span class="p">)</span> <span class="o">*</span> <span class="mf">1.99</span><span class="p">)</span>

<span class="c1">#Test dampening</span>
<span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_sqr_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">sqr_mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;sqr_avg&#39;</span><span class="p">],</span> <span class="mf">0.01</span><span class="o">*</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="mi">2</span><span class="p">))</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">average_sqr_grad</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">sqr_mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;sqr_avg&#39;</span><span class="p">],</span> <span class="p">(</span><span class="mf">0.01</span><span class="o">*</span><span class="mf">0.99</span><span class="o">+</span><span class="mf">0.01</span><span class="p">)</span><span class="o">*</span><span class="n">p</span><span class="o">.</span><span class="n">grad</span><span class="o">.</span><span class="n">pow</span><span class="p">(</span><span class="mi">2</span><span class="p">))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Freezing-part-of-the-model">Freezing part of the model<a class="anchor-link" href="#Freezing-part-of-the-model"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.freeze" class="doc_header"><code>Optimizer.freeze</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L26" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.freeze</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.freeze_to" class="doc_header"><code>Optimizer.freeze_to</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L19" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.freeze_to</code>(<strong><code>n</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.unfreeze" class="doc_header"><code>Optimizer.unfreeze</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L33" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.unfreeze</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="p">[</span><span class="n">tst_params</span><span class="p">(),</span> <span class="n">tst_params</span><span class="p">(),</span> <span class="n">tst_params</span><span class="p">()]</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">freeze_to</span><span class="p">(</span><span class="mi">1</span><span class="p">)</span>
<span class="n">req_grad</span> <span class="o">=</span> <span class="n">Self</span><span class="o">.</span><span class="n">requires_grad</span><span class="p">()</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">False</span><span class="p">]</span><span class="o">*</span><span class="mi">4</span><span class="p">)</span>
<span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="p">{</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">}:</span> <span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="n">i</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">True</span><span class="p">]</span><span class="o">*</span><span class="mi">4</span><span class="p">)</span>
    
<span class="c1">#Unfreezing</span>
<span class="n">opt</span><span class="o">.</span><span class="n">unfreeze</span><span class="p">()</span>
<span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">2</span><span class="p">):</span> <span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="n">i</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">True</span><span class="p">]</span><span class="o">*</span><span class="mi">4</span><span class="p">)</span>

<span class="c1">#TODO: test warning</span>
<span class="c1"># opt.freeze_to(3)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Parameters such as batchnorm weights/bias can be marked to always be in training mode, just put <code>force_train=true</code> in their state.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="p">[</span><span class="n">tst_params</span><span class="p">(),</span> <span class="n">tst_params</span><span class="p">(),</span> <span class="n">tst_params</span><span class="p">()]</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">sgd_step</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">])[[</span><span class="mi">1</span><span class="p">,</span><span class="mi">3</span><span class="p">]]:</span> <span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;force_train&#39;</span><span class="p">:</span> <span class="kc">True</span><span class="p">}</span>
<span class="n">opt</span><span class="o">.</span><span class="n">freeze</span><span class="p">()</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">False</span><span class="p">]</span><span class="o">*</span><span class="mi">4</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">False</span><span class="p">,</span> <span class="kc">True</span><span class="p">,</span> <span class="kc">False</span><span class="p">,</span> <span class="kc">True</span><span class="p">])</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">L</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">2</span><span class="p">])</span><span class="o">.</span><span class="n">map</span><span class="p">(</span><span class="n">req_grad</span><span class="p">),</span> <span class="p">[</span><span class="kc">True</span><span class="p">]</span><span class="o">*</span><span class="mi">4</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Serializing">Serializing<a class="anchor-link" href="#Serializing"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.state_dict" class="doc_header"><code>Optimizer.state_dict</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L90" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.state_dict</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.load_state_dict" class="doc_header"><code>Optimizer.load_state_dict</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L94" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.load_state_dict</code>(<strong><code>sd</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">average_grad</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">][</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([[</span><span class="mf">4.</span><span class="p">,</span> <span class="mf">5.</span><span class="p">,</span> <span class="mf">6.</span><span class="p">]]))</span>

<span class="n">sd</span> <span class="o">=</span> <span class="n">opt</span><span class="o">.</span><span class="n">state_dict</span><span class="p">()</span>
<span class="n">p1</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">10</span><span class="p">,</span><span class="mi">20</span><span class="p">,</span><span class="mi">30</span><span class="p">],</span> <span class="p">[</span><span class="mi">40</span><span class="p">,</span><span class="mi">50</span><span class="p">,</span><span class="mi">60</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">p1</span><span class="p">,</span> <span class="n">average_grad</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.99</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;mom&#39;</span><span class="p">],</span> <span class="mf">0.99</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">,</span> <span class="p">{})</span>

<span class="n">opt</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">sd</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">hypers</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;mom&#39;</span><span class="p">],</span> <span class="mf">0.9</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p1</span><span class="p">][</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([[</span><span class="mf">4.</span><span class="p">,</span> <span class="mf">5.</span><span class="p">,</span> <span class="mf">6.</span><span class="p">]]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Optimizer.clear_state" class="doc_header"><code>Optimizer.clear_state</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L86" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Optimizer.clear_state</code>()</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Optimizer</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="n">average_grad</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">]</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;force_train&#39;</span><span class="p">:</span> <span class="kc">True</span><span class="p">}</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">][</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([[</span><span class="mf">4.</span><span class="p">,</span> <span class="mf">5.</span><span class="p">,</span> <span class="mf">6.</span><span class="p">]]))</span>

<span class="n">opt</span><span class="o">.</span><span class="n">clear_state</span><span class="p">()</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">],</span> <span class="p">{</span><span class="s1">&#39;force_train&#39;</span><span class="p">:</span> <span class="kc">True</span><span class="p">})</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h2 id="Optimizers">Optimizers<a class="anchor-link" href="#Optimizers"> </a></h2>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="SGD-with-momentum">SGD with momentum<a class="anchor-link" href="#SGD-with-momentum"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="momentum_step" class="doc_header"><code>momentum_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L138" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>momentum_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>grad_avg</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for SGD with momentum with <code>lr</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="SGD" class="doc_header"><code>SGD</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L143" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>SGD</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.0</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for SGD with <code>lr</code> and <code>mom</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="n">i</span><span class="o">*</span><span class="mf">0.99</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)])</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="p">[</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">]</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="n">i</span><span class="o">*</span><span class="mf">0.98</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">)</span>
<span class="k">assert</span> <span class="nb">isinstance</span><span class="p">(</span><span class="n">opt</span><span class="p">,</span> <span class="n">Optimizer</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="n">i</span><span class="o">*</span><span class="mf">0.99</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)])</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="p">[</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">]</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="n">i</span><span class="o">*</span><span class="p">(</span><span class="mi">1</span> <span class="o">-</span> <span class="mf">0.1</span> <span class="o">*</span> <span class="p">(</span><span class="mf">0.1</span> <span class="o">+</span> <span class="mf">0.1</span><span class="o">*</span><span class="mf">1.9</span><span class="p">))</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)])</span>
<span class="k">for</span> <span class="n">i</span><span class="p">,</span><span class="n">p</span> <span class="ow">in</span> <span class="nb">enumerate</span><span class="p">(</span><span class="n">params</span><span class="p">):</span> <span class="n">test_close</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">p</span><span class="p">][</span><span class="s1">&#39;grad_avg&#39;</span><span class="p">]</span><span class="o">.</span><span class="n">item</span><span class="p">(),</span> <span class="n">i</span><span class="o">*</span><span class="mf">0.19</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Test weight decay, notice how we can see that L2 regularization is different from weight decay even for simple SGD with momentum.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_params</span><span class="p">()</span>
<span class="c1">#Weight decay</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">([</span><span class="n">p</span><span class="o">.</span><span class="n">item</span><span class="p">()</span> <span class="k">for</span> <span class="n">p</span> <span class="ow">in</span> <span class="n">params</span><span class="p">],</span> <span class="p">[</span><span class="n">i</span><span class="o">*</span><span class="mf">0.98</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">4</span><span class="p">)])</span>
<span class="c1">#L2 reg</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">decouple_wd</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="c1">#TODO: fix cause this formula was wrong</span>
<span class="c1">#test_close([p.item() for p in params], [i*0.97 for i in range(4)])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="RMSProp">RMSProp<a class="anchor-link" href="#RMSProp"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="rms_prop_step" class="doc_header"><code>rms_prop_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L152" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>rms_prop_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>sqr_avg</code></strong>, <strong><code>eps</code></strong>, <strong><code>grad_avg</code></strong>=<em><code>None</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for SGD with momentum with <code>lr</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="RMSProp" class="doc_header"><code>RMSProp</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L160" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>RMSProp</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>sqr_mom</code></strong>=<em><code>0.99</code></em>, <strong><code>mom</code></strong>=<em><code>0.0</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for RMSProp with <code>lr</code>, <code>sqr_mom</code>, <code>mom</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>RMSProp was introduced by Geoffrey Hinton in his <a href="http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf">course</a>. What is named <code>sqr_mom</code> here is the <code>alpha</code> in the course. Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">RMSProp</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.</span><span class="p">,</span><span class="mf">1.</span><span class="p">,</span><span class="mf">2.</span><span class="p">]))</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">step</span> <span class="o">=</span> <span class="o">-</span> <span class="mf">0.1</span> <span class="o">*</span> <span class="mf">0.1</span> <span class="o">/</span> <span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">((</span><span class="mf">0.01</span><span class="o">*</span><span class="mf">0.99</span><span class="o">+</span><span class="mf">0.01</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="n">step</span><span class="p">,</span> <span class="mi">1</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="n">step</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">RMSProp</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.</span><span class="p">,</span><span class="mf">1.</span><span class="p">,</span><span class="mf">2.</span><span class="p">]))</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">step</span> <span class="o">=</span> <span class="o">-</span> <span class="mf">0.1</span> <span class="o">*</span> <span class="p">(</span><span class="mf">0.1</span> <span class="o">+</span> <span class="mf">0.9</span><span class="o">*</span><span class="mf">0.1</span><span class="p">)</span> <span class="o">/</span> <span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">((</span><span class="mf">0.01</span><span class="o">*</span><span class="mf">0.99</span><span class="o">+</span><span class="mf">0.01</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="n">step</span><span class="p">,</span> <span class="mi">1</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="n">step</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="Adam">Adam<a class="anchor-link" href="#Adam"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="step_stat" class="doc_header"><code>step_stat</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L169" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>step_stat</code>(<strong><code>p</code></strong>, <strong><code>step</code></strong>=<em><code>0</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Register the number of steps done in <code>state</code> for <code>p</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">p</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">state</span> <span class="o">=</span> <span class="p">{}</span>
<span class="n">state</span> <span class="o">=</span> <span class="n">step_stat</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">],</span> <span class="mi">1</span><span class="p">)</span>
<span class="k">for</span> <span class="n">_</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">5</span><span class="p">):</span> <span class="n">state</span> <span class="o">=</span> <span class="n">step_stat</span><span class="p">(</span><span class="n">p</span><span class="p">,</span> <span class="o">**</span><span class="n">state</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">state</span><span class="p">[</span><span class="s1">&#39;step&#39;</span><span class="p">],</span> <span class="mi">6</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="debias" class="doc_header"><code>debias</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L175" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>debias</code>(<strong><code>mom</code></strong>, <strong><code>damp</code></strong>, <strong><code>step</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="adam_step" class="doc_header"><code>adam_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L178" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>adam_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>, <strong><code>step</code></strong>, <strong><code>sqr_mom</code></strong>, <strong><code>grad_avg</code></strong>, <strong><code>sqr_avg</code></strong>, <strong><code>eps</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for Adam with <code>lr</code> on <code>p</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Adam" class="doc_header"><code>Adam</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L188" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Adam</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.9</code></em>, <strong><code>sqr_mom</code></strong>=<em><code>0.99</code></em>, <strong><code>eps</code></strong>=<em><code>1e-05</code></em>, <strong><code>wd</code></strong>=<em><code>0.01</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for Adam with <code>lr</code>, <code>mom</code>, <code>sqr_mom</code>, <code>eps</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Adam was introduced by Diederik P. Kingma and Jimmy Ba in <a href="https://arxiv.org/abs/1412.6980">Adam: A Method for Stochastic Optimization</a>. For consistency across optimizers, we renamed <code>beta1</code> and <code>beta2</code> in the paper to <code>mom</code> and  <code>sqr_mom</code>. Note that our defaults also differ from the paper (0.99 for <code>sqr_mom</code> or <code>beta2</code>, 1e-5 for <code>eps</code>). Those values seem to be better from our experiments in a wide range of situations.</p>
<p>Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).
{% include note.html content='Don&#8217;t forget that <code>eps</code> is an hyper-parameter you can change. Some models won&#8217;t train without a very high <code>eps</code> like 0.1 (intuitively, the higher <code>eps</code> is, the closer we are to normal SGD). The usual default of 1e-8 is often too extreme in the sense we don&#8217;t manage to get as good results as with SGD. ' %}</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Adam</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mi">0</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">step</span> <span class="o">=</span> <span class="o">-</span><span class="mf">0.1</span> <span class="o">*</span> <span class="mf">0.1</span> <span class="o">/</span> <span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">3</span><span class="o">+</span><span class="n">step</span><span class="p">]))</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">,</span> <span class="mi">3</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">]),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="RAdam">RAdam<a class="anchor-link" href="#RAdam"> </a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>RAdam (for rectified Adam) was introduced by Zhang et al. in <a href="https://arxiv.org/abs/1907.08610">On the Variance of the Adaptive Learning Rate and Beyond</a> to slightly modify the Adam optimizer to be more stable at the beginning of training (and thus not require a long warmup). They use an estimate of the variance of the moving average of the squared gradients (the term in the denominator of traditional Adam) and rescale this moving average by this term before performing the update.</p>
<p>This version also incorporates <a href="https://arxiv.org/abs/1908.00700">SAdam</a>; set <code>beta</code> to enable this (definition same as in the paper).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="radam_step" class="doc_header"><code>radam_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L196" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>radam_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>, <strong><code>step</code></strong>, <strong><code>sqr_mom</code></strong>, <strong><code>grad_avg</code></strong>, <strong><code>sqr_avg</code></strong>, <strong><code>eps</code></strong>, <strong><code>beta</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for RAdam with <code>lr</code> on <code>p</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="RAdam" class="doc_header"><code>RAdam</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L214" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>RAdam</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.9</code></em>, <strong><code>sqr_mom</code></strong>=<em><code>0.99</code></em>, <strong><code>eps</code></strong>=<em><code>1e-05</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>beta</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for Adam with <code>lr</code>, <code>mom</code>, <code>sqr_mom</code>, <code>eps</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>This is the effective correction reported to the adam step for 500 iterations in RAdam. We can see how it goes from 0 to 1, mimicking the effect of a warm-up.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">beta</span> <span class="o">=</span> <span class="mf">0.99</span>
<span class="n">r_inf</span> <span class="o">=</span> <span class="mi">2</span><span class="o">/</span><span class="p">(</span><span class="mi">1</span><span class="o">-</span><span class="n">beta</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
<span class="n">rs</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">array</span><span class="p">([</span><span class="n">r_inf</span> <span class="o">-</span> <span class="mi">2</span><span class="o">*</span><span class="n">s</span><span class="o">*</span><span class="n">beta</span><span class="o">**</span><span class="n">s</span><span class="o">/</span><span class="p">(</span><span class="mi">1</span><span class="o">-</span><span class="n">beta</span><span class="o">**</span><span class="n">s</span><span class="p">)</span> <span class="k">for</span> <span class="n">s</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">5</span><span class="p">,</span><span class="mi">500</span><span class="p">)])</span>
<span class="n">v</span> <span class="o">=</span> <span class="n">np</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(((</span><span class="n">rs</span><span class="o">-</span><span class="mi">4</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">rs</span><span class="o">-</span><span class="mi">2</span><span class="p">)</span> <span class="o">*</span> <span class="n">r_inf</span><span class="p">)</span><span class="o">/</span><span class="p">((</span><span class="n">r_inf</span><span class="o">-</span><span class="mi">4</span><span class="p">)</span><span class="o">*</span><span class="p">(</span><span class="n">r_inf</span><span class="o">-</span><span class="mi">2</span><span class="p">)</span><span class="o">*</span><span class="n">rs</span><span class="p">))</span>
<span class="n">plt</span><span class="o">.</span><span class="n">plot</span><span class="p">(</span><span class="n">v</span><span class="p">);</span>
</pre></div>

    </div>
</div>
</div>

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_png output_subarea ">
<img src="data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAXQAAAD4CAYAAAD8Zh1EAAAABHNCSVQICAgIfAhkiAAAAAlwSFlzAAALEgAACxIB0t1+/AAAADh0RVh0U29mdHdhcmUAbWF0cGxvdGxpYiB2ZXJzaW9uMy4yLjAsIGh0dHA6Ly9tYXRwbG90bGliLm9yZy8GearUAAAe9ElEQVR4nO3deXxV9Z3/8deH7PtCFgIJJCxhX8QAWq37grbFLtZR21ErLfoYmdrpMup0xmntPk73n792tCqDFa3WqpTi0rp0rCgQdghEAgGykpBA9j3f+SMXJiJIgJuc3Hvfz8fjPnLP93zJ/Xwvl7dfv+ece8w5h4iIBL4RXhcgIiL+oUAXEQkSCnQRkSChQBcRCRIKdBGRIBHu1QunpaW53Nxcr15eRCQgbdiw4ZBzLv1E+zwL9NzcXAoLC716eRGRgGRm+0+2T0suIiJB4pSBbmaPmVmNmW0/yX4zs1+YWYmZbTWzuf4vU0RETmUgM/RlwMIP2X8NMMn3WAL86uzLEhGR03XKQHfO/Q9Q/yFdrgOWuz7vAslmluWvAkVEZGD8sYY+Bijrt13uaxMRkSE0pAdFzWyJmRWaWWFtbe1QvrSISNDzR6BXADn9trN9bR/gnHvYOVfgnCtITz/haZQiInKG/HEe+kpgqZk9DSwAGpxzVX74vSIiAaWn19Hc0d33aO+muaOLpvb+2900tXdz+dQMZmUn+/31TxnoZvYUcAmQZmblwL8DEQDOuV8Dq4FrgRKgFfiC36sUERkCHd09NLR10djWRUP/R2sXDW3dx7abO7qOhXRTv7Bu7ewZ0OukJ0R5E+jOuZtOsd8Bd/mtIhGRs9Tb62hs76KupZP6EzyOtHadMLjbuj48kOOjwkmKiSAhOpz4qHBS4iLJSY09th0fFUF8dDgJUeHE+9riosL/b390OHGR4YSNsEEZt2eX/ouInI6Wjm5qmjqoaWyntrmDuuZOX2B3cLili7qWjmOBfbi1i57eE9+NLTYyjOSYCBJjIkiKiSA3LZYk3/Ojj8TjtpNjI0mMDic8bHhfXK9AFxHP9PY66ls7qWnsoLa5L6xrmjqo9T1qmtp9PztOuJxhBskxEaTGRZIaF0leWhznjktlZFwkKXGRjPS1939ER4R5MNKhoUAXkUHhnONIaxeVDW1UHWmnqqGNyoZ2qo74fja0cbChg86e3g/82YSocNITo0iPj2JmdjIZCVGkJ0SRkRBFRkI06QlRpMVHkhwbOWjLF4FIgS4iZ8Q5R21TBwfqWyk73MqBujbKD7dS1dB+LMSPX5MOH2FkJkYzOjmac3JSyJoZTVZiNBmJ0e8L65jI4J1FDyYFuoicVHNHN2X1rX2h7Xv0BXgbZfWtdHS/f3adkRDF6OQYpoxK4NLJGWQlRTM6OebYz7T4KM2oB5ECXSTEdfX0UlbfSumhFvbWtrD3UAt7a5spPdRCTVPH+/rGR4WTkxrLhPQ4Lp2cTk5qLDmpsYxNjWVMckxQr08HAgW6SIhobO9i98Fmdh9sOhbaew+1cKCule5+Z4SkxEaQlxbHRfnp5KXFMW5kX2DnpMSSHBuBmWbYw5UCXSTItHX2UFLTTPHBJt47+qhuorKh/VifyPAR5I2MIz8jgYXTR5GXFsf49HjGp8WREhfpYfVyNhToIgHKOUf54TZ2VDayo7KBXdV94X2gvhXnm3BHho9gYno88/NSyR+VwOTMBPIzExidHKO17CCkQBcJAD29jr21zeyobGR7RQM7Khspqmqkoa0LgBEG49PjmTE6iU+fk83kUfFMykxgXGrssL8YRvxHgS4yzDjn2FfXyuayw2w+cIQt5Q3sqm6kvavvjJLI8BFMHZXAtTOzmD46kemjE5kyKlGn+okCXcRrh1s62Vx2hE1lR9hcdoQtZUeOzbxjI8OYMSaJm+ePY/roRGaMSWJCepxm3XJCCnSRIeScY09tC+v31bO+tJ6NBw6zr64V6Fs2yc9M4JoZo5iTk8ycsclMykjQWrcMmAJdZBB19/Sys6qJdfvqWVdaR+G+w9S1dAIwMi6Sc8elcMO8HObkJDMrO5n4KP2TlDOnT4+IH3X39LKtooE1e+p4d28dG/cfpsX3pVLZKTFcPDmd+bmpzMtLZXxanM7pFr9SoIucBeccew+18HbJIf62+xDv7K2jqb0bgPzMeD41dwzzclOZn5dKVlKMx9VKsFOgi5ym2qaOvgAvOcTbJYeo8l2wMyY5ho/NzOKCiWl8ZMJIRsZHeVyphBoFusgp9PY6tlU08PquGt4ormFreQMAybERXDAhjQsmpnHBxJGMTY3VEop4SoEucgINbV28tbuWN3bV8tf3ajjU3IkZnJOTzNevyufi/Aymj05khM5AkWFEgS7iU93QzqtF1by8vZq1pfX09DqSYiK4OD+dy6ZkcFF+Oqn6nhMZxhToEtL2HWrh5R19Ib657AgAEzPiueOi8Vw2JYM5Ocm6iEcChgJdQk5xdROrt1Xxyo5qdlU3ATArO4lvXD2Zq6ePYmJGvMcVipwZBbqEhLL6VlZuqWTl5kqKDzZhBvNyU7n/49O4anom2SmxXpcoctYU6BK0apra+dPWKlZuqWTTgb7llIJxKTxw3XSumZFFeoJOK5TgokCXoNLe1cPL26v5/YZy1uw5RK+DqVmJ3LNwCp+YnaWZuAQ1BboEPOccm8uO8OyGcv64pZKm9m6yU2K469KJLJo9mkmZCV6XKDIkFOgSsGqbOnh+UznPFpazu6aZ6IgRXDsji+sLsjkvb6TOEZeQo0CXgOKcY82eOp54Zz9/3nmQnl7H3LHJ/ODTM/nYrCwSoyO8LlHEMwp0CQgNbV08t6Gc367dz97aFlJiI1h8YR43FOToNEMRHwW6DGvbKxr47bv7eWFzBe1dvZwzNpmf3DCba2dmER2hW66J9KdAl2Gnp9fxyo5qfvPWXjYeOEJ0xAg+OWcMnz9vHDPGJHldnsiwpUCXYaO5o5tn1pfx+JpSyurbGJsay799fBrXn5tNUozWxkVORYEunqtqaGPZmn2sWHuApvZuzh2XwjevncqV00bpfpoip0GBLp7ZU9vM/39jDy9urqDXOa6ZkcXij+Yxd2yK16WJBKQBBbqZLQR+DoQBv3HO/fC4/WOB/waSfX3udc6t9nOtEiR2VTfy0Bt7WLW1kqjwEXz+vHEsvjCPnFRdxSlyNk4Z6GYWBjwEXAmUA+vNbKVzrqhft38FnnHO/crMpgGrgdxBqFcC2LbyBn75+m5eLTpIXGQYd1w0gS9+NI803apNxC8GMkOfD5Q45/YCmNnTwHVA/0B3QKLveRJQ6c8iJbBtKTvCT//yHm8W15IYHc7dl0/iCxfkkhyrm0WI+NNAAn0MUNZvuxxYcFyfbwGvmtk/AnHAFSf6RWa2BFgCMHbs2NOtVQJMcXUTP361mFeLDpISG8E3rp7M358/TldzigwSfx0UvQlY5pz7sZmdDzxhZjOcc739OznnHgYeBigoKHB+em0ZZvbXtfCzv+zmhc0VxEeG89Ur87n9wjzio3QMXmQwDeRfWAWQ028729fW32JgIYBz7h0ziwbSgBp/FCmBoaaxnZ+/tpvfrS8jPMxYctF47rxoAim6D6fIkBhIoK8HJplZHn1BfiNw83F9DgCXA8vMbCoQDdT6s1AZvlo7u3nkf0r59V/30N3by80LxrL00olkJEZ7XZpISDlloDvnus1sKfAKfackPuac22FmDwCFzrmVwNeAR8zsn+g7QHqbc05LKkGut9fx/KYKHnylmOrGdq6dOYp7Fk5h3Mg4r0sTCUkDWtT0nVO++ri2+/s9LwIu8G9pMpy9u7eO7/6piO0VjczOTuKXN5/DvNxUr8sSCWk6SiWnpfJIG99ZVcRL26vJSormZ383h0WzR+tmEiLDgAJdBqSzu5dH/1bKL17bjcPx1Svz+dJHxxMTqa+wFRkuFOhySu/sqePfXtxOSU0zV0zN5N8/MU2X6YsMQwp0Oamaxna+t3onL26uJCc1hkdvLeDyqZlelyUiJ6FAlw9wzvFMYRnf/dNOOrp6+fLlk/iHSyboDkEiw5wCXd7nQF0r9z2/lbdL6liQl8oPPzOLvDSdhigSCBToAvTd9m3Zmn385yvFhI0wvvepGdw0b6zOXhEJIAp0oaSmmW/8fgubDhzh0snpfO9TMxmdHON1WSJymhToIcw5x/J39vP91TuJiQzjZ383h+vmjMZMs3KRQKRAD1EHG9v5+rNbeGv3IS6ZnM5/fGaWvntFJMAp0EPQn7ZW8S/Pb6Ozu5fvfnIGn1swVrNykSCgQA8hzR3d3P/Cdv6wqYLZOcn89IbZjE+P97osEfETBXqIKKpsZOmKjeyra+Huyyex9LKJRISN8LosEfEjBXqQc86xYt0Bvv3HIlJiI3jqS+exYPxIr8sSkUGgQA9iTe1d3PeHbazaWsVF+en89IbZjIyP8rosERkkCvQgtaOygbue3EjZ4Tb+eeFk7rxogi4SEglyCvQg9OLmCu55bivJMZE8veQ83XhCJEQo0INId08vP3xpF7/5Wynz81J56Oa5pCdoiUUkVCjQg0R9SydLV2xkzZ46bvtILt/82FSdxSISYhToQaCospEvLS+ktrmDB6+fxWcLcrwuSUQ8oEAPcK/vOsjSFZtIjI7g2TvOZ3ZOstcliYhHFOgByrm+r7v9zqoipo9O4tFbC/RdLCIhToEegLp7enlgVRHL39nPVdMy+dmNc4iN1F+lSKhTCgSY5o5ulq7YyJvFtSy5aDz3Lpyi88tFBFCgB5RDzR184fH1FFU18v1PzeTmBWO9LklEhhEFeoAoq2/llsfWUdXQxiO3nMtlUzK9LklEhhkFegDYVd3ILY+uo6O7lye/uIBzx+nKTxH5IAX6MLd+Xz2Ll60nNjKcZ+88n/zMBK9LEpFhSoE+jL1ZXMMdT2xgTHIMyxfPJzsl1uuSRGQYU6APU38pOsg/PLmRSZnxLL99vr72VkROSYE+DL28vZqlKzYyfXQiy29fQFJshNcliUgAUKAPM6u2VnL305uZlZ3Ef98+n8RohbmIDIy+jm8YeWFTBV9+ahNzxyazXGEuIqdJM/Rh4sXNFfzTM5tZkJfKo7fOIy5KfzUicnoGNEM3s4VmVmxmJWZ270n63GBmRWa2w8xW+LfM4Pbqjmq++swW5uWm8vht8xXmInJGTpkcZhYGPARcCZQD681spXOuqF+fScB9wAXOucNmljFYBQebt3bXsnTFJmaMSeKx2+YRExnmdUkiEqAGMkOfD5Q45/Y65zqBp4HrjuvzJeAh59xhAOdcjX/LDE7rSuv50vJCJmTEs/wL84nXzFxEzsJAAn0MUNZvu9zX1l8+kG9mb5vZu2a28ES/yMyWmFmhmRXW1taeWcVBYmv5EW5ftp7RyTE8sXi+Tk0UkbPmr7NcwoFJwCXATcAjZvaBW+c45x52zhU45wrS09P99NKBZ9+hFr7w+HqSYyNY8cXzSNNFQyLiBwMJ9Aqg/00qs31t/ZUDK51zXc65UuA9+gJejnOouYNbH19Hr3Msv30+o5J0lyER8Y+BBPp6YJKZ5ZlZJHAjsPK4Pi/QNzvHzNLoW4LZ68c6g0JLRze3L1vPwcZ2HrttHuPT470uSUSCyCkD3TnXDSwFXgF2As8453aY2QNmtsjX7RWgzsyKgDeAbzjn6gar6EDU1dPLXSs2sr2igYdunss5Y1O8LklEgow55zx54YKCAldYWOjJaw815xz3PLeVZwrL+cGnZ3LTfN1pSETOjJltcM4VnGifLv0fAo+8tZdnCsv58mUTFeYiMmgU6IPstZ0H+cFLu/jYzCy+ckW+1+WISBBToA+i4uomvvzUJqaPTuQ/PzubESPM65JEJIgp0AdJfUsnX1y+nriocB65pUCX9IvIoNO15oOgs7uXO3+7gYONHTxzx/lkJcV4XZKIhADN0AfB91fvZF1pPQ9eP4s5OR+4YFZEZFAo0P1s5ZZKlq3Zx+0X5HHdnOO/8kZEZPAo0P1o98Em7n1uKwXjUrjv2ilelyMiIUaB7ifNHd3c+dsNxEaG8f9unktEmN5aERlaOijqB8457n1uK6WHWnjyi+fpC7dExBOaRvrB79aXsWprFV+/ejLnTxjpdTkiEqIU6GeppKaZb/+xiAsnpnHnRRO8LkdEQpgC/Sy0d/Xwj09tIiYyjJ/coCtBRcRbWkM/Cz96eRc7qxp59NYCMhK1bi4i3tIM/Qy9UVzD42/v47aP5HL51EyvyxERUaCfiSOtndzz+61Mzkzg3mt0vrmIDA9acjkD31q5g/qWTh67bR7REfrSLREZHjRDP00vb6/mhc2V3HXpRGaMSfK6HBGRYxTop6G+pZN/fWEb07ISWXrZRK/LERF5Hy25nIb7X9xOQ1sXTyxeoEv7RWTYUSoN0Mvbq1m1tYq7L5/E1KxEr8sREfkABfoANHd0862VO5gyKoE7LtbVoCIyPGnJZQB+8up7HGxq56HP6VsURWT4UjqdwvaKBpatKeWm+WM5d1yK1+WIiJyUAv1D9PQ6vvn8NlLjIrnnal1AJCLDmwL9Qzy5dj9byhv4t49PIyk2wutyREQ+lAL9JA41d/Dgy8VcODGNRbNHe12OiMgpKdBP4sevvkdbVw/fWjQdM30trogMfwr0EyiqbOR36w/w9+ePY2JGvNfliIgMiAL9OM45vrOqiMSYCL5yeb7X5YiIDJgC/TivFh3knb11fPXKfB0IFZGAokDvp7O7l++v3smkjHhunj/W63JERE6LAr2fp9YdYH9dK//ysamE64pQEQkwA0otM1toZsVmVmJm935Iv8+YmTOzAv+VODRaO7v55eslzM9L5ZL8dK/LERE5bacMdDMLAx4CrgGmATeZ2bQT9EsA7gbW+rvIofD42/s41NzBPQsn6zRFEQlIA5mhzwdKnHN7nXOdwNPAdSfo9x3gR0C7H+sbEkdaO/n1X/dwxdQMzh2X6nU5IiJnZCCBPgYo67dd7ms7xszmAjnOuT992C8ysyVmVmhmhbW1tadd7GD59V/30tzRzdevnux1KSIiZ+ysj/yZ2QjgJ8DXTtXXOfewc67AOVeQnj481qlrmtpZtqaU62aPZsoo3bhCRALXQAK9Asjpt53tazsqAZgBvGlm+4DzgJWBcmD00bdK6ezu5StX6CIiEQlsAwn09cAkM8szs0jgRmDl0Z3OuQbnXJpzLtc5lwu8CyxyzhUOSsV+dLilk9++u59PzB5Nblqc1+WIiJyVUwa6c64bWAq8AuwEnnHO7TCzB8xs0WAXOJgeX7OPls4e7rp0oteliIictQHdgs45txpYfVzb/Sfpe8nZlzX4mtq7WPZ2KVdPzyQ/M8HrckREzlrIXg75xLv7aWzvZumlk7wuRUTEL0Iy0Ns6e3j0rVIuzk9nZnaS1+WIiPhFSAb67zeWU9fSqbVzEQkqIRfovb2Ox98uZVZ2EvNyU7wuR0TEb0Iu0P/6Xi17a1u4/YI8fWeLiASVkAv0R/9WSmZiFNfOzPK6FBERvwqpQC+ubuJvJYe45fxcIsNDaugiEgJCKtUef7uU6IgRuhuRiASlkAn0xvYuXtxcyaLZo0mJi/S6HBERvwuZQH9xcyVtXT3cvGCc16WIiAyKkAh05xwr1h5gWlYis3UhkYgEqZAI9C3lDeysauSmBWN1qqKIBK2QCPQVa/cTGxnGJ+eM9roUEZFBE/SB3tTexR+3VLFo9mgSoiO8LkdEZNAEfaC/tL2atq4ePluQc+rOIiIBLOgD/YVNFYwbGcvcsclelyIiMqiCOtCrG9p5Z28dn5wzRgdDRSToBXWgr9xSgXPwyXPGeF2KiMigC+pAf35TJXNyksnTDaBFJAQEbaDvqm5kZ1WjTlUUkZARtIH+4uZKwkYYH5+tQBeR0BCUge6c46VtVXxkwkjS4qO8LkdEZEgEZaC/d7CZfXWtLJwxyutSRESGTFAG+svbqzGDK6dlel2KiMiQCc5A31FNwbgUMhKivS5FRGTIBF2g769rYWdVI1dP13KLiISWoAv0PxcdBFCgi0jICbpAf6O4hsmZCeSkxnpdiojIkAqqQG/p6GZ96WEumZzudSkiIkMuqAJ9zZ46Ont6uThfgS4ioSeoAv3N4hriIsMoyE31uhQRkSEXNIHunOPN4lo+MjGNyPCgGZaIyIAFTfLtqW2m4kib1s9FJGQFTaC/XVIHwEWTFOgiEpoGFOhmttDMis2sxMzuPcH+r5pZkZltNbPXzGyc/0v9cGtL6xiTHKPTFUUkZJ0y0M0sDHgIuAaYBtxkZtOO67YJKHDOzQJ+D/yHvwv9MM451pXWMz9PB0NFJHQNZIY+Hyhxzu11znUCTwPX9e/gnHvDOdfq23wXyPZvmR9uT20Lh5o7WaBAF5EQNpBAHwOU9dsu97WdzGLgpRPtMLMlZlZoZoW1tbUDr/IU1pb2rZ8vGD/Sb79TRCTQ+PWgqJl9HigAHjzRfufcw865AudcQXq6/w5ert1bT0ZCFLkjtX4uIqErfAB9KoCcftvZvrb3MbMrgG8CFzvnOvxT3qk551hbWseC8SMxs6F6WRGRYWcgM/T1wCQzyzOzSOBGYGX/DmZ2DvBfwCLnXI3/yzy5svo2DjZ2aP1cRELeKQPdOdcNLAVeAXYCzzjndpjZA2a2yNftQSAeeNbMNpvZypP8Or/bVHYYgLljU4bqJUVEhqWBLLngnFsNrD6u7f5+z6/wc10DtqWsgeiIEeRnxntVgojIsBDwV4puKT/CzDFJhIcF/FBERM5KQKdgV08v2ysamJ2d7HUpIiKeC+hAL65uoqO7l1k5CnQRkYAO9G0VDQDMzk7yuBIREe8FdKDvqmokPiqcnBRdUCQiEtCBvrO6ifzMeEaM0AVFIiIBG+jOOYqrm5iSleh1KSIiw0LABnp1YzsNbV1MHZXgdSkiIsNCwAb6rqomACaP0gxdRAQCOdCrjwa6ZugiIhDAgb77YBNZSdEkxUR4XYqIyLAQsIG+r66FvLQ4r8sQERk2AjjQWxk3UoEuInJUQAZ6Q1sX9S2dukORiEg/ARnoB+r67ketGbqIyP8JyEDfV9cCQG6aZugiIkcFZKDv9wX62FQFuojIUQEZ6PvqWslMjCI2ckA3XBIRCQkBGej761rI1fq5iMj7BGSgl9W3ka2vzBUReZ+AC/SeXkdtcwdZSdFelyIiMqwEXKAfau6gp9eRqUAXEXmfgAv06oZ2AEYlKtBFRPoLvEBvVKCLiJxI4AW6b4aemRTlcSUiIsNLwAV6VlI0V07LJC1OgS4i0l/AXZlz1fRRXDV9lNdliIgMOwE3QxcRkRNToIuIBAkFuohIkFCgi4gECQW6iEiQUKCLiAQJBbqISJBQoIuIBAlzznnzwma1wP4z/ONpwCE/lhMoNO7QEYpjhtAc9+mOeZxzLv1EOzwL9LNhZoXOuQKv6xhqGnfoCMUxQ2iO259j1pKLiEiQUKCLiASJQA30h70uwCMad+gIxTFDaI7bb2MOyDV0ERH5oECdoYuIyHEU6CIiQSLgAt3MFppZsZmVmNm9XtfjT2b2mJnVmNn2fm2pZvZnM9vt+5niazcz+4XvfdhqZnO9q/zMmVmOmb1hZkVmtsPM7va1B+24zSzazNaZ2RbfmL/ta88zs7W+sf3OzCJ97VG+7RLf/lwv6z9bZhZmZpvMbJVvO+jHbWb7zGybmW02s0Jfm98/4wEV6GYWBjwEXANMA24ys2neVuVXy4CFx7XdC7zmnJsEvObbhr73YJLvsQT41RDV6G/dwNecc9OA84C7fH+nwTzuDuAy59xsYA6w0MzOA34E/NQ5NxE4DCz29V8MHPa1/9TXL5DdDezstx0q477UOTen3znn/v+MO+cC5gGcD7zSb/s+4D6v6/LzGHOB7f22i4Es3/MsoNj3/L+Am07UL5AfwIvAlaEybiAW2AgsoO9qwXBf+7HPOvAKcL7vebivn3ld+xmON9sXXpcBqwALkXHvA9KOa/P7ZzygZujAGKCs33a5ry2YZTrnqnzPq4FM3/Ogey98/0t9DrCWIB+3b9lhM1AD/BnYAxxxznX7uvQf17Ex+/Y3ACOHtmK/+Rnwz0Cvb3skoTFuB7xqZhvMbImvze+f8YC7SXQoc845MwvK80zNLB54DviKc67RzI7tC8ZxO+d6gDlmlgw8D0zxuKRBZ2YfB2qccxvM7BKv6xliFzrnKswsA/izme3qv9Nfn/FAm6FXADn9trN9bcHsoJllAfh+1vjag+a9MLMI+sL8SefcH3zNQT9uAOfcEeAN+pYaks3s6CSr/7iOjdm3PwmoG+JS/eECYJGZ7QOepm/Z5ecE/7hxzlX4ftbQ9x/w+QzCZzzQAn09MMl3VDwSuBFY6XFNg20lcKvv+a30rTEfbb/Fd0T8PKCh3/++BQzrm4o/Cux0zv2k366gHbeZpftm5phZDH3HDHbSF+zX+7odP+aj78X1wOvOt7gaSJxz9znnsp1zufT9233dOfc5gnzcZhZnZglHnwNXAdsZjM+41wcLzuDgwrXAe/StOX7T63r8PLangCqgi751s8X0rRm+BuwG/gKk+voafWf87AG2AQVe13+GY76QvvXFrcBm3+PaYB43MAvY5BvzduB+X/t4YB1QAjwLRPnao33bJb79470egx/eg0uAVaEwbt/4tvgeO47m1mB8xnXpv4hIkAi0JRcRETkJBbqISJBQoIuIBAkFuohIkFCgi4gECQW6iEiQUKCLiASJ/wV3U2v3oSw0yQAAAABJRU5ErkJggg==
"
>
</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">RAdam</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="c1">#The r factor is lower than 5 during the first 5 steps so updates use the average of gradients (all the same)</span>
<span class="n">r_inf</span> <span class="o">=</span> <span class="mi">2</span><span class="o">/</span><span class="p">(</span><span class="mi">1</span><span class="o">-</span><span class="mf">0.99</span><span class="p">)</span> <span class="o">-</span> <span class="mi">1</span>
<span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">5</span><span class="p">):</span> 
    <span class="n">r</span> <span class="o">=</span> <span class="n">r_inf</span> <span class="o">-</span> <span class="mi">2</span><span class="o">*</span><span class="p">(</span><span class="n">i</span><span class="o">+</span><span class="mi">1</span><span class="p">)</span><span class="o">*</span><span class="mf">0.99</span><span class="o">**</span><span class="p">(</span><span class="n">i</span><span class="o">+</span><span class="mi">1</span><span class="p">)</span><span class="o">/</span><span class="p">(</span><span class="mi">1</span><span class="o">-</span><span class="mf">0.99</span><span class="o">**</span><span class="p">(</span><span class="n">i</span><span class="o">+</span><span class="mi">1</span><span class="p">))</span>
    <span class="k">assert</span> <span class="n">r</span> <span class="o">&lt;=</span> <span class="mi">5</span>
    <span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">p</span> <span class="o">=</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.95</span><span class="p">,</span> <span class="mf">1.9</span><span class="p">,</span> <span class="mf">2.85</span><span class="p">])</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">p</span><span class="p">)</span>

<span class="c1">#The r factor is greater than 5 for the sixth step so we update with RAdam</span>
<span class="n">r</span> <span class="o">=</span> <span class="n">r_inf</span> <span class="o">-</span> <span class="mi">2</span><span class="o">*</span><span class="mi">6</span><span class="o">*</span><span class="mf">0.99</span><span class="o">**</span><span class="mi">6</span><span class="o">/</span><span class="p">(</span><span class="mi">1</span><span class="o">-</span><span class="mf">0.99</span><span class="o">**</span><span class="mi">6</span><span class="p">)</span>
<span class="k">assert</span> <span class="n">r</span> <span class="o">&gt;</span> <span class="mi">5</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">v</span> <span class="o">=</span> <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(((</span><span class="n">r</span><span class="o">-</span><span class="mi">4</span><span class="p">)</span> <span class="o">*</span> <span class="p">(</span><span class="n">r</span><span class="o">-</span><span class="mi">2</span><span class="p">)</span> <span class="o">*</span> <span class="n">r_inf</span><span class="p">)</span><span class="o">/</span><span class="p">((</span><span class="n">r_inf</span><span class="o">-</span><span class="mi">4</span><span class="p">)</span><span class="o">*</span><span class="p">(</span><span class="n">r_inf</span><span class="o">-</span><span class="mi">2</span><span class="p">)</span><span class="o">*</span><span class="n">r</span><span class="p">))</span>
<span class="n">step</span> <span class="o">=</span> <span class="o">-</span><span class="mf">0.1</span><span class="o">*</span><span class="mf">0.1</span><span class="o">*</span><span class="n">v</span><span class="o">/</span><span class="p">(</span><span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(</span><span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">p</span><span class="o">+</span><span class="n">step</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="QHAdam">QHAdam<a class="anchor-link" href="#QHAdam"> </a></h3>
</div>
</div>
</div>
<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>QHAdam (for Quasi-Hyperbolic Adam) was introduced by Ma &amp; Yarats in <a href="https://arxiv.org/pdf/1810.06801.pdf">Quasi-Hyperbolic Momentum and Adam for Deep Learning</a> as a <em>"computationally cheap, intuitive to interpret, and simple to implement"</em> optimizer. Additional code can be found in their <a href="https://github.com/facebookresearch/qhoptim">qhoptim repo</a>. QHAdam is based on QH-Momentum, which introduces the immediate discount factor <code>nu</code>, encapsulating plain SGD (<code>nu = 0</code>) and momentum (<code>nu = 1</code>). QH-Momentum is defined below, where g_t+1 is the update of the moment. An interpretation of QHM is as a nu-weighted average of the momentum update step and the plain SGD update step.</p>
<blockquote><p>θ_t+1 ← θ_t − lr * [(1 − nu) · ∇L_t(θ_t) + nu · g_t+1]</p>
</blockquote>
<p>QHAdam takes the concept behind QHM above and applies it to Adam, replacing both of Adam’s moment estimators with quasi-hyperbolic terms.</p>
<p>The paper's suggested default parameters are <code>mom = 0.999</code>, <code>sqr_mom = 0.999</code>, <code>nu_1 = 0.7</code> and <code>and nu_2 = 1.0</code>. When training is not stable, it is possible that setting <code>nu_2 &lt; 1</code> can improve stability by imposing a tighter step size bound. Note that QHAdam recovers Adam when <code>nu_1 = nu_2 = 1.0</code>. QHAdam recovers RMSProp (Hinton et al., 2012) when <code>nu_1 = 0</code> and <code>nu_2 = 1</code>, and NAdam (Dozat, 2016) when <code>nu_1 = mom</code> and <code>nu_2 = 1</code>.</p>
<p>Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="qhadam_step" class="doc_header"><code>qhadam_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L222" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>qhadam_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>, <strong><code>sqr_mom</code></strong>, <strong><code>sqr_avg</code></strong>, <strong><code>nu_1</code></strong>, <strong><code>nu_2</code></strong>, <strong><code>step</code></strong>, <strong><code>grad_avg</code></strong>, <strong><code>eps</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="QHAdam" class="doc_header"><code>QHAdam</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L233" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>QHAdam</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.999</code></em>, <strong><code>sqr_mom</code></strong>=<em><code>0.999</code></em>, <strong><code>nu_1</code></strong>=<em><code>0.7</code></em>, <strong><code>nu_2</code></strong>=<em><code>1.0</code></em>, <strong><code>eps</code></strong>=<em><code>1e-08</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>An <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for Adam with <code>lr</code>, <code>mom</code>, <code>sqr_mom</code>, <code>nus</code>, eps<code>and</code>params`</p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">QHAdam</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">step</span> <span class="o">=</span> <span class="o">-</span><span class="mf">0.1</span> <span class="o">*</span> <span class="p">(((</span><span class="mi">1</span><span class="o">-</span><span class="mf">0.7</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span><span class="p">)</span> <span class="o">+</span> <span class="p">(</span><span class="mf">0.7</span> <span class="o">*</span> <span class="mf">0.1</span><span class="p">))</span> <span class="o">/</span> <span class="p">(</span>
     <span class="n">math</span><span class="o">.</span><span class="n">sqrt</span><span class="p">(((</span><span class="mi">1</span><span class="o">-</span><span class="mf">1.0</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">)</span> <span class="o">+</span> <span class="p">(</span><span class="mf">1.0</span> <span class="o">*</span> <span class="mf">0.1</span><span class="o">**</span><span class="mi">2</span><span class="p">))</span> <span class="o">+</span> <span class="mf">1e-8</span><span class="p">)</span> 
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="n">step</span><span class="p">,</span> <span class="mi">3</span><span class="o">+</span><span class="n">step</span><span class="p">]))</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">,</span> <span class="mi">2</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">,</span> <span class="mi">3</span><span class="o">+</span><span class="mi">2</span><span class="o">*</span><span class="n">step</span><span class="p">]),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="LARS/LARC">LARS/LARC<a class="anchor-link" href="#LARS/LARC"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="larc_layer_lr" class="doc_header"><code>larc_layer_lr</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L242" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>larc_layer_lr</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>trust_coeff</code></strong>, <strong><code>wd</code></strong>, <strong><code>eps</code></strong>, <strong><code>clip</code></strong>=<em><code>True</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Computes the local lr before weight decay is applied</p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="larc_step" class="doc_header"><code>larc_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L251" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>larc_step</code>(<strong><code>p</code></strong>, <strong><code>local_lr</code></strong>, <strong><code>grad_avg</code></strong>=<em><code>None</code></em>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for LARC <code>local_lr</code> on <code>p</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Larc" class="doc_header"><code>Larc</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L256" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Larc</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.9</code></em>, <strong><code>clip</code></strong>=<em><code>True</code></em>, <strong><code>trust_coeff</code></strong>=<em><code>0.02</code></em>, <strong><code>eps</code></strong>=<em><code>1e-08</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for Adam with <code>lr</code>, <code>mom</code>, <code>sqr_mom</code>, <code>eps</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>The LARS optimizer was first introduced in <a href="https://arxiv.org/abs/1708.03888">Large Batch Training of Convolutional Networks</a> then refined in its LARC variant (original LARS is with <code>clip=False</code>). A learning rate is computed for each individual layer with a certain <code>trust_coefficient</code>, then clipped to be always less than <code>lr</code>.</p>
<p>Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="p">[</span><span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">]),</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.01</span><span class="p">,</span><span class="mf">0.02</span><span class="p">,</span><span class="mf">0.03</span><span class="p">])]</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Larc</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="c1">#First param local lr is 0.02 &lt; lr so it&#39;s not clipped</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">]][</span><span class="s1">&#39;local_lr&#39;</span><span class="p">],</span> <span class="mf">0.02</span><span class="p">)</span>
<span class="c1">#Second param local lr is 0.2 &gt; lr so it&#39;s clipped</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">]][</span><span class="s1">&#39;local_lr&#39;</span><span class="p">],</span> <span class="mf">0.1</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.998</span><span class="p">,</span><span class="mf">1.996</span><span class="p">,</span><span class="mf">2.994</span><span class="p">]))</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.999</span><span class="p">,</span><span class="mf">1.998</span><span class="p">,</span><span class="mf">2.997</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="p">[</span><span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">]),</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.01</span><span class="p">,</span><span class="mf">0.02</span><span class="p">,</span><span class="mf">0.03</span><span class="p">])]</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Larc</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">,</span> <span class="n">clip</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="c1">#No clipping</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">]][</span><span class="s1">&#39;local_lr&#39;</span><span class="p">],</span> <span class="mf">0.02</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">opt</span><span class="o">.</span><span class="n">state</span><span class="p">[</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">]][</span><span class="s1">&#39;local_lr&#39;</span><span class="p">],</span> <span class="mf">0.2</span><span class="p">)</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.998</span><span class="p">,</span><span class="mf">1.996</span><span class="p">,</span><span class="mf">2.994</span><span class="p">]))</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">1</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.998</span><span class="p">,</span><span class="mf">1.996</span><span class="p">,</span><span class="mf">2.994</span><span class="p">]))</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<h3 id="LAMB">LAMB<a class="anchor-link" href="#LAMB"> </a></h3>
</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="lamb_step" class="doc_header"><code>lamb_step</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L265" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>lamb_step</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>, <strong><code>step</code></strong>, <strong><code>sqr_mom</code></strong>, <strong><code>grad_avg</code></strong>, <strong><code>sqr_avg</code></strong>, <strong><code>eps</code></strong>, <strong>**<code>kwargs</code></strong>)</p>
</blockquote>
<p>Step for LAMB with <code>lr</code> on <code>p</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="Lamb" class="doc_header"><code>Lamb</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L278" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>Lamb</code>(<strong><code>params</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.9</code></em>, <strong><code>sqr_mom</code></strong>=<em><code>0.99</code></em>, <strong><code>eps</code></strong>=<em><code>1e-05</code></em>, <strong><code>wd</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>A <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> for Adam with <code>lr</code>, <code>mom</code>, <code>sqr_mom</code>, <code>eps</code> and <code>params</code></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>LAMB was introduced in <a href="https://arxiv.org/abs/1904.00962">Large Batch Optimization for Deep Learning: Training BERT in 76 minutes</a>. Intuitively, it's LARC applied to Adam. As in <a href="/optimizer.html#Adam"><code>Adam</code></a>, we renamed <code>beta1</code> and <code>beta2</code> in the paper to <code>mom</code> and  <code>sqr_mom</code>. Note that our defaults also differ from the paper (0.99 for <code>sqr_mom</code> or <code>beta2</code>, 1e-5 for <code>eps</code>). Those values seem to be better from our experiments in a wide range of situations.</p>
<p>Optional weight decay of <code>wd</code> is applied, as true weight decay (decay the weights directly) if <code>decouple_wd=True</code> else as L2 regularization (add the decay to the gradients).</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Lamb</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">)</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">tensor</span><span class="p">([</span><span class="mf">0.7840</span><span class="p">,</span><span class="mf">1.7840</span><span class="p">,</span><span class="mf">2.7840</span><span class="p">]),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

<div class="cell border-box-sizing text_cell rendered"><div class="inner_cell">
<div class="text_cell_render border-box-sizing rendered_html">
<p>Lookahead was introduced by Zhang et al. in <a href="https://arxiv.org/abs/1907.08610">Lookahead Optimizer: k steps forward, 1 step back</a>. It can be run on top of any optimizer and consists in having the final weights of the model be a moving average. In practice, we update our model using the internal optimizer but keep a copy of old weights that and every <code>k</code> steps, we change the weights by a moving average of the <em>fast weights</em> (the ones updated by the inner optimizer) with the <em>slow weights</em> (the copy of old weights). Those <em>slow weights</em> act like a stability mechanism.</p>

</div>
</div>
</div>
    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h2 id="Lookahead" class="doc_header"><code>class</code> <code>Lookahead</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L287" class="source_link" style="float:right">[source]</a></h2><blockquote><p><code>Lookahead</code>(<strong><code>opt</code></strong>, <strong><code>k</code></strong>=<em><code>6</code></em>, <strong><code>alpha</code></strong>=<em><code>0.5</code></em>) :: <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a></p>
</blockquote>
<p>Wrap <code>opt</code> in a lookahead optimizer</p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">params</span> <span class="o">=</span> <span class="n">tst_param</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">p</span><span class="p">,</span><span class="n">g</span> <span class="o">=</span> <span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">tensor</span><span class="p">([</span><span class="mf">0.1</span><span class="p">,</span><span class="mf">0.2</span><span class="p">,</span><span class="mf">0.3</span><span class="p">])</span>
<span class="n">opt</span> <span class="o">=</span> <span class="n">Lookahead</span><span class="p">(</span><span class="n">SGD</span><span class="p">(</span><span class="n">params</span><span class="p">,</span> <span class="n">lr</span><span class="o">=</span><span class="mf">0.1</span><span class="p">))</span>
<span class="k">for</span> <span class="n">k</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">5</span><span class="p">):</span> <span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="c1">#first 5 steps are normal SGD steps</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">p</span> <span class="o">-</span> <span class="mf">0.5</span><span class="o">*</span><span class="n">g</span><span class="p">)</span>
<span class="c1">#Since k=6, sixth step is a moving average of the 6 SGD steps with the initial weight</span>
<span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
<span class="n">test_close</span><span class="p">(</span><span class="n">params</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="n">p</span> <span class="o">*</span> <span class="mf">0.5</span> <span class="o">+</span> <span class="p">(</span><span class="n">p</span><span class="o">-</span><span class="mf">0.6</span><span class="o">*</span><span class="n">g</span><span class="p">)</span> <span class="o">*</span> <span class="mf">0.5</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="ranger" class="doc_header"><code>ranger</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L327" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>ranger</code>(<strong><code>p</code></strong>, <strong><code>lr</code></strong>, <strong><code>mom</code></strong>=<em><code>0.95</code></em>, <strong><code>wd</code></strong>=<em><code>0.01</code></em>, <strong><code>eps</code></strong>=<em><code>1e-06</code></em>, <strong><code>sqr_mom</code></strong>=<em><code>0.99</code></em>, <strong><code>beta</code></strong>=<em><code>0.0</code></em>, <strong><code>decouple_wd</code></strong>=<em><code>True</code></em>)</p>
</blockquote>
<p>Convenience method for <a href="/optimizer.html#Lookahead"><code>Lookahead</code></a> with <a href="/optimizer.html#RAdam"><code>RAdam</code></a></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="detuplify_pg" class="doc_header"><code>detuplify_pg</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L333" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>detuplify_pg</code>(<strong><code>d</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">tst</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">,</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]}</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">detuplify_pg</span><span class="p">(</span><span class="n">tst</span><span class="p">),</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">})</span>
<span class="n">tst</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;betas&#39;</span><span class="p">:</span> <span class="p">(</span><span class="mf">0.9</span><span class="p">,</span><span class="mf">0.999</span><span class="p">),</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]}</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">detuplify_pg</span><span class="p">(</span><span class="n">tst</span><span class="p">),</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;betas__0&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">,</span> <span class="s1">&#39;betas__1&#39;</span><span class="p">:</span> <span class="mf">0.999</span><span class="p">})</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h4 id="set_item_pg" class="doc_header"><code>set_item_pg</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L342" class="source_link" style="float:right">[source]</a></h4><blockquote><p><code>set_item_pg</code>(<strong><code>pg</code></strong>, <strong><code>k</code></strong>, <strong><code>v</code></strong>)</p>
</blockquote>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">tst</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">,</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]}</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">set_item_pg</span><span class="p">(</span><span class="n">tst</span><span class="p">,</span> <span class="s1">&#39;lr&#39;</span><span class="p">,</span> <span class="mf">1e-3</span><span class="p">),</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">,</span> <span class="s1">&#39;mom&#39;</span><span class="p">:</span> <span class="mf">0.9</span><span class="p">,</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]})</span>
<span class="n">tst</span> <span class="o">=</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;betas&#39;</span><span class="p">:</span> <span class="p">(</span><span class="mf">0.9</span><span class="p">,</span><span class="mf">0.999</span><span class="p">),</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]}</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">set_item_pg</span><span class="p">(</span><span class="n">tst</span><span class="p">,</span> <span class="s1">&#39;betas__0&#39;</span><span class="p">,</span> <span class="mf">0.95</span><span class="p">),</span> <span class="p">{</span><span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">,</span> <span class="s1">&#39;betas&#39;</span><span class="p">:</span> <span class="p">(</span><span class="mf">0.95</span><span class="p">,</span><span class="mf">0.999</span><span class="p">),</span> <span class="s1">&#39;params&#39;</span><span class="p">:[</span><span class="mi">0</span><span class="p">,</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">]})</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">

<div class="output_wrapper">
<div class="output">

<div class="output_area">


<div class="output_markdown rendered_html output_subarea ">
<h2 id="OptimWrapper" class="doc_header"><code>class</code> <code>OptimWrapper</code><a href="https://github.com/fastai/fastai/tree/master/fastai/optimizer.py#L353" class="source_link" style="float:right">[source]</a></h2><blockquote><p><code>OptimWrapper</code>(<strong><code>opt</code></strong>, <strong><code>hp_map</code></strong>=<em><code>None</code></em>) :: <code>_BaseOptimizer</code></p>
</blockquote>
<p>Common functionality between <a href="/optimizer.html#Optimizer"><code>Optimizer</code></a> and <a href="/optimizer.html#OptimWrapper"><code>OptimWrapper</code></a></p>

</div>

</div>

</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">sgd</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">([</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">])],</span> <span class="n">lr</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">,</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">)</span>
<span class="n">tst_sgd</span> <span class="o">=</span> <span class="n">OptimWrapper</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">SGD</span><span class="p">([</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">])],</span> <span class="n">lr</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">,</span> <span class="n">momentum</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">))</span>
<span class="c1">#Access to param_groups</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="n">sgd</span><span class="o">.</span><span class="n">param_lists</span><span class="p">)</span>
<span class="c1">#Set param_groups</span>
<span class="n">tst_sgd</span><span class="o">.</span><span class="n">param_lists</span> <span class="o">=</span> <span class="p">[[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])]]</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;params&#39;</span><span class="p">],</span> <span class="p">[</span><span class="n">tensor</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">)])</span>
<span class="c1">#Access to hypers</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="o">**</span><span class="n">sgd</span><span class="o">.</span><span class="n">hypers</span><span class="p">[</span><span class="mi">0</span><span class="p">],</span> <span class="s1">&#39;dampening&#39;</span><span class="p">:</span> <span class="mf">0.</span><span class="p">,</span> <span class="s1">&#39;nesterov&#39;</span><span class="p">:</span> <span class="kc">False</span><span class="p">}])</span>
<span class="c1">#Set hypers</span>
<span class="n">tst_sgd</span><span class="o">.</span><span class="n">set_hyper</span><span class="p">(</span><span class="s1">&#39;mom&#39;</span><span class="p">,</span> <span class="mf">0.95</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;momentum&#39;</span><span class="p">],</span> <span class="mf">0.95</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">tst_sgd</span> <span class="o">=</span> <span class="n">OptimWrapper</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">SGD</span><span class="p">([{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="p">[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">])],</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-3</span><span class="p">},</span> 
                                        <span class="p">{</span><span class="s1">&#39;params&#39;</span><span class="p">:</span> <span class="p">[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])],</span> <span class="s1">&#39;lr&#39;</span><span class="p">:</span> <span class="mf">1e-2</span><span class="p">}],</span> <span class="n">momentum</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">))</span>
<span class="n">sgd</span> <span class="o">=</span> <span class="n">SGD</span><span class="p">([[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">])],</span> <span class="p">[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])]],</span> <span class="n">lr</span><span class="o">=</span><span class="p">[</span><span class="mf">1e-3</span><span class="p">,</span> <span class="mf">1e-2</span><span class="p">],</span> <span class="n">mom</span><span class="o">=</span><span class="mf">0.9</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">)</span>
<span class="c1">#Access to param_groups</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">param_lists</span><span class="p">,</span> <span class="n">sgd</span><span class="o">.</span><span class="n">param_lists</span><span class="p">)</span>
<span class="c1">#Set param_groups</span>
<span class="n">tst_sgd</span><span class="o">.</span><span class="n">param_lists</span> <span class="o">=</span> <span class="p">[[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">])],</span> <span class="p">[</span><span class="n">tensor</span><span class="p">([</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">])]]</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">[</span><span class="mi">0</span><span class="p">][</span><span class="s1">&#39;params&#39;</span><span class="p">],</span> <span class="p">[</span><span class="n">tensor</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">,</span><span class="mi">6</span><span class="p">)])</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">[</span><span class="mi">1</span><span class="p">][</span><span class="s1">&#39;params&#39;</span><span class="p">],</span> <span class="p">[</span><span class="n">tensor</span><span class="p">(</span><span class="mi">1</span><span class="p">,</span><span class="mi">2</span><span class="p">,</span><span class="mi">3</span><span class="p">)])</span>
<span class="c1">#Access to hypers</span>
<span class="n">test_eq</span><span class="p">(</span><span class="n">tst_sgd</span><span class="o">.</span><span class="n">hypers</span><span class="p">,</span> <span class="p">[{</span><span class="o">**</span><span class="n">sgd</span><span class="o">.</span><span class="n">hypers</span><span class="p">[</span><span class="n">i</span><span class="p">],</span> <span class="s1">&#39;dampening&#39;</span><span class="p">:</span> <span class="mf">0.</span><span class="p">,</span> <span class="s1">&#39;nesterov&#39;</span><span class="p">:</span> <span class="kc">False</span><span class="p">}</span> <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">2</span><span class="p">)])</span>
<span class="c1">#Set hypers</span>
<span class="n">tst_sgd</span><span class="o">.</span><span class="n">set_hyper</span><span class="p">(</span><span class="s1">&#39;mom&#39;</span><span class="p">,</span> <span class="mf">0.95</span><span class="p">)</span>
<span class="n">test_eq</span><span class="p">([</span><span class="n">pg</span><span class="p">[</span><span class="s1">&#39;momentum&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">pg</span> <span class="ow">in</span> <span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">],</span> <span class="p">[</span><span class="mf">0.95</span><span class="p">,</span><span class="mf">0.95</span><span class="p">])</span>
<span class="n">tst_sgd</span><span class="o">.</span><span class="n">set_hyper</span><span class="p">(</span><span class="s1">&#39;lr&#39;</span><span class="p">,</span> <span class="p">[</span><span class="mf">1e-4</span><span class="p">,</span><span class="mf">1e-3</span><span class="p">])</span>
<span class="n">test_eq</span><span class="p">([</span><span class="n">pg</span><span class="p">[</span><span class="s1">&#39;lr&#39;</span><span class="p">]</span> <span class="k">for</span> <span class="n">pg</span> <span class="ow">in</span> <span class="n">tst_sgd</span><span class="o">.</span><span class="n">opt</span><span class="o">.</span><span class="n">param_groups</span><span class="p">],</span> <span class="p">[</span><span class="mf">1e-4</span><span class="p">,</span><span class="mf">1e-3</span><span class="p">])</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="k">def</span> <span class="nf">_mock_train</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">x</span><span class="p">,</span> <span class="n">y</span><span class="p">,</span> <span class="n">opt</span><span class="p">):</span>
    <span class="n">m</span><span class="o">.</span><span class="n">train</span><span class="p">()</span>
    <span class="k">for</span> <span class="n">i</span> <span class="ow">in</span> <span class="nb">range</span><span class="p">(</span><span class="mi">0</span><span class="p">,</span> <span class="mi">100</span><span class="p">,</span> <span class="mi">25</span><span class="p">):</span>
        <span class="n">z</span> <span class="o">=</span> <span class="n">m</span><span class="p">(</span><span class="n">x</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span><span class="o">+</span><span class="mi">25</span><span class="p">])</span>
        <span class="n">loss</span> <span class="o">=</span> <span class="n">F</span><span class="o">.</span><span class="n">mse_loss</span><span class="p">(</span><span class="n">z</span><span class="p">,</span> <span class="n">y</span><span class="p">[</span><span class="n">i</span><span class="p">:</span><span class="n">i</span><span class="o">+</span><span class="mi">25</span><span class="p">])</span>
        <span class="n">loss</span><span class="o">.</span><span class="n">backward</span><span class="p">()</span>
        <span class="n">opt</span><span class="o">.</span><span class="n">step</span><span class="p">()</span>
        <span class="n">opt</span><span class="o">.</span><span class="n">zero_grad</span><span class="p">()</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">m</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">)</span>
<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">)</span>
<span class="n">y</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">5</span><span class="p">)</span>
<span class="k">try</span><span class="p">:</span>
    <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span> <span class="s1">&#39;tmp.pth&#39;</span><span class="p">)</span>
    <span class="n">wgt</span><span class="p">,</span><span class="n">bias</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>

    <span class="n">m</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">))</span>
    <span class="n">opt1</span> <span class="o">=</span> <span class="n">OptimWrapper</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">AdamW</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">betas</span><span class="o">=</span><span class="p">(</span><span class="mf">0.9</span><span class="p">,</span> <span class="mf">0.99</span><span class="p">),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">))</span>
    <span class="n">_mock_train</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">y</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">opt1</span><span class="p">)</span>
    <span class="n">wgt1</span><span class="p">,</span><span class="n">bias1</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>

    <span class="n">m</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">))</span>
    <span class="n">opt2</span> <span class="o">=</span> <span class="n">Adam</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="mf">1e-3</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">)</span>
    <span class="n">_mock_train</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">y</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">opt2</span><span class="p">)</span>
    <span class="n">wgt2</span><span class="p">,</span><span class="n">bias2</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>
    
    <span class="n">test_close</span><span class="p">(</span><span class="n">wgt1</span><span class="p">,</span><span class="n">wgt2</span><span class="p">,</span><span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
    <span class="n">test_close</span><span class="p">(</span><span class="n">bias1</span><span class="p">,</span><span class="n">bias2</span><span class="p">,</span><span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
<span class="k">finally</span><span class="p">:</span> <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

    {% raw %}
    
<div class="cell border-box-sizing code_cell rendered">
<div class="input">

<div class="inner_cell">
    <div class="input_area">
<div class=" highlight hl-ipython3"><pre><span></span><span class="n">m</span> <span class="o">=</span> <span class="n">nn</span><span class="o">.</span><span class="n">Linear</span><span class="p">(</span><span class="mi">4</span><span class="p">,</span><span class="mi">5</span><span class="p">)</span>
<span class="n">x</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">4</span><span class="p">)</span>
<span class="n">y</span> <span class="o">=</span> <span class="n">torch</span><span class="o">.</span><span class="n">randn</span><span class="p">(</span><span class="mi">100</span><span class="p">,</span> <span class="mi">3</span><span class="p">,</span> <span class="mi">5</span><span class="p">)</span>
<span class="k">try</span><span class="p">:</span>
    <span class="n">torch</span><span class="o">.</span><span class="n">save</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">state_dict</span><span class="p">(),</span> <span class="s1">&#39;tmp.pth&#39;</span><span class="p">)</span>
    <span class="n">wgt</span><span class="p">,</span><span class="n">bias</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>

    <span class="n">m</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">))</span>
    <span class="n">opt1</span> <span class="o">=</span> <span class="n">OptimWrapper</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">optim</span><span class="o">.</span><span class="n">Adam</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="n">betas</span><span class="o">=</span><span class="p">(</span><span class="mf">0.9</span><span class="p">,</span> <span class="mf">0.99</span><span class="p">),</span> <span class="n">eps</span><span class="o">=</span><span class="mf">1e-5</span><span class="p">,</span> <span class="n">weight_decay</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">))</span>
    <span class="n">_mock_train</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">y</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">opt1</span><span class="p">)</span>
    <span class="n">wgt1</span><span class="p">,</span><span class="n">bias1</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>

    <span class="n">m</span><span class="o">.</span><span class="n">load_state_dict</span><span class="p">(</span><span class="n">torch</span><span class="o">.</span><span class="n">load</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">))</span>
    <span class="n">opt2</span> <span class="o">=</span> <span class="n">Adam</span><span class="p">(</span><span class="n">m</span><span class="o">.</span><span class="n">parameters</span><span class="p">(),</span> <span class="mf">1e-3</span><span class="p">,</span> <span class="n">wd</span><span class="o">=</span><span class="mf">1e-2</span><span class="p">,</span> <span class="n">decouple_wd</span><span class="o">=</span><span class="kc">False</span><span class="p">)</span>
    <span class="n">_mock_train</span><span class="p">(</span><span class="n">m</span><span class="p">,</span> <span class="n">x</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">y</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span> <span class="n">opt2</span><span class="p">)</span>
    <span class="n">wgt2</span><span class="p">,</span><span class="n">bias2</span> <span class="o">=</span> <span class="n">m</span><span class="o">.</span><span class="n">weight</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">(),</span><span class="n">m</span><span class="o">.</span><span class="n">bias</span><span class="o">.</span><span class="n">data</span><span class="o">.</span><span class="n">clone</span><span class="p">()</span>
    
    <span class="n">test_close</span><span class="p">(</span><span class="n">wgt1</span><span class="p">,</span><span class="n">wgt2</span><span class="p">,</span><span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
    <span class="n">test_close</span><span class="p">(</span><span class="n">bias1</span><span class="p">,</span><span class="n">bias2</span><span class="p">,</span><span class="n">eps</span><span class="o">=</span><span class="mf">1e-3</span><span class="p">)</span>
<span class="k">finally</span><span class="p">:</span> <span class="n">os</span><span class="o">.</span><span class="n">remove</span><span class="p">(</span><span class="s1">&#39;tmp.pth&#39;</span><span class="p">)</span>
</pre></div>

    </div>
</div>
</div>

</div>
    {% endraw %}

</div>