Hopfield Networks is All You Need

Short blog post to the paper: Hopfield Networks is All You Need, öffnet eine externe URL in einem neuen Fenster

For a much longer and detailed version go to our official blog post, öffnet eine externe URL in einem neuen Fenster.

Github link: https://github.com/ml-jku/hopfield-layers, öffnet eine externe URL in einem neuen Fenster

Main contributions

We introduce a new energy function and a corresponding new update rule which is guaranteed to converge to a local minimum of the energy function.

The new energy function is a generalization (discrete states -> continuous states) of the modern Hopfield networks introduced by Krotov&Hopfield, öffnet eine externe URL in einem neuen Fenster and Demircigil et al, öffnet eine externe URL in einem neuen Fenster.

The new Hopfield network with continuous states keeps the characteristics of their discrete counterparts: exponential storage capacity, extremely fast convergence.

Surprisingly, the new update rule is the attention mechanism of transformer networks, see the "Attention Is All You Need" paper of Vaswani et al, öffnet eine externe URL in einem neuen Fenster.

We use these new insights to analyze transformer models. We found out that they have different operating modes and prefer operating in higher energy minima, which are metastable states.

We therefore choose the title Hopfield Networks is All You Need.

A new energy function and a new update rule

We introduce a new energy function using the log-sum-exp function (lse)

\(\displaystyle \text{E} = - \text{lse}\left( -\beta, \boldsymbol{X}^T \mathbf{\xi} \right) + \frac{1}{2} \xi^T \xi + \beta^{-1} \text{log} N + \frac{1}{2} M^2 \ , \)

which is constructed from \(N\) continuous patterns by the matrix \(\boldsymbol{X} =(\boldsymbol{x}_1, ..., \boldsymbol{x}_N)\), where \(M\) is the largest norm of all patterns.

The state \(\xi\) is updated by the following new udpate rule:

\(\xi^{\text{new}} = \boldsymbol{X} \text{softmax} (\beta \boldsymbol{X}^T \xi) \).

We can now compare our new energy function to the discrete counterparts of Krotov&Hopfield, öffnet eine externe URL in einem neuen Fenster and Demircigil et al., öffnet eine externe URL in einem neuen Fenster, which are also composed of a sum of a function of the dot product of a pattern \(\boldsymbol{x}_i\) and a state \(\xi\):

\(\displaystyle \text{E} = - F(\boldsymbol{X}^T \xi) \quad \text{and} \quad \displaystyle \text{E} = -\text{exp} (\text{lse}(1,\boldsymbol{X}^T\xi)) \ .\)

The most important properties of our new energy function are:

Global convergence to a local minimum (Theorem 2)
Exponential storage capacity (Theorem 3)
Convergence after one update step (Theorem 4)

Exponential storage capacity and convergence after one update are inherited from Demircigil et al., öffnet eine externe URL in einem neuen Fenster

If we now (i) generalize the new update rule to multiple updates at once (\(\xi\) is replaced by the query matrix \(\boldsymbol{Q}\)), (ii) \(\boldsymbol{X}\) is denoted by \(\boldsymbol{K}\), and (iii) the result is multiplied by \(\boldsymbol{W}_V\) setting \(\boldsymbol{V} = \boldsymbol{W}_V \boldsymbol{K}\), we arrive at the self-attention of transformer networks.

Versatile Hopfield layer (beyond self-attention)

The new insights allow us to introduce a new PyTorch Hopfield layer which can be used as plug-in replacement for existing layers as well as for applications like multiple instance learning, set-based and permutation invariant learning, associative learning, and many more.

Additional functionalities of the new Hopfield layer compared to the transformer self-attention layer are:

Association of two sets
Variable Beta that determines the kind of fixed points
Multiple Updates for precise fixed points
Dimension of the associative space for controlling the storage capacity
Static Patterns for fixed pattern search
Pattern Normalization to control the fixed point dynamics by norm and shift of the patterns

If you want to test all these new functionalities in transformer models you can pass the Hopfield encoder layer and Hopfield decoder layer to the transformer encoder and transformer decoder modules.

For more information see Appendix C in our paper Hopfield Networks is All You Need, öffnet eine externe URL in einem neuen Fenster and our github repo https://github.com/ml-jku/hopfield-layers, öffnet eine externe URL in einem neuen Fenster .

Name	Zweck	Ablauf	Anbieter
CookieConsent	Speichert Ihre Einstellungen zur Verwendung von Cookies auf dieser Website.	1 Jahr	JKU
se_mode	Cookie für Einstellungen der Site Search	1 Jahr	JKU

Name	Zweck	Ablauf	Anbieter
_gcl_au	Wird verwendet, um zwischen User und Userverhalten zu unterscheiden.	3 Monate	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	Google
_gat_UA-112203476-1	Wird zum Drosseln der Anfragerate bei Google Analytics für Websites mit hohen Nutzerzahlen verwendet.	1 Minute	Google
_pk_id	Wird verwendet, um einige Details über den Benutzer zu speichern wie z.B. die eindeutige Besucher-ID.	13 Monate	JKU
_pk_ses	Kurzlebiges Cookie, welches verwendet wird, um Daten für den Besuch vorübergehend zu speichern.	30 Minuten	JKU
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	JKU

Name	Zweck	Ablauf	Anbieter
_gcl_au	Wird verwendet, um zwischen User und Userverhalten zu unterscheiden.	3 Monate	Google
_ga	Wird verwendet, um Benutzer zu unterscheiden.	2 Jahre	Google
_gid	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	Google
_gac_UA-112203476-1	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges von Google AdWords Kampagnen.	90 Tage	Google
test_cookie	Wird testweise gesetzt, um zu prüfen, ob der Browser das Setzen von Cookies erlaubt. Enthält keine Identifikationsmerkmale.	15 Minuten	Google
IDE	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann Google den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	1 Jahr	Google
_gcl_aw	Dieses Cookie wird gesetzt, wenn ein User über einen Klick auf eine Google Werbeanzeige auf die Website gelangt. Es enthält Informationen darüber, welche Werbeanzeige geklickt wurde, sodass erzielte Erfolge wie z.B. Bestellungen oder Kontaktanfragen der Anzeige zugewiesen werden können.	3 Monate	Google
AMCV_xx	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann die Adobe Marketing Cloud den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	3 Jahre	LinkedIn
bcookie	Enthält eine ID des Browsers.	2 Jahre	LinkedIn
bscookie	Enthält eine ID des Browsers bei einer sicheren Verbindung.	2 Jahre	LinkedIn
lang	Wird verwendet, um die Spracheinstellung des Besuchers zu speichern.	Session	LinkedIn
lidc	Wird verwendet, um Benutzer zu unterscheiden und die Nutzung der Website zu analysieren. Es werden anonyme Daten zur Anzahl von Besuchern, die besuchten Seiten und die Quelle des Zugriffes erfasst.	1 Tag	LinkedIn
lissc	Wird für die Analyse der Nutzung von eingebetteten Dienstleistungen verwendet.	1 Jahr	LinkedIn
UserMatchHistory	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges.	30 Tage	LinkedIn
fr	Enthält Kampagneninformationen und dient der Messung des Kampagnenerfolges.	90 Tage	Facebook
fbp	Wird von Facebook genutzt, um eine Reihe von Werbeprodukten anzuzeigen, zum Beispiel Echtzeitangebote dritter Werbetreibender.	90 Tage	Facebook
sc_at	Wird verwendet, um Benutzer über mehrere Domains hinweg zu unterscheiden.	1 Jahr	Snap
sc-country	Dieses Cookie unterscheidet das Land des Benutzers.	1 Tag	Snap
uid	Dieses Cookie enthält eine zufallsgenerierte User-ID und wird für das Ausspielen und die Echtzeitermittlung der Preise für Anzeigen für differenzierte Zielgruppen verwendet.	60 Tage	Adform
C	Identifiziert und speichert ob Nutzer Cookies akzeptieren. Wert 1: Cookies sind erlaubt, Wert 3: Cookies sind nicht erlaubt.	30 Tage	Adform