ALBERT: A Lite BERT for Self-supervised Learning of Language Representations: Difference between revisions

Revision as of 18:53, 2 November 2020

Maziar Dadbin

@@ Line 3: / Line 3: @@
 ==Introduction==
+== Motivation ==
+==Model details==
+===Factorized embedding parameterization===
+===Cross-layer parameter sharing===
+===Inter-sentence coherence loss===
+===Removing dropout===