Rede neural artificial

modelo computacional usado na aprendizaxe automática, baseado en funcións xerárquicas conectadas

As redes neurais artificiais (RNAs),[1][2] xeralmente chamadas simplemente redes neurais, son modelos informáticos utilizados dentro das disciplinas de intelixencia artificial e aprendizaxe automática inicialmente inspirados nas redes neurais biolóxicas dos cerebros animais.[3]

Unha rede neural artificial é un grupo de nodos interconectados, inspirados nunha simplificación das neuronas nun cerebro. Aquí, cada nodo circular representa unha neurona artificial e unha frecha representa unha conexión dende a saída dunha neurona artificial ata a entrada doutra.

Unha RNA baséase nunha colección de nodos conectados chamados neuronas artificiais, que modelan de forma vaga as neuronas do cerebro biolóxico. Cada conexión, como a sinapse dun cerebro biolóxico, pode transmitir sinais as demais neuronas. Unha neurona artificial recibe sinais e logo procésaos podendo despois sinalar as neuronas que teña conectadas. O "sinal" é un número real, e a saída de cada neurona calcúlase mediante algunha función non linear da suma das súas entradas. As "conexións" chámanse enlaces ou edges en inglés. As neuronas e os enlaces adoitan ter un peso ou weight que se axusta a medida que avanza a aprendizaxe. O peso aumenta ou diminúe a intensidade do sinal do enlace. As neuronas tamén poden ter un límite de maneira que só se envía un sinal se o sinal engadido pasa o límite asignado.

Normalmente, as neuronas están agregadas en capas. Diferentes capas poden realizar diferentes transformacións nas súas entradas. Os sinais viaxan dende a primeira capa (de entrada) ata a última capa (de saída), posiblemente despois de atravesar as capas varias veces.

Adestramento

editar

As redes neurais son adestradas procesando exemplos, cada un dos cales contén unha "entrada" e un "resultado" coñecidos, formando asociacións ponderadas por probabilidade entre ambos, que se almacenan dentro da estrutura de datos da propia rede. O adestramento dunha rede neural a partir dun exemplo dado adoita realizarse determinando a diferenza entre a saída procesada da rede (a miúdo unha predición) e unha saída obxectivo. Esta diferenza é o erro. A rede axusta entón as súas asociacións ponderadas segundo unha regra de aprendizaxe e utilizando este valor de erro. Os sucesivos axustes farán que a rede neural produza unha saída cada vez máis semellante á saída de destino. Despois dun número suficiente destes axustes, a formación pódese finalizar en función de determinados criterios. Esta é unha forma de aprendizaxe supervisada.

Estes sistemas "aprenden" a realizar tarefas considerando exemplos, xeralmente sen ser programados con regras específicas para tarefas. Por exemplo, no recoñecemento de imaxes, poden aprender a identificar imaxes que conteñan gatos analizando imaxes de exemplo que foron etiquetadas manualmente como "gato" ou "sen gato" e utilizando os resultados para identificar gatos noutras imaxes. Fan isto sen ningún coñecemento previo dos gatos, por exemplo, que teñen pelaxe, rabo ou bigotes. Pola contra, xeran automaticamente características de identificación a partir dos exemplos que procesan.

Historia

editar

Rede neural lineal

editar
 
Unha rede neural prealimentada dunha soa capa.

O tipo máis sinxelo de rede neural prealimentada (feed-forward neural network FNN) é unha rede lineal, que consiste nunha única capa de nodos de saída; as entradas son alimentadas directamente ás saídas mediante unha serie de pesos (weights). A suma dos produtos dos pesos e das entradas calcúlase en cada nodo. Os erros cuadráticos medios entre estas saídas calculadas e uns valores obxectivo determinados redúcense ao mínimo creando un axuste aos pesos. Esta técnica é coñecida desde hai máis de dous séculos como o método de mínimos cadrados lineais ou regresión linear. Legendre (1805) e Gauss (1795) utilizaron como medio para atopar un bo axuste lineal aproximado a un conxunto de puntos para a predición do movemento planetario.[4][5][6][7][8]

Arquitecturas de rede recorrentes

editar

Wilhelm Lenz e Ernst Ising crearon e analizaron o modelo de Ising (1925),[9] que é esencialmente unha rede neural recorrente (recurrent neural network RNN) sen aprendizaxe que consta de elementos similares ás neuronas.[7] En 1972, Shun'ichi Amari fixo esta arquitectura adaptativa.[10][7] A súa RNN foi popularizada por John Hopfield en 1982.[11]

Perceptróns e primeiras redes neurais

editar

Warren McCulloch e Walter Pitts[12] (1943) tamén consideraron un modelo computacional de non-aprendizaxe para redes neurais.[13] A finais da década de 1940, D. O. Hebb[14] creou unha hipótese de aprendizaxe baseada no mecanismo da plasticidade neural que se coñeceu como teoría hebbiana. Farley e Wesley A. Clark[15] (1954) utilizaron primeiro máquinas computacionais, entón chamadas "calculadoras", para simular unha rede hebbiana. En 1958, o psicólogo Frank Rosenblatt inventou o perceptrón, a primeira rede neural artificial implementada,[16][17][18][19] financiada pola Oficina de Investigación Naval dos Estados Unidos.[20]

Algúns din que o desenvolvemento estancou despois de Minsky e Papert (1969),[21] que descubriron que os perceptróns básicos eran incapaces de procesar o circuíto exclusivo e que os ordenadores carecían da potencia suficiente para procesar redes neurais útiles. Non obstante, cando saíu este libro, xa se coñecían métodos para adestrar perceptróns multicapa (MLP).

Primeiro deep learning

editar
Artigo principal: deep learning.

O primeiro MLP deep learning foi publicado por Alexey Grigorevich Ivakhnenko e Valentín Lapa en 1965, como o método de agrupamento para o manexo de datos.[22][23][24] O primeiro MLP de deep learning adestrado por descenso de gradiente estocástico[25] foi publicado en 1967 por Shun'ichi Amari.[26][7] En experimentos informáticos realizados por un dos alumnos de Amari, un MLP de cinco capas con dúas capas modificables aprendeu representacións internas útiles para clasificar clases de patróns non linealmente separables.[7]

Retropropagación

editar

O algoritmo de retropropagación é unha aplicación eficiente da regra da cadea de Leibniz (1673)[27] a redes de nodos diferenciables.[7] Tamén se coñece como o modo inverso de diferenciación automática ou acumulación inversa, debido a Seppo Linnainmaa (1970).[28][29][30][31][7] O termo "erros de propagación inversa" foi introducido en 1962 por Frank Rosenblatt,[32][7] pero non tiña unha implementación deste procedemento, aínda que Henry J. Kelley[33] e Bryson[34] tiñan unha programación dinámica baseada precursores continuos da retropropagación[22][35][36][37] xa en 1960 no contexto da teoría do control.[7] En 1973, Dreyfus utilizou a retropropagación para adaptar os parámetros dos controladores en proporción aos gradientes de erro. En 1982, Paul Werbos aplicou a retropropagación aos MLPs de xeito que se converteu no estándar.[38][35] En 1986 Rumelhart, Hinton e Williams demostraron que a retropropagación aprendeu interesantes representacións internas de palabras como vectores de características cando se adestraba para predicir a seguinte palabra nunha secuencia.[39]

Mapas autoorganizados

editar

Os mapas autoorganizados (SOMs) foron ideados por Teuvo Kohonen en 1982.[40][41] Os SOM son redes neurais de inspiración neurofisiolóxica[42] que aprenden representacións de baixa dimensión de datos de alta dimensión á vez que preservan a estrutura topolóxica dos datos. Adestran mediante a aprendizaxe competitiva.[40]

Rede neurais convolucionais (CNNs)

editar

A arquitectura da rede neural convolucional (CNN), con capas convolucionais e capas de compresión, foi introducida por Kunihiko Fukushima en 1980.[43] Chamouno neocognitron. En 1969, tamén introduciu a función de activación ReLU (unidade lineal rectificada).[44][7] O rectificador converteuse na función de activación máis popular para as CNN e as redes neurais de deep learning en xeral.[45] As CNN convertéronse nunha ferramenta esencial para a visión artificial.

A rede neural con retardo de tempo (TDNN) de Alex Waibel (1987) combinou convolucións e repartición de peso e retropropagación.[46][47] En 1988, Wei Zhang et al. aplicou a retropropagación a unha CNN (un Neocognitron simplificado con interconexións convolucionais entre as capas de características da imaxe e a última capa totalmente conectada) para o recoñecemento do alfabeto.[48][49] En 1989, Yann LeCun et al. adestrou a unha CNN para recoñecer os códigos postais escritos a man no correo.[50] En 1992, o max-pooling para CNN foi introducido por Juan Weng et al. para axudar coa invariancia de menor desprazamento e tolerancia á deformación para axudar ao recoñecemento de obxectos 3D.[51][52][53] LeNet-5 (1998), unha CNN de 7 niveis de Yann LeCun et al.,[54] que clasifica os díxitos, foi aplicada por varios bancos para recoñecer números escritos a man en cheques dixitalizados en imaxes de 32 x 32 píxeles.

A partir de 1988,[55][56] o uso de redes neurais transformou o campo da predición da estrutura das proteínas, en particular cando as primeiras redes en cascada foron adestradas en perfís (matrices) producidos por aliñamentos de secuencias múltiples.[57]

Na década de 1980, a retropropagación non funcionaba ben para o deep learning das FNN e RNN. Para superar este problema, Jürgen Schmidhuber (1992) propuxo unha xerarquía de RNNs adestradas previamente un nivel cada vez mediante a aprendizaxe autosupervisada.[58] Usa codificación preditiva para aprender representacións internas en múltiples escalas de tempo. Isto pode facilitar substancialmente o deep learning posterior. A xerarquía RNN pode colapsarse nun único RNN, destilando unha rede chunker de nivel superior nunha rede de automatización de nivel inferior.[58][7] En 1993, un chunker resolveu unha tarefa de deep learning cuxa profundidade superaba os 1000.[59]

Redes adversarias xerativas

editar

En 1991, Jürgen Schmidhuber tamén publicou redes neurais adversarias que compiten entre si en forma de xogo de suma cero, onde a ganancia dunha rede é a perda doutra.[60][61][62] A primeira rede é un modelo xenerativo que modela unha distribución de probabilidade sobre patróns de saída. A segunda rede aprende mediante o descenso en gradiente a predicir as reaccións do medio a estes patróns. Isto chamóuselle "curiosidade artificial".

En 2014, Ian Goodfellow et al. utilizaron este principio nunha rede adversaria xerativa (GAN).[63] Aquí a reacción ambiental é 1 ou 0 dependendo de se a saída da primeira rede está nun conxunto dado. Isto pódese usar para crear deepfakes realistas.[64] O StyleGAN (2018) de Nvidia consegue unha excelente calidade de imaxe,[65] baseado no Progressive GAN de Tero Karras, Timo Aila, Samuli Laine e Jaakko Lehtinen.[66] Aquí o xerador GAN crece de pequena a grande escala de maneira piramidal.

Transformadores e as súas variantes

editar

En 1992, Jürgen Schmidhuber tamén publicou unha alternativa ás RNNs[67] o que agora se chama transformador lineal ou transformador con auto-atención linealizada.[68][69][7] Aprende focos internos de atención:[70] unha rede neural prealimentada aprende mediante un descenso de gradientes a controlar os pesos rápidos doutra rede neural a través de produtos externos de patróns de activación autoxerados FROM e TO (que agora se denominan key e value para auto-atención).[68]

O transformador moderno foi introducido por Ashish Vaswani et. al. no seu artigo de 2017 "atención é todo o que precisas".[71] Combinao cun operador softmax e unha matriz de proxección.[7] Os transformadores convertéronse cada vez máis no modelo de elección para o procesamento da linguaxe natural.[72] Moitos modelos modernos de grandes linguaxes como ChatGPT, GPT-4 e BERT utilízano. Os transformadores tamén se usan cada vez máis na visión por ordenador.[73]

O problema de desvanecemento de gradiente

editar

A tese de Sepp Hochreiter (1991)[74] foi denominada "un dos documentos máis importantes da historia da aprendizaxe automática" polo seu supervisor Jürgen Schmidhuber.[7] Hochreiter identificou e analizou o problema de desvanecemento de gradiente[74][75] e propuxo conexións residuais recorrentes para resolvelo. Isto levou ao método de deep learning chamado memoria longa a curto prazo (LSTM), publicado en Neural Computation (1997).[76] As redes neurais recorrentes LSTM poden aprender tarefas de "very deep learning"[77] con longos camiños de asignación de créditos que requiren memorias de eventos que ocorreron miles de pasos de tempo antes. A "vanilla LSTM" con porta de esquecemento foi introducida en 1999 por Felix Gers, Schmidhuber e Fred Cummins.[78] LSTM converteuse na rede neural máis citada do século XX.[7] En 2015, Rupesh Kumar Srivastava, Klaus Greff e Schmidhuber utilizaron o principio LSTM para crear a Highway network, unha rede neural prealimentada con centos de capas, moito máis profunda que as redes anteriores.[79][80] Sete meses despois, Kaiming He, Xiangyu Zhang; Shaoqing Ren e Jian Sun gañaron a competición ImageNet 2015 cunha variante de Highway network de porta-aberta ou sen porta chamada rede neural residual.[81] Esta converteuse na rede neural máis citada do século XXI.[7]

Deseños baseados en hardware

editar

O desenvolvemento da integración a moi grande escala (VLSI) de metal-óxido-semicondutores (MOS), en forma de tecnoloxía MOS complementaria (CMOS), permitiu aumentar a conta de transistores MOS na electrónica dixital. Isto proporcionou máis potencia de procesamento para o desenvolvemento de redes neurais artificiais na década de 1980.[82]

Os primeiros éxitos das redes neurais incluíron a predición do mercado de valores e en 1995 un vehículo practicamente autónomo.[83]

Geoffrey Hinton et al. (2006) propuxeron aprender unha representación de alto nivel utilizando capas sucesivas de variables latentes binarias ou de valor real cunha máquina de Boltzmann restrinxida[84] para modelar cada capa. En 2012, Andrew Ng e Jeff Dean crearon unha rede que aprendeu a recoñecer conceptos de nivel superior, coma gatos, só mirando imaxes sen etiquetas.[85] O adestramento previo sen supervisión e o aumento da potencia de computación das GPU e a computación distribuída permitiron o uso de redes máis grandes, particularmente en problemas de recoñecemento visual e de imaxe, que se coñeceu como "deep learning".[86]

Dan Ciresan e colegas (2010)[87] demostraron que a pesar do problema de desvanecemento de gradiente, as GPU fan que a retropropagación sexa factible para redes neurais prealimentadas de moitas capas.[88] Entre 2009 e 2012, os ANNs comezaron a gañar premios en concursos de recoñecemento de imaxes, achegándose ao rendemento a nivel humano en varias tarefas, inicialmente no recoñecemento de patróns e recoñecemento da escritura.[89] Por exemplo, a memoria longa a curto prazo bidireccional e multidimensional (LSTM) de Alex Graves et al.[90][91] gañou tres concursos de recoñecemento de caligrafía en 2009 sen ningún coñecemento previo sobre as tres linguas que ían aprender.

Ciresan e os seus colegas crearon os primeiros recoñecedores de patróns en lograr un rendemento similar ao humano[92] en puntos de referencia como o recoñecemento de sinais de tráfico (IJCNN 2012).

  1. Hardi Shah. "A Full Overview of Artificial Neural Networks (ANN)". learn.g2.com (en inglés). 
  2. Hardesty, Larry (2017). "Explained: Neural networks". Massachisetts Institute of Technology. 
  3. Yang, Z.R; Yang, Z. (2014). Comprehensive Biomedical Physics. Karolinska Institute. ISBN 978-0-444-53633-4. 
  4. Merriman, Mansfield (1877). A List of Writings Relating to the Method of Least Squares. Harvard University. ISBN 978-1166426859. 
  5. Stigler, Stephen M. (1981). "Gauss and the Invention of Least Squares". Project Euclid 9 (3): 465–474. doi:10.1214/aos/1176345451. 
  6. Bretscher, Otto (2013). Linear Algebra with Applications. Pearson. ISBN 978-0321796943. 
  7. 7,00 7,01 7,02 7,03 7,04 7,05 7,06 7,07 7,08 7,09 7,10 7,11 7,12 7,13 7,14 7,15 Schmidhuber, Jürgen (2022). "Annotated History of Modern AI and Deep Learning". Cornell University. arXiv:2212.11279. 
  8. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge: Harvard. ISBN 0-674-40340-1. 
  9. Brush, Stephen G. (1967). "History of the Lenz-Ising Model". Reviews of Modern Physics 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883. 
  10. Amari, Shun-Ichi (1972). "Learning patterns and pattern sequences by self-organizing nets of threshold elements". IEEE Transactions (21): 1197–1206. ISSN 1557-9956. doi:10.1109/T-C.1972.223477. 
  11. Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences 79 (8): 2554–2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. 
  12. McCulloch, Warren; Pitts, Walter (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics 5 (4): 115–133. doi:10.1007/BF02478259. 
  13. Kleene, S.C. (1956). "Representation of Events in Nerve Nets and Finite Automata". Annals of Mathematics Studies. Princeton University Press (34): 3–41. 
  14. The Organization of Behavior. Wiley. 1949. ISBN 978-1-135-63190-1. 
  15. Farley, B.G.; Clark, W.A. (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory 4 (4): 76–84. doi:10.1109/TIT.1954.1057468. 
  16. Haykin, Simon (2008). Neural Networks and Learning Machines, 3rd edition. McMaster University, Pearson. ISBN 978-0131471399. 
  17. Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review 65 (6): 386–408. doi:10.1037/h0042519. 
  18. Werbos, Paul John (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University. 
  19. Rosenblatt, Frank (1957). "The Perceptron—a perceiving and recognizing automaton" (PDF). Cornell Aeronautical Laboratory. Report 85-460-1. Arquivado dende o orixinal (PDF) o 07 de abril de 2023. Consultado o 25 de abril de 2023. 
  20. Olazaran, Mikel (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science 26 (3): 611–659. JSTOR 285702. doi:10.1177/030631296026003005. 
  21. Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 978-0-262-63022-1. 
  22. 22,0 22,1 Schmidhuber, Jürgen (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks 61: 85–117. PMID 25462637. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. 
  23. Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. 
  24. Ivakhnenko, A. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Company. ISBN 9780444000200. ISSN 0076-9908. 
  25. Robbins, H.; Monro, S. (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics 22 (3): 400. doi:10.1214/aoms/1177729586. 
  26. Amari, Shun'ichi (1967). "A theory of adaptive pattern classifier". IEEE Transactions (16): 279–307. 
  27. von Leibniz, Gottfried Wilhelm Freiherr (1920). "The Early Mathematical Manuscripts of Leibniz". Open court publishing Company. 
  28. Linnainmaa, Seppo (1970). "The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors". Universidade de Helsinki: 6–7. 
  29. Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics 16 (2): 146–160. doi:10.1007/bf01931367. 
  30. Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?". Optimization Stories: 389–400. 
  31. Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1. 
  32. Rosenblatt, Frank (1962). "Principles of Neurodynamics". Spartan. 
  33. Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal 30 (10): 947–954. doi:10.2514/8.5282. 
  34. "A gradient method for optimizing multi-stage allocation processes". Proceedings of the Harvard Univ. Symposium on digital computers and their applications. 1961. 
  35. 35,0 35,1 Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia 10 (11): 85–117. doi:10.4249/scholarpedia.32832. 
  36. Dreyfus, Stuart E. (1990). "Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure". Journal of Guidance, Control, and Dynamics 13 (5): 926–928. 
  37. Mizutani, E.; Dreyfus, S.E.; Nishio, K. (2000). "On derivation of MLP backpropagation from the Kelley-Bryson optimal-control gradient formula and its application". Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks. IJCNN 2000. Neural Computing: New Challenges and Perspectives for the New Millennium. doi:10.1109/ijcnn.2000.857892. 
  38. Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. 
  39. Rumelhart, David E.; E. Hinton, Geoffrey; Williams, Ronald J. (1986). "Learning representations by back-propagating errors". Nature. 
  40. 40,0 40,1 Kohonen, Teuvo; Honkela, Timo (2007). "Kohonen Network". Scholarpedia 2 (1): 1568. doi:10.4249/scholarpedia.1568. 
  41. Kohonen, Teuvo (1982). "Self-Organized Formation of Topologically Correct Feature Maps". Biological Cybernetics 43 (4): 59–69. doi:10.1007/bf00337288. 
  42. von der Malsburg, C (1973). "Self-organization of orientation sensitive cells in the striate cortex". Kybernetik 14 (2): 85–100. doi:10.1007/bf00288907. 
  43. Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position". Biological Cybernetics 36 (4): 193–202. doi:10.1007/BF00344251. 
  44. Fukushima, Kunihiko (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics 5 (4): 322–333. doi:10.1109/TSSC.1969.300225. 
  45. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (2017). "Searching for Activation Functions". arXiv:1710.05941. 
  46. Waibel, Alex (1987). "Phoneme Recognition Using Time-Delay Neural Networks". Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). 
  47. Waibel, Alexander (1989). "Phoneme Recognition Using Time-Delay Neural Networks" (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing 37 (3): 328–339. 
  48. Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics. 
  49. Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics 29 (32): 4790. doi:10.1364/AO.29.004790. 
  50. LeCun (1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation 1: 541–551. 
  51. Weng, J.; Ahuja, N.; Huang, T. S. (1992). "Cresceptron: a self-organizing neural network which grows adaptively" (PDF). Proc. International Joint Conference on Neural Networks, Baltimore 1: 576–581. 
  52. Weng, J.; Ahuja, N.; Huang, T. S. (1993). "Learning recognition and segmentation of 3-D objects from 2-D images" (PDF). Proc. 4th International Conf. Computer Vision, Berlin: 121–128. 
  53. Weng, J.; Ahuja, N.; Huang, T. S. (1997). "Learning recognition and segmentation using the Cresceptron" (PDF). International Journal of Computer Vision 2: 105–139. 
  54. LeCun, Yann; Bottou, Léon; Bengio, Yoshua; Haffner, Patrick (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE 86 (11): 2278–2324. doi:10.1109/5.726791. 
  55. Qian; Ning; Sejnowski, Terrence J. (1988). "Predicting the secondary structure of globular proteins using neural network models". Journal of molecular biology (4): 865–884. 
  56. Henrik, Bohr; Bohr, Jakob; Brunak, Søren; MJ Cotterill, Rodney; Lautrup, Benny; Nørskov, Leif; Olsen, Ole H.; B. Petersen, Steffen (1988). "Protein secondary structure and homology by neural networks The α-helices in rhodopsin". FEBS letters 241: 223–228. 
  57. Rost,; Burkhard; Sander, Chris (1993). "Prediction of protein secondary structure at better than 70% accuracy". Journal of molecular biology 232 (2): 584–599. 
  58. 58,0 58,1 Schmidhuber, Jürgen (1992). "Learning complex, extended sequences using the principle of history compression". Neural Computation 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. 
  59. Schmidhuber, Jürgen (1993). "Habilitation Thesis" (PDF). [Ligazón morta]
  60. Schmidhuber, Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". MIT Press/Bradford Books: 222–227. 
  61. Schmidhuber, Jürgen (2010). "Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)". IEEE Transactions on Autonomous Mental Development 2 (3): 230–247. doi:10.1109/TAMD.2010.2056368. 
  62. Schmidhuber, Jürgen (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks 127: 58–66. PMID 32334341. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. 
  63. Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu,, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). "Generative Adversarial Networks" (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014): 2672–2680. 
  64. "Prepare, Don't Panic: Synthetic Media and Deepfakes". witness.org. Arquivado dende o orixinal o 2020. Consultado o 2020. 
  65. "GAN 2.0: NVIDIA's Hyperrealistic Face Generator". SyncedReview.com. Consultado o 2019. 
  66. Karras,, Tero; Aila, Timo; Laine, Samuli; Lehtinen, Jaakko (2017). "Progressive Growing of GANs for Improved Quality, Stability, and Variation". Cornell University. arXiv:1710.10196. 
  67. Schmidhuber, Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets". Neural Computation 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131. 
  68. 68,0 68,1 Schlag, Imanol; Kazuk, Irie; Schmidhuber, Jürgen (2021). "Linear Transformers Are Secretly Fast Weight Programmers". ICML 2021. Springer: 9355–9366. 
  69. Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Song, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz (2020). "Rethinking Attention with Performers". arXiv:2009.14794. 
  70. Schmidhuber, Jürgen (1993). "Reducing the ratio between learning complexity and number of time-varying variables in fully recurrent nets". ICANN 1993. Springer: 460–463. 
  71. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017). "Attention Is All You Need". arXiv:1706.03762. 
  72. Wolf, Thomas; Debut, Lysandre; Sanh, Victor (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations: 38–45. doi:10.18653/v1/2020.emnlp-demos.6. 
  73. He, Cheng (2021). "Transformer in CV". Towards Data Science. Transformer in CV. 
  74. 74,0 74,1 Hochreiter, Sepp (1991). "Untersuchungen zu dynamischen neuronalen Netzen" (PDF). Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Arquivado dende o orixinal (PDF) o 2015. 
  75. Hochreiter, S. (2001). Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. A Field Guide to Dynamical Recurrent Networks (John Wiley & Sons). ISBN 978-0-7803-5369-5. 
  76. Hochreiter, Sepp; Schmidhuber, Jürgen (1997). "Long Short-Term Memory". Neural Computation 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735. 
  77. Schmidhuber, Jürgen (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. 
  78. Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). Learning to forget: Continual prediction with LSTM 1999. 9th International Conference on Artificial Neural Networks: ICANN'99. pp. 850–855. ISBN 0-85296-721-7. doi:10.1049/cp:19991218. 
  79. Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2015). "Highway Networks". arXiv:1505.00387. 
  80. Srivastava, Rupesh K.; Greff, Klaus; Schmidhuber, Jürgen (2015). "Training Very Deep Networks". Curran Associates, Inc. Advances in Neural Information Processing Systems 28: 2377–2385. 
  81. He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian. Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE). pp. 770–778. ISBN 978-1-4673-8851-1. doi:10.1109/CVPR.2016.90. 
  82. Mead, Carver A.; Ismail, Mohammed (1989). Analog VLSI Implementation of Neural Systems (PDF). The Kluwer International Series in Engineering and Computer Science. ISBN 978-1-4613-1639-8. 
  83. Domingos, Pedro (2015). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World. ISBN 978-0465065707. 
  84. Smolensky, P. (1986). Information processing in dynamical systems: Foundations of harmony theory. pp. 194–281. ISBN 978-0-262-68053-0. 
  85. Ng, Andrew; Dean, Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209. 
  86. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron (2016). "Deep Learning". MIT Press. 
  87. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation 22 (12): 3207–3220. ISSN 0899-7667. arXiv:1003.0358. doi:10.1162/neco_a_00052. 
  88. Scherer, Dominik; C. Müller, Andreas; Behnke, Sven (2018). "Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition" (PDF). 20th International Conference Artificial Neural Networks (ICANN): 92–101. doi:10.1007/978-3-642-15825-4_10. 
  89. "How bio-inspired deep learning keeps winning competitions". kurzweilai.net. Consultado o 2023. 
  90. Graves, Alex; Schmidhuber, Jürgen (2009). Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Neural Information Processing Systems (NIPS) Foundation. ISBN 9781605609492. 
  91. Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, Jürgen (2009). "A Novel Connectionist System for Unconstrained Handwriting Recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence 31 (5): 855–868. ISSN 0162-8828. PMID 19299860. doi:10.1109/tpami.2008.137. 
  92. Ciresan, Dan; Meier, U.; Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition. ISBN 978-1-4673-1228-8. doi:10.1109/cvpr.2012.6248110.