La investigación de DeepSeek sobre la "memoria condicional" tiene como objetivo abordar el uso ineficiente de la computación de GPU en los modelos de lenguaje grandes (LLM) al acceder a información estática. El estudio recién publicado introduce un módulo llamado Engram, diseñado para separar la recuperación de patrones estáticos del razonamiento dinámico, lo que podría ahorrar importantes recursos computacionales.
Según la investigación, los LLM empresariales utilizan con frecuencia la costosa computación de GPU, diseñada para el razonamiento complejo, simplemente para recuperar información estática como nombres de productos, especificaciones técnicas o cláusulas contractuales estándar. Estas búsquedas ocurren millones de veces al día, desperdiciando ciclos computacionales e inflando los costos de infraestructura. El equipo de DeepSeek, incluido el coautor y fundador Liang Wenfeng, buscó optimizar este proceso.
A través de la experimentación sistemática, DeepSeek determinó que asignar el 75% de la capacidad del modelo disperso al razonamiento dinámico y el 25% a las búsquedas estáticas proporcionaba el equilibrio óptimo entre computación y memoria. Los resultados indicaron que este sistema de memoria mejoró las capacidades de razonamiento de manera más significativa que la recuperación de conocimiento. Las puntuaciones de referencia de razonamiento complejo, medidas utilizando Big-Bench Hard, saltaron del 70% al 74% de precisión, mientras que las pruebas centradas en el conocimiento mejoraron del 57% al 61%.
Las implicaciones de esta investigación se extienden más allá de las meras ganancias de eficiencia. Al optimizar la forma en que los LLM acceden y procesan la información, el trabajo de DeepSeek desafía las suposiciones fundamentales sobre el papel de la memoria en las redes neuronales. El módulo Engram permite un enfoque más matizado de la asignación de memoria, lo que podría allanar el camino para sistemas de IA más eficientes y potentes.
El desarrollo se produce en un momento en que el consumo de energía y el impacto ambiental de los modelos de lenguaje grandes están bajo un escrutinio cada vez mayor. Al reducir la sobrecarga computacional asociada con la recuperación de información estática, el enfoque de memoria condicional de DeepSeek podría contribuir a un desarrollo de IA más sostenible. Se necesita más investigación para explorar la escalabilidad y la generalización de Engram en diferentes arquitecturas y aplicaciones de LLM.
Discussion
Join the conversation
Be the first to comment