bn
briefi.news

Subquadratic afirma superar a FlashAttention-2 con 56× más velocidad en contextos de 1 millón de tokens

MercadoTecnología
Diario Bitcoin·byCanuto
·
Image for article: Subquadratic afirma superar a FlashAttention-2 con 56× más velocidad en contextos de 1 millón de tokens
Un análisis independiente de Appen concluye que el kernel Sparse Self-Attention de Subquadratic puede escalar linealmente en contextos extremos, con una ventaja de 56,2× frente a FlashAttention-2 en 1 millón de tokens, mientras mantiene resultados sólidos en recuperación de largo contexto y en SWE-Bench Verified. *** Appen midió una latencia de 381 ms para SSA en 1 millón de tokens, frente a 21,4 segundos para FlashAttention-2. El informe reporta una reducción de FLOPs de 62,8× en 1 millón de tokens y un comportamiento cercano a escalado lineal. En calidad, Subquadratic obtuvo 86,2% en MRCR a 1.048.576 tokens y 81,8% en...

Leer el artículo completo

Este artículo proviene de Diario Bitcoin. Haz clic abajo para leer la historia completa:

Leer Artículo Completo