OSCAR de Together AI: Cuantización de KV Cache a 2 bits para contextos largos
El sistema OSCAR de Together AI utiliza rotaciones conscientes de la atención para comprimir los KV cache a 2 bits, ampliando significativamente las ventanas de contexto en GPUs de consumo.