サービス・インフラ KVキャッシュ6分の1でLLM推論が変わる!Google TurboQuantの仕組みと実用インパクト Google ResearchのTurboQuantは、LLMのKVキャッシュを3bitで圧縮し、メモリを6分の1に削減しながらattentionを最大8倍高速化します。仕組み・先行手法との比較・社会経済インパクトを徹底解説。 2026.03.30 2026.03.31 冨田到 サービス・インフラソフトウエア