krivye_ru4ki | (Reply)

From:

Нуу, там печаль в том, что данные разбухают ай-яй-яй. Небольшой KV cache в 32768 токенов для 70b модели займёт четверть того, что занимает эта вся модель (в дорогой VRAM). Не говорю что весь этот KV cache должен стать индивидуальным, но пока LLM stateless, этот кэш общий, а если сотни людей дёргают тот хост с моделью, ну можно представить как оно разбухнет даже если небольшая часть этого кэша станет индивидуальной, никаких H200 не хватит.