Метка: MoE

Архитектура DeepSeek-V2

Появление модели DeepSeek-V2 стало заметным событием в сфере исследований крупных языковых моделей. На фоне стремительного роста числа LLM-проектов разработчики DeepSeek сделали ставку не только на масштаб, но и на архитектурную…

Оптимизация inference для Mixtral 8x7B

В современном мире искусственного интеллекта и разработки высокопроизводительных моделей обработки естественного языка (LLM) оптимизация процесса inference — то есть фактического прогноза или генерации ответов — становится критически важной задачей для…

Чем Qwen 3.5 отличается от GPT-семейства по архитектуре MoE

В современной области искусственного интеллекта наблюдается стремительный рост интереса к архитектурам, способным эффективно масштабироваться и обеспечивать высокую производительность при растущих объёмах данных. Среди таких архитектур особое внимание привлекают модели с…

Zhipu AI GLM-5: открытая MoE-LLM с активным 44B параметров меняет правила игры

В феврале 2026 года китайская компания Zhipu AI (международное название — Z.ai) представила своё новейшее поколение крупномасштабной языковой модели — GLM-5. Этот ИИ-модельный комплекс получил огромный объём параметров и реализован…