Этот вариант работает на бытовом железе начального уровню с удовлетворительной скоростью только если писать промпты в окне LM Studio. Если некуда спешить, и можно ждать ответы в фоне, например когда в это время делаешь другую работу. Если подключать модель к IDE в режиме агента, на бытовом железе будет работать ужасно медленно. Для режима агента нужно железно энтерпрайзного уровня.
Я не уверен, что расширение Cline самое лучшее. У меня не получилось соединить Continue с LM Studio. Не было времени вникать, и я вместо Continue использовал Cline. В Cline всё заработало.
UPD Я ещё попробовал Roo Code (https://marketplace.visualstudio.com/items?itemName=RooVeterinaryInc.roo-cline) - в нём у меня тоже всё заработало (у Roo Code странный UI, UI Cline мне показался удобнее)
На моём железе (Ryzen 7 4800H, 64 GB RAM, GeForce GTX 1650 4 ГБ) qwen3-coder:30b в режиме агента в IDE работает очень медленно. Я сильно не копал как можно оптимизировать, не было времени разобраться, но вот что я успел выяснить:
Локальная видеопамять, распаянная на видеокарте, быстрая. PCIe-шина медленная. Если модель не умещается в видеопамяти (которой у меня всего 4 гигабайта), PCIe-шина становится узким бутылочным горлышком.
Рекомендуемое железо:
- AMD Threadripper PRO или Intel Xeon W
- 512GB RAM
- NVIDIA H100 80 GB или A100 80 GB
Минимальные требования:
- 64 GB RAM
- RTX 3090 24 GB
На слабом железе, таком как у меня, советуют использовать модели 7B (пока что не было времени их попробовать)
UPD Попробовал 7b модели - в режиме агента в IDE всё равно слишком медленно, не умещаются в память видеокарты.
Если я правильно понял, в платных облачных моделях простые запросы использующие компактную модель обрабатываются на одной H100/80GB. Запросы, требующие большую модель, могут обрабатываться сразу на нескольких видеокартах
ASRock Rack 6U8X EGS2 H200 NVIDIA HGX H200 (8 GPU в одном сервере)








