Skip to content

Instantly share code, notes, and snippets.

@sigmaray
Last active January 25, 2026 22:38
Show Gist options
  • Select an option

  • Save sigmaray/fe927f0a1098b323c6cd3edce0bb055e to your computer and use it in GitHub Desktop.

Select an option

Save sigmaray/fe927f0a1098b323c6cd3edce0bb055e to your computer and use it in GitHub Desktop.
Использование локально запущенных LLM-моделей для программирования

Примечания

Этот вариант работает на бытовом железе начального уровню с удовлетворительной скоростью только если писать промпты в окне LM Studio. Если некуда спешить, и можно ждать ответы в фоне, например когда в это время делаешь другую работу. Если подключать модель к IDE в режиме агента, на бытовом железе будет работать ужасно медленно. Для режима агента нужно железно энтерпрайзного уровня.

Я не уверен, что расширение Cline самое лучшее. У меня не получилось соединить Continue с LM Studio. Не было времени вникать, и я вместо Continue использовал Cline. В Cline всё заработало.

UPD Я ещё попробовал Roo Code (https://marketplace.visualstudio.com/items?itemName=RooVeterinaryInc.roo-cline) - в нём у меня тоже всё заработало (у Roo Code странный UI, UI Cline мне показался удобнее)

На моём железе (Ryzen 7 4800H, 64 GB RAM, GeForce GTX 1650 4 ГБ) qwen3-coder:30b в режиме агента в IDE работает очень медленно. Я сильно не копал как можно оптимизировать, не было времени разобраться, но вот что я успел выяснить:

Локальная видеопамять, распаянная на видеокарте, быстрая. PCIe-шина медленная. Если модель не умещается в видеопамяти (которой у меня всего 4 гигабайта), PCIe-шина становится узким бутылочным горлышком.

Рекомендуемое железо:

  • AMD Threadripper PRO или Intel Xeon W
  • 512GB RAM
  • NVIDIA H100 80 GB или A100 80 GB

Минимальные требования:

  • 64 GB RAM
  • RTX 3090 24 GB

На слабом железе, таком как у меня, советуют использовать модели 7B (пока что не было времени их попробовать)

UPD Попробовал 7b модели - в режиме агента в IDE всё равно слишком медленно, не умещаются в память видеокарты.

Если я правильно понял, в платных облачных моделях простые запросы использующие компактную модель обрабатываются на одной H100/80GB. Запросы, требующие большую модель, могут обрабатываться сразу на нескольких видеокартах

Пример облачного железа: image

image ASRock Rack 6U8X EGS2 H200 NVIDIA HGX H200 (8 GPU в одном сервере)

Инструкция по настройке связки Visual Studio Code <-> Cline <-> LM Studio <-> qwen3-coder:30b

Желательно иметь много оперативной памяти и видеокарту NVIDIA с большим количеством видеопамяти. Без дискретной видеокарты тоже запустится и будет работать. Но если считать на CPU вместо GPU, то работать будет гораздо медленнее.

Установить NVIDIA CUDA (https://www.cherryservers.com/blog/install-cuda-ubuntu).

Скачать LM Studio (https://lmstudio.ai/download)

chmod +x LM-Studio-0.3.39-1-x64.AppImage

./LM-Studio-0.3.39-1-x64.AppImage

Желательно чтобы в настройках LM Studio во вкладке Hardware в разделе GPUs было включено использование GPU

LM Studio → вкладка Discover (иконка поиска слева) → найти/скачать нужную модель, запустить модель

Включить Developer режим в LM Studio (внизу), открыть вкладку Developer (иконка слева, на которой нарисован терминал), убедиться что сервер запущен

Установить в Visual Studio Code расширение Cline (https://docs.cline.bot/getting-started/installing-cline)

Открыть Cline в Visual Studio Code нажав на иконку Cline в боковой панели

Нажать выбор модели (внизу)

Кликнуть по "Edit in settings"

Выставить API Provider: LM Studio

Нажать кнопку Done

Написать промпт (например "Напиши калькулятор на PyQT"), выбрать "Act", нажать кнопку отправки промпта


image
image
image
image
image

UPD Чтобы не было необходимости устанавливать галочку "Use compact prompt" в Cline, можно запустить модель с расширенными параметрами, увеличив Context Length

image
image

Вопросы можно задавать в чате в окне LM Studio, так оно будет работать гораздо быстрее чем в режиме агента:

image

Misc

https://habr.com/ru/articles/938036/ (Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin)


aladkoi
18 авг 2025 в 23:53
Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.


aladkoi
19 авг 2025 в 01:06
Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"
Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.


@sergevasin6956
4 месяца назад
Не знаю как у кого, но я уже 3 дня пытаюсь заставить работать нормально Ollama/LM Studio в связке с VS Code + Roo Code, и всё бес толку. Если не говорить про в 10-20 раз медленные ответы, чем напрямую в Ollama/LM Studio(чуть медленней чем онлайн версии), то это ещё постоянные вылеты, зависания, зацикливания и забывание поставленной задачи. Проще и быстрей скормить имеющийся код напрямую в Ollama/LM Studio, получить ответ и поправить руками, чем дождаться пока та же самая модель через Roo Code хоть что то ответит.
В общем, если нужно редактирование кода прям в редакторе, то тогда уже лучше использовать Windsurf и/или Trae. А так, для простых поисков решения задач, можно использовать и локалку напрямую, если бесплатные дневные лимиты вышли.


@We9mak
5 месяцев назад
Если у тебя не H200, то все локальные модели это бесполезная штука. Все что влазит в 5090, кодит плохо, я уже не говорю про агентов. Поэтому все еще отдать 20$ выгодней, чем пытаться что-то сделать на модели в которой контекст заканчивается через два запроса.


@VitaliiPodolskii
4 месяца назад
У меня комп в офисе для ИИ стоит: i9-14900K, RAM 128 DDR5, Nvidia 5090 и модель qwen-coder-30b с модификацией контекста на 128К вчера слайдшоу показывал при анализе среднего проекта.


@viktormoskalev2269
8 дней назад
Если верить нейронам что бы запустить аналог Клод кода 4.5 нужно 512 ОЗУ и 5090 все остальные модели будут тупить

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment