sigmaray/01.notes.md

Last active January 25, 2026 22:38

Star (0) You must be signed in to star a gist
Fork (0) You must be signed in to fork a gist

Select an option

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/sigmaray/fe927f0a1098b323c6cd3edce0bb055e.js"></script>
Save sigmaray/fe927f0a1098b323c6cd3edce0bb055e to your computer and use it in GitHub Desktop.

Download ZIP

Использование локально запущенных LLM-моделей для программирования

Raw

01.notes.md

Примечания

Этот вариант работает на бытовом железе начального уровню с удовлетворительной скоростью только если писать промпты в окне LM Studio. Если некуда спешить, и можно ждать ответы в фоне, например когда в это время делаешь другую работу. Если подключать модель к IDE в режиме агента, на бытовом железе будет работать ужасно медленно. Для режима агента нужно железно энтерпрайзного уровня.

Я не уверен, что расширение Cline самое лучшее. У меня не получилось соединить Continue с LM Studio. Не было времени вникать, и я вместо Continue использовал Cline. В Cline всё заработало.

UPD Я ещё попробовал Roo Code (https://marketplace.visualstudio.com/items?itemName=RooVeterinaryInc.roo-cline) - в нём у меня тоже всё заработало (у Roo Code странный UI, UI Cline мне показался удобнее)

На моём железе (Ryzen 7 4800H, 64 GB RAM, GeForce GTX 1650 4 ГБ) qwen3-coder:30b в режиме агента в IDE работает очень медленно. Я сильно не копал как можно оптимизировать, не было времени разобраться, но вот что я успел выяснить:

Локальная видеопамять, распаянная на видеокарте, быстрая. PCIe-шина медленная. Если модель не умещается в видеопамяти (которой у меня всего 4 гигабайта), PCIe-шина становится узким бутылочным горлышком.

Рекомендуемое железо:

AMD Threadripper PRO или Intel Xeon W
512GB RAM
NVIDIA H100 80 GB или A100 80 GB

Минимальные требования:

64 GB RAM
RTX 3090 24 GB

На слабом железе, таком как у меня, советуют использовать модели 7B (пока что не было времени их попробовать)

UPD Попробовал 7b модели - в режиме агента в IDE всё равно слишком медленно, не умещаются в память видеокарты.

Если я правильно понял, в платных облачных моделях простые запросы использующие компактную модель обрабатываются на одной H100/80GB. Запросы, требующие большую модель, могут обрабатываться сразу на нескольких видеокартах

Пример облачного железа:

ASRock Rack 6U8X EGS2 H200 NVIDIA HGX H200 (8 GPU в одном сервере)

Raw

02.how-to-configure-lm-studio-and-cline.md

Инструкция по настройке связки Visual Studio Code <-> Cline <-> LM Studio <-> qwen3-coder:30b

Желательно иметь много оперативной памяти и видеокарту NVIDIA с большим количеством видеопамяти. Без дискретной видеокарты тоже запустится и будет работать. Но если считать на CPU вместо GPU, то работать будет гораздо медленнее.

Установить NVIDIA CUDA (https://www.cherryservers.com/blog/install-cuda-ubuntu).

Скачать LM Studio (https://lmstudio.ai/download)

chmod +x LM-Studio-0.3.39-1-x64.AppImage

./LM-Studio-0.3.39-1-x64.AppImage

Желательно чтобы в настройках LM Studio во вкладке Hardware в разделе GPUs было включено использование GPU

LM Studio → вкладка Discover (иконка поиска слева) → найти/скачать нужную модель, запустить модель

Включить Developer режим в LM Studio (внизу), открыть вкладку Developer (иконка слева, на которой нарисован терминал), убедиться что сервер запущен

Установить в Visual Studio Code расширение Cline (https://docs.cline.bot/getting-started/installing-cline)

Открыть Cline в Visual Studio Code нажав на иконку Cline в боковой панели

Нажать выбор модели (внизу)

Кликнуть по "Edit in settings"

Выставить API Provider: LM Studio

Нажать кнопку Done

Написать промпт (например "Напиши калькулятор на PyQT"), выбрать "Act", нажать кнопку отправки промпта

UPD Чтобы не было необходимости устанавливать галочку "Use compact prompt" в Cline, можно запустить модель с расширенными параметрами, увеличив Context Length

Вопросы можно задавать в чате в окне LM Studio, так оно будет работать гораздо быстрее чем в режиме агента:

Raw

03.misc.md

Misc

https://habr.com/ru/articles/938036/ (Как заменить GitHub Copilot на полностью офлайн‑Continue Plugin)

aladkoi
18 авг 2025 в 23:53
Для запуска нормальной модели нужна видео карточка за 1500$ и памятью на 32гига. Иначе смысла особого нет. Слабые модели можно брать только под конкретные узкие задачи.

aladkoi
19 авг 2025 в 01:06
Нормальные модели начинаются от 30B. Все , что ниже, чисто "поиграться"
Это как в кино, чем меньше "разрешение", тем хуже качество ответа. Сейчас локальные llm, это как первые мониторы 640на 480. До 1080p они дойдут еще не скоро.

@sergevasin6956
4 месяца назад
Не знаю как у кого, но я уже 3 дня пытаюсь заставить работать нормально Ollama/LM Studio в связке с VS Code + Roo Code, и всё бес толку. Если не говорить про в 10-20 раз медленные ответы, чем напрямую в Ollama/LM Studio(чуть медленней чем онлайн версии), то это ещё постоянные вылеты, зависания, зацикливания и забывание поставленной задачи. Проще и быстрей скормить имеющийся код напрямую в Ollama/LM Studio, получить ответ и поправить руками, чем дождаться пока та же самая модель через Roo Code хоть что то ответит.
В общем, если нужно редактирование кода прям в редакторе, то тогда уже лучше использовать Windsurf и/или Trae. А так, для простых поисков решения задач, можно использовать и локалку напрямую, если бесплатные дневные лимиты вышли.

@We9mak
5 месяцев назад
Если у тебя не H200, то все локальные модели это бесполезная штука. Все что влазит в 5090, кодит плохо, я уже не говорю про агентов. Поэтому все еще отдать 20$ выгодней, чем пытаться что-то сделать на модели в которой контекст заканчивается через два запроса.

@VitaliiPodolskii
4 месяца назад
У меня комп в офисе для ИИ стоит: i9-14900K, RAM 128 DDR5, Nvidia 5090 и модель qwen-coder-30b с модификацией контекста на 128К вчера слайдшоу показывал при анализе среднего проекта.

@viktormoskalev2269
8 дней назад
Если верить нейронам что бы запустить аналог Клод кода 4.5 нужно 512 ОЗУ и 5090 все остальные модели будут тупить