LLM-инженерия: агенты, файн-тюнинг, инференс, пайплайны.
~10 лет в программировании. Большинство вещей строю с нуля — иначе непонятно, как оно работает.
Серия русскоязычных языковых моделей, обученных с нуля на собственном корпусе (~12B токенов).
Архитектура эволюционировала от GPT-2 Small до кастомной реализации с RoPE, RMSNorm, SwiGLU, GQA, Flash Attention (~700M параметров).
Распределённое обучение реализовано через несколько Colab-воркеров с ручной синхронизацией градиентов.
API-сервис для анализа КБЖУ по фотографии блюда.
Трёхэтапный пайплайн: Qwen2.5-VL-7B описывает состав → LLM извлекает ингредиенты и ищет в Open Food Facts → финальная сборка JSON.
Батч-менеджер, load balancer для нескольких Colab-инстансов, мониторинг GPU-памяти.
Чат-бот с двухэтапным RAG-пайплайном: малая модель фильтрует чанки из веб-страниц, большая формулирует ответ.
Playwright с JS-оверрайдами для обхода антибот-защиты, параллельная обработка до 5 потоков.
Утилита для визуализации метрик обучения llm.c в реальном времени. Live-режим и разовый импорт готового лога.
FunAudioLLM/CosyVoice #1872 — llama-cpp-python backend для CosyVoice3.
Интеграция GGUF-инференса через llama-cpp-python: ~2.6x ускорение RTF на T4 vs PyTorch fp16. Конвертер и кванты: HuggingFace.
karpathy/llm.c #828 — баг-фикс в C-даталоадере.
Python-сторона допускала датасеты до 4GB, C-сторона тихо переполнялась на >2GB из-за каста (int) в fseek. Убрал downcast.
| Область | Инструменты |
|---|---|
| LLM | PyTorch · Transformers · bitsandbytes · PEFT / LoRA |
| Инференс | vLLM · GGUF / llama.cpp |
| Данные | tiktoken · SimHash · Playwright · datasets (HF) |
| Бэкенд | FastAPI · Docker · PostgreSQL |
- GitHub: Ferraronp
- Telegram: @Ferraronp


