Ferraronp

Артур

LLM-инженерия: агенты, файн-тюнинг, инференс, пайплайны.
~10 лет в программировании. Большинство вещей строю с нуля — иначе непонятно, как оно работает.

Проекты

🧠 GPT Pretraining from Scratch

Серия русскоязычных языковых моделей, обученных с нуля на собственном корпусе (~12B токенов).
Архитектура эволюционировала от GPT-2 Small до кастомной реализации с RoPE, RMSNorm, SwiGLU, GQA, Flash Attention (~700M параметров).
Распределённое обучение реализовано через несколько Colab-воркеров с ручной синхронизацией градиентов.

🍽️ VLM Nutrition Analyzer

API-сервис для анализа КБЖУ по фотографии блюда.
Трёхэтапный пайплайн: Qwen2.5-VL-7B описывает состав → LLM извлекает ингредиенты и ищет в Open Food Facts → финальная сборка JSON.
Батч-менеджер, load balancer для нескольких Colab-инстансов, мониторинг GPU-памяти.

🔍 RAG MTUCI

Чат-бот с двухэтапным RAG-пайплайном: малая модель фильтрует чанки из веб-страниц, большая формулирует ответ.
Playwright с JS-оверрайдами для обхода антибот-защиты, параллельная обработка до 5 потоков.

📊 llm.c TensorBoard Logger

Утилита для визуализации метрик обучения llm.c в реальном времени. Live-режим и разовый импорт готового лога.

Open Source

FunAudioLLM/CosyVoice #1872 — llama-cpp-python backend для CosyVoice3.
Интеграция GGUF-инференса через llama-cpp-python: ~2.6x ускорение RTF на T4 vs PyTorch fp16. Конвертер и кванты: HuggingFace.

karpathy/llm.c #828 — баг-фикс в C-даталоадере.
Python-сторона допускала датасеты до 4GB, C-сторона тихо переполнялась на >2GB из-за каста (int) в fseek. Убрал downcast.

Стек

Область	Инструменты
LLM	PyTorch · Transformers · bitsandbytes · PEFT / LoRA
Инференс	vLLM · GGUF / llama.cpp
Данные	tiktoken · SimHash · Playwright · datasets (HF)
Бэкенд	FastAPI · Docker · PostgreSQL

Контакты

GitHub: Ferraronp
Telegram: @Ferraronp

Provide feedback

Saved searches

Use saved searches to filter your results more quickly