// models
Models del cluster.
Los modelos de la comunidad. Todos se acceden por la misma API OpenAI-compatible
con el mismo base URL.
gemma4 - 26B-A4B
generación de texto y chat
Modelo MoE de 26B parámetros (4B activos), multimodal con visión. Tool calling y reasoning.
- Tipo
- MoE (26B total · 4B active)
- Cuantización
- FP8
- Contexto
- 256K tokens
- Sampling
- temp=0.6, top_p=0.95
- Reasoning
- reasoning_config=
capacidades
- Tool calling (formato XML)
- Reasoning mode
- Multimodal (vision / imágenes)
- Generación streaming (SSE)
qwen3.6 - 35B-A3B
generación de texto y chat
El modelo principal. MoE de 35B parámetros, multimodal, con tool calling y reasoning.
- Tipo
- MoE (35B total)
- Activo por token
- 3B
- Cuantización
- FP8
- Contexto
- 256K tokens
- Speculative decoding
- MTP → ~2x throughput
- Sampling
- temp=0.6, top_p=0.95
- Reasoning
- reasoning_config=
capacidades
- Tool calling (formato XML)
- Reasoning mode
- Multimodal (vision / imágenes)
- Generación streaming (SSE)
qwen3-embedding - 8B
embeddings vectoriales
Modelo de embedding vectorial. MMTEB score 70.58 — top modelos abiertos. Soporta 100+ idiomas incluyendo español y código.
- Dimensión
- 4096
- Precisión
- Float32 (CPU)
- RPM
- 60
- Batch size
- 32
casos de uso
- Similitud cross-lingual (ES↔EN: 0.915)
- Búsqueda semántica
- Clasificación de texto
- RAG / retrieval aumentado
kokoro - v1.0
text-to-speech
TTS de 82M params con 67 voice packs. Sub-second latency en CPU.
- Latencia
- < 1s
- Partes
- 82M
- RPM
- 15
voces disponibles
- af_heart — English (female)
- ef_dora — Spanish (female)
- em_alex — Spanish (male)
- 67 voice packs en total (ver listado completo)
whisper - large-v3
speech-to-text
STT en CPU con CTranslate2 e INT8. ~1x realtime. 99+ idiomas.
- Tamaño
- ~3 GB (INT8)
- WER ES
- ~3.2%
- RPM
- 10
capacidades
- Transcripción de audio a texto
- 99+ idiomas
- Detección de idioma automática
- API OpenAI-compatible
limitaciones conocidas
- File size limit — 25 MB
- Tamaño máximo por request. Formatos comprimidos (OGG/Opus, MP3) aprovechan mejor este límite que WAV sin comprimir.
- Timeout — audios > 2 min de duración
-
Whisper procesa en CPU a ~1x realtime. Para audios de más de ~2 minutos,
el proxy puede devolver un error
524(timeout) antes de que termine la transcripción. Usa formatos comprimidos como OGG/Opus y divide archivos largos en segmentos de ≤ 2 minutos para evitarlo. - Formatos recomendados
-
OGG/OpusyMP3— archivos más pequeños, misma calidad de transcripción. Un audio de 60 min en OGG/Opus a 48 kbps ocupa ~20 MB vs ~550 MB en WAV.
rate limits por API key
- Requests / min
- 100 rpm
- Paralelo máximo
- 5 concurrentes