NaN NaN

// models

Models del cluster.

Los modelos de la comunidad. Todos se acceden por la misma API OpenAI-compatible con el mismo base URL.

gemma4 - 26B-A4B

generación de texto y chat

Modelo MoE de 26B parámetros (4B activos), multimodal con visión. Tool calling y reasoning.

Tipo
MoE (26B total · 4B active)
Cuantización
FP8
Contexto
256K tokens
Sampling
temp=0.6, top_p=0.95
Reasoning
reasoning_config=

capacidades

  • Tool calling (formato XML)
  • Reasoning mode
  • Multimodal (vision / imágenes)
  • Generación streaming (SSE)

qwen3.6 - 35B-A3B

generación de texto y chat

El modelo principal. MoE de 35B parámetros, multimodal, con tool calling y reasoning.

Tipo
MoE (35B total)
Activo por token
3B
Cuantización
FP8
Contexto
256K tokens
Speculative decoding
MTP → ~2x throughput
Sampling
temp=0.6, top_p=0.95
Reasoning
reasoning_config=

capacidades

  • Tool calling (formato XML)
  • Reasoning mode
  • Multimodal (vision / imágenes)
  • Generación streaming (SSE)

qwen3-embedding - 8B

embeddings vectoriales

Modelo de embedding vectorial. MMTEB score 70.58 — top modelos abiertos. Soporta 100+ idiomas incluyendo español y código.

Dimensión
4096
Precisión
Float32 (CPU)
RPM
60
Batch size
32

casos de uso

  • Similitud cross-lingual (ES↔EN: 0.915)
  • Búsqueda semántica
  • Clasificación de texto
  • RAG / retrieval aumentado

kokoro - v1.0

text-to-speech

TTS de 82M params con 67 voice packs. Sub-second latency en CPU.

Latencia
< 1s
Partes
82M
RPM
15

voces disponibles

  • af_heart — English (female)
  • ef_dora — Spanish (female)
  • em_alex — Spanish (male)
  • 67 voice packs en total (ver listado completo)

whisper - large-v3

speech-to-text

STT en CPU con CTranslate2 e INT8. ~1x realtime. 99+ idiomas.

Tamaño
~3 GB (INT8)
WER ES
~3.2%
RPM
10

capacidades

  • Transcripción de audio a texto
  • 99+ idiomas
  • Detección de idioma automática
  • API OpenAI-compatible

limitaciones conocidas

File size limit — 25 MB
Tamaño máximo por request. Formatos comprimidos (OGG/Opus, MP3) aprovechan mejor este límite que WAV sin comprimir.
Timeout — audios > 2 min de duración
Whisper procesa en CPU a ~1x realtime. Para audios de más de ~2 minutos, el proxy puede devolver un error 524 (timeout) antes de que termine la transcripción. Usa formatos comprimidos como OGG/Opus y divide archivos largos en segmentos de ≤ 2 minutos para evitarlo.
Formatos recomendados
OGG/Opus y MP3 — archivos más pequeños, misma calidad de transcripción. Un audio de 60 min en OGG/Opus a 48 kbps ocupa ~20 MB vs ~550 MB en WAV.

rate limits por API key

Requests / min
100 rpm
Paralelo máximo
5 concurrentes
nan.builders © 2026
¡Copiado al portapapeles!