Audiovisual
/remotion-galilei-video Cómo entregamos
Galilei produce en dos aspect ratios. Reels manda en frecuencia: contenido corto, vertical, hecho para feed. El largo entra cuando el formato lo pide: webinars, casos, YouTube.
Ficha técnica
- Codec
- H.264
- Frame rate
- 24 – 30 fps
- Bitrate
- 12 – 16 Mbps
- Audio
- AAC · 256 kbps
- Color space
- Rec. 709 · sRGB
Duración por canal
- Reels Instagram 15 – 60 s
- TikTok 15 – 90 s
- Shorts YouTube < 60 s
- YouTube largo sin límite
- Web embed sin límite
Pipeline de Reels verticales
Cómo se edita un video Galilei estilo Reel. Canvas vertical 1080×1920, sujeto habla a cámara, hook agresivo con pill verde, subtítulos word-by-word, b-rolls contextuales y color cards. Todo el sistema en una página, todo empaquetado como skill descargable para Claude.
El canvas vertical, mapeado.
Cada elemento tiene una zona asignada. Hook centrado con paddingBottom: 400 (mínimo 384px). Subtítulos en posición condicional (ver paso 04). Las cuatro bandas de UI de Instagram son terreno prohibido: top 14% · bottom 20% y los márgenes laterales de 5% (54 px) en cada lado.
- Zona UI · jamás texto ahí
- Zona segura · todo el contenido vive acá
- GaliGreen · solo en pill y keywords clave
El pipeline · cuatro fases
Once pasos agrupados por momento del proceso. De fuente a render, sin saltos.
Preparar
Roughcut
Cortar con ffmpeg concatenando segmentos limpios. Nunca filtro de ruido (afftdn destruye la voz). Eliminar silencios >0.5s, respiraciones y muletillas. Si hay duda sobre un corte, NO cortar.
J-Cut: el audio del clip siguiente empieza 6–12 frames antes de que cambie el video. Oculta errores de edición y dinamiza diálogos.
Match Cut: une dos escenas por similitud visual. Checklist: objeto similar en la misma región del frame, color/tono parecido en el punto de corte, movimiento de cámara en la misma dirección.
Zoom como disimulo: cuando no hay stock ni animación para tapar un corte abrupto, usar zoom push 1.0 → 1.08 → 1.0 en ~30 frames.
Transcripción
Faster-Whisper modelo medium con word_timestamps=true. Fix mojibake siempre antes de usar el JSON (latin1 → utf8). Verificar manualmente el hook.
Componer
Hook textual
Estructura fija: texto blanco 82px → pill #B3F131 70px → texto blanco 82px. Hook dura 3.5s. Antes de codificar, extraer frame con ffmpeg y decidir si va arriba o abajo según zona de cara.
Subtítulos
Radio Canada Big peso 700. Posición condicional (analizar un frame con ffmpeg antes de decidir): cara en zona superior (0–40%) o zona media → subtítulos abajo: top: 70%. Cara en zona inferior (60–100%) → subtítulos arriba: top: 14% (mín. 269 px). Tres tamaños: normal 62px, green keyword 72px lima, impact word 90px. Sombra negra doble. Cero subtítulos durante el hook.
Color card
Momento de impacto: fondo #171A1E + palabra centrada 90px blanca. Música pausada con startFrom para continuidad. Bubble pop SFX por palabra (+5dB).
Zoom cinematográfico
Zoom-out inicial de 1.2 → 1.0 en 24 frames con Easing.out. Picos puntuales en momentos definidos: 1.0 → 1.1 → 1.03 en 2 segundos. Nunca abrupto.
Capas
Audio · niveles
La voz original sin procesar manda sobre todo. Los niveles canónicos de música, SFX y b-rolls están en la mezcla de audio, más abajo en esta página.
B-rolls · contacto visual
Paso crítico: extraer frames cada 4-5s y evaluar si el sujeto mira al lente. SÍ mira → mostrar al personaje. NO mira → b-roll contextual o fondo oscuro. Nunca durante el hook.
Entregar
Margen seguro IG
Canvas 1080×1920: top 0-269px (14%) y bottom 1536-1920px (20%) son zona de UI. Hook arriba ≥269px o abajo paddingBottom ≥384px. Subtítulos en 70% caen dentro de seguro.
Capas
Orden fijo de abajo hacia arriba: video con zoom → b-rolls silenciados → música segmentada → SFX flash → subtítulos + hook + color card siempre encima.
Render
npx remotion render [CompositionId] out/[nombre]-final.mp4. Si falla por b-roll corrupto, verificar con ffprobe y reemplazar.
El hook · estructura inviolable
Texto blanco grande · pill GaliGreen · texto blanco grande. Tres líneas, 3.5 segundos, sin subtítulos ni b-roll encima. Esta es la fórmula que retiene la atención en los primeros frames.
Subtítulos · tres tamaños
Una palabra a la vez, sincronizada con la voz. Tres niveles de énfasis: la palabra normal, la keyword Galilei y el impact word.
Color card · el momento de pausa
Cuando hay que sostener una idea, todo se apaga: fondo oscuro, una palabra centrada. La música se corta (sigue después con startFrom) y un bubble pop SFX marca cada palabra a +5dB.
#171A1E · cubre todo el frame startFrom para retomar al salir Mezcla de audio · niveles canónicos
Cada elemento tiene su volumen lineal y su equivalencia en decibeles. La voz original manda sobre todo, siempre sin filtros.
0.1 · -20 dB0.562 · -5 dB1.778 · +5 dB0 · mutedB-rolls · árbol de decisión
Antes de cortar a b-roll, mirar a los ojos. El paso crítico que define el ritmo del Reel: si el sujeto está conectando con la cámara, no cortes. Si está leyendo o desviando la mirada, ahí entra el corte.
Sin b-roll. Esos frames son oro: conexión directa con el espectador.
Ojos en gestos de leer/recordar = ventana visual.
volume: 0 · sin audio · objectFit: cover
#171A1E Subtítulos respiran encima. Para momentos verbales o filosóficos.
Reglas inamovibles
El mapa de "no negociable". Cualquier Reel Galilei pasa este filtro antes de salir.
Siempre
- Audio original sin filtro de ruido.
- Fix mojibake del JSON de subtítulos antes de renderizar.
- Frame analysis para decidir hook arriba o abajo.
- Posición de subtítulos condicional según zona de cara (ver paso 04). Analizar frame con ffmpeg antes de decidir.
- Música pausada durante color card con
startFrom. - Verificar b-rolls con
ffprobeantes de usar.
Nunca
- Filtros de ruido (afftdn) sobre la voz.
- Subtítulos ni b-roll durante el hook.
- Tapar la cara con texto u overlay.
- Mezclar fondo oscuro con b-roll al mismo tiempo.
- Cortar si hay duda · esperar feedback del cliente.
- Saturar el reel de b-rolls continuos · matan el ritmo.
Overlays para video largo
Cuando el formato deja de ser un Reel y el espectador se queda 10, 20 o 60 minutos, el video necesita capas de texto que orienten sin interrumpir. Tres tipos, una sola gramática.
Nombre + rol
Presentar a quien habla cuando entra por primera vez al video largo.
- Tipografía
- Radio Canada Big · 24 px · 600
- Color
- Blanco sobre placa #0A0B0C · 85% opacidad
- Animación
- slide-up 300 ms · ease-out
- Posición
- bottom-left · padding 64 px
Métrica · data point
Mostrar un dato fuerte mientras la voz lo dice. Refuerzo numérico.
- Tipografía
- Space Grotesk · 32 px · 700 · tabular-nums
- Color
- GaliGreen #B3F131
- Animación
- count-up 600 ms
- Posición
- top-right o center · respira
Tag · categoría
Etiquetar la naturaleza del momento: testimonio, dato, definición.
- Tipografía
- Space Grotesk · 12 px · 700 · ALL CAPS
- Color
- #C7CCD4 · letter-spacing 0.18 em
- Animación
- fade-in 200 ms
- Posición
- arriba de la placa de identidad
Color y sonido
Lo que separa una pieza Galilei de una pieza correcta. Siete decisiones que aplican a cualquier formato, hechas antes de exportar.
Negros sin crush
Sombras con detalle. El #0A0B0C no aplasta. Si el monitor muestra crushing, levanta exposición de pieles 0.3 stops y reserva pure black solo para color cards.
Lima como pop, no filtro
GaliGreen entra en pill del hook, keyword del subtítulo y bullet de stats. Jamás como tinte global de toma. Máximo 10% del frame.
Pieles cálidas, no naranjas
Balance natural. Saturación entre 0% y +8%. Si la piel pega al amarillo o al rosa fluor, está mal calibrada.
Voz original, sin filtros
Nunca afftdn, denoise ni Whisper-clean. Destruyen la voz y suena bajo el agua. Mejor audio limpio de origen que filtro digital sobre la voz.
Música por debajo de la voz
La música de fondo siempre por debajo de la voz. Tracks licenciados (Artlist · Epidemic) sin drops agresivos. BPM 110–130 para Reels, 90–110 para video largo. Los niveles exactos viven en la mezcla de audio.
SFX como acentos
Flash de cámara en intro, bubble pop en color card, swish entre cortes. Tres SFX máximo por pieza. Más es ruido decorativo.
Silencio estratégico
Bajar la música a 0 antes de una revelación o conclusión clave. El recurso más infravalorado para generar impacto. Implementar con fade out/in de 6 frames en los extremos.