Audiovisual

Skills
/remotion-galilei-video
01Formato

Cómo entregamos

Galilei produce en dos aspect ratios. Reels manda en frecuencia: contenido corto, vertical, hecho para feed. El largo entra cuando el formato lo pide: webinars, casos, YouTube.

primary 9:16
Vertical 1080 × 1920 Reels · Stories · TikTok · Shorts
long-form 16:9
Horizontal 1920 × 1080 YouTube · webinars · embeds web · presentaciones

Ficha técnica

Codec
H.264
Frame rate
24 – 30 fps
Bitrate
12 – 16 Mbps
Audio
AAC · 256 kbps
Color space
Rec. 709 · sRGB

Duración por canal

  • Reels Instagram 15 – 60 s
  • TikTok 15 – 90 s
  • Shorts YouTube < 60 s
  • YouTube largo sin límite
  • Web embed sin límite
02Reels · Remotion

Pipeline de Reels verticales

Cómo se edita un video Galilei estilo Reel. Canvas vertical 1080×1920, sujeto habla a cámara, hook agresivo con pill verde, subtítulos word-by-word, b-rolls contextuales y color cards. Todo el sistema en una página, todo empaquetado como skill descargable para Claude.

top unsafe · 14%
bottom unsafe · 20%
5% · 54 px
5% · 54 px
A esta edad ya deberías tener un equipo
Galilei
top 70% · subtítulos
1080 × 1920
Anatomía

El canvas vertical, mapeado.

Cada elemento tiene una zona asignada. Hook centrado con paddingBottom: 400 (mínimo 384px). Subtítulos en posición condicional (ver paso 04). Las cuatro bandas de UI de Instagram son terreno prohibido: top 14% · bottom 20% y los márgenes laterales de 5% (54 px) en cada lado.

  • Zona UI · jamás texto ahí
  • Zona segura · todo el contenido vive acá
  • GaliGreen · solo en pill y keywords clave

El pipeline · cuatro fases

Once pasos agrupados por momento del proceso. De fuente a render, sin saltos.

A

Preparar

fuente → texto
01
Roughcut

Cortar con ffmpeg concatenando segmentos limpios. Nunca filtro de ruido (afftdn destruye la voz). Eliminar silencios >0.5s, respiraciones y muletillas. Si hay duda sobre un corte, NO cortar.

J-Cut: el audio del clip siguiente empieza 6–12 frames antes de que cambie el video. Oculta errores de edición y dinamiza diálogos.
Match Cut: une dos escenas por similitud visual. Checklist: objeto similar en la misma región del frame, color/tono parecido en el punto de corte, movimiento de cámara en la misma dirección.
Zoom como disimulo: cuando no hay stock ni animación para tapar un corte abrupto, usar zoom push 1.0 → 1.08 → 1.0 en ~30 frames.

02
Transcripción

Faster-Whisper modelo medium con word_timestamps=true. Fix mojibake siempre antes de usar el JSON (latin1 → utf8). Verificar manualmente el hook.

B

Componer

canvas → motion
03
Hook textual

Estructura fija: texto blanco 82px → pill #B3F131 70px → texto blanco 82px. Hook dura 3.5s. Antes de codificar, extraer frame con ffmpeg y decidir si va arriba o abajo según zona de cara.

04
Subtítulos

Radio Canada Big peso 700. Posición condicional (analizar un frame con ffmpeg antes de decidir): cara en zona superior (0–40%) o zona media → subtítulos abajo: top: 70%. Cara en zona inferior (60–100%) → subtítulos arriba: top: 14% (mín. 269 px). Tres tamaños: normal 62px, green keyword 72px lima, impact word 90px. Sombra negra doble. Cero subtítulos durante el hook.

05
Color card

Momento de impacto: fondo #171A1E + palabra centrada 90px blanca. Música pausada con startFrom para continuidad. Bubble pop SFX por palabra (+5dB).

06
Zoom cinematográfico

Zoom-out inicial de 1.2 → 1.0 en 24 frames con Easing.out. Picos puntuales en momentos definidos: 1.0 → 1.1 → 1.03 en 2 segundos. Nunca abrupto.

C

Capas

audio · b-rolls
07
Audio · niveles

La voz original sin procesar manda sobre todo. Los niveles canónicos de música, SFX y b-rolls están en la mezcla de audio, más abajo en esta página.

08
B-rolls · contacto visual

Paso crítico: extraer frames cada 4-5s y evaluar si el sujeto mira al lente. SÍ mira → mostrar al personaje. NO mira → b-roll contextual o fondo oscuro. Nunca durante el hook.

D

Entregar

stack → render
09
Margen seguro IG

Canvas 1080×1920: top 0-269px (14%) y bottom 1536-1920px (20%) son zona de UI. Hook arriba ≥269px o abajo paddingBottom ≥384px. Subtítulos en 70% caen dentro de seguro.

10
Capas

Orden fijo de abajo hacia arriba: video con zoom → b-rolls silenciados → música segmentada → SFX flash → subtítulos + hook + color card siempre encima.

11
Render

npx remotion render [CompositionId] out/[nombre]-final.mp4. Si falla por b-roll corrupto, verificar con ffprobe y reemplazar.

El hook · estructura inviolable

Texto blanco grande · pill GaliGreen · texto blanco grande. Tres líneas, 3.5 segundos, sin subtítulos ni b-roll encima. Esta es la fórmula que retiene la atención en los primeros frames.

A esta edad ya deberías tener un equipo duración 3.5s
Texto blanco 82 px · Radio Canada Big 700 · drop shadow doble
Pill 70 px · #B3F131 · texto negro · radius 999
Posición Cara arriba → hook abajo (paddingBottom 400) · Cara abajo → hook arriba (top 14%)

Subtítulos · tres tamaños

Una palabra a la vez, sincronizada con la voz. Tres niveles de énfasis: la palabra normal, la keyword Galilei y el impact word.

trabaja
Normal 62 px · blanco Cuerpo del discurso · narración corriente
Galilei
Keyword 72 px · GaliGreen Nombres propios · términos de marca · core
imposible
Impact 90 px · blanco Momentos de énfasis · golpes narrativos

Color card · el momento de pausa

Cuando hay que sostener una idea, todo se apaga: fondo oscuro, una palabra centrada. La música se corta (sigue después con startFrom) y un bubble pop SFX marca cada palabra a +5dB.

Galilei
Fondo #171A1E · cubre todo el frame
Palabra 90 px · blanco · centrada vertical y horizontal
SFX bubble-pop.mp3 por palabra · volume 1.778 (+5dB)
Música pausa con startFrom para retomar al salir

Mezcla de audio · niveles canónicos

Cada elemento tiene su volumen lineal y su equivalencia en decibeles. La voz original manda sobre todo, siempre sin filtros.

-30 dB -20 -10 0 +10
Música
0.1 · -20 dB
Flash SFX
0.562 · -5 dB
Bubble pop
1.778 · +5 dB
B-rolls
0 · muted

B-rolls · árbol de decisión

Antes de cortar a b-roll, mirar a los ojos. El paso crítico que define el ritmo del Reel: si el sujeto está conectando con la cámara, no cortes. Si está leyendo o desviando la mirada, ahí entra el corte.

¿Los ojos miran al lente?
Sí mira
Mostrar al personaje

Sin b-roll. Esos frames son oro: conexión directa con el espectador.

No mira
¿Hay b-roll contextual?

Ojos en gestos de leer/recordar = ventana visual.

B-roll contextual

volume: 0 · sin audio · objectFit: cover

No
Fondo oscuro #171A1E

Subtítulos respiran encima. Para momentos verbales o filosóficos.

Reglas inamovibles

El mapa de "no negociable". Cualquier Reel Galilei pasa este filtro antes de salir.

Siempre

  • Audio original sin filtro de ruido.
  • Fix mojibake del JSON de subtítulos antes de renderizar.
  • Frame analysis para decidir hook arriba o abajo.
  • Posición de subtítulos condicional según zona de cara (ver paso 04). Analizar frame con ffmpeg antes de decidir.
  • Música pausada durante color card con startFrom.
  • Verificar b-rolls con ffprobe antes de usar.

Nunca

  • Filtros de ruido (afftdn) sobre la voz.
  • Subtítulos ni b-roll durante el hook.
  • Tapar la cara con texto u overlay.
  • Mezclar fondo oscuro con b-roll al mismo tiempo.
  • Cortar si hay duda · esperar feedback del cliente.
  • Saturar el reel de b-rolls continuos · matan el ritmo.
03Lower thirds

Overlays para video largo

Cuando el formato deja de ser un Reel y el espectador se queda 10, 20 o 60 minutos, el video necesita capas de texto que orienten sin interrumpir. Tres tipos, una sola gramática.

PROOF POINT
Mariana Mejía Founder · Galilei

Nombre + rol

Presentar a quien habla cuando entra por primera vez al video largo.

Tipografía
Radio Canada Big · 24 px · 600
Color
Blanco sobre placa #0A0B0C · 85% opacidad
Animación
slide-up 300 ms · ease-out
Posición
bottom-left · padding 64 px
90% juega cada semana

Métrica · data point

Mostrar un dato fuerte mientras la voz lo dice. Refuerzo numérico.

Tipografía
Space Grotesk · 32 px · 700 · tabular-nums
Color
GaliGreen #B3F131
Animación
count-up 600 ms
Posición
top-right o center · respira
TESTIMONIO

Tag · categoría

Etiquetar la naturaleza del momento: testimonio, dato, definición.

Tipografía
Space Grotesk · 12 px · 700 · ALL CAPS
Color
#C7CCD4 · letter-spacing 0.18 em
Animación
fade-in 200 ms
Posición
arriba de la placa de identidad
04Polish

Color y sonido

Lo que separa una pieza Galilei de una pieza correcta. Siete decisiones que aplican a cualquier formato, hechas antes de exportar.

Color

Negros sin crush

Sombras con detalle. El #0A0B0C no aplasta. Si el monitor muestra crushing, levanta exposición de pieles 0.3 stops y reserva pure black solo para color cards.

Color

Lima como pop, no filtro

GaliGreen entra en pill del hook, keyword del subtítulo y bullet de stats. Jamás como tinte global de toma. Máximo 10% del frame.

Color

Pieles cálidas, no naranjas

Balance natural. Saturación entre 0% y +8%. Si la piel pega al amarillo o al rosa fluor, está mal calibrada.

Sonido

Voz original, sin filtros

Nunca afftdn, denoise ni Whisper-clean. Destruyen la voz y suena bajo el agua. Mejor audio limpio de origen que filtro digital sobre la voz.

Sonido

Música por debajo de la voz

La música de fondo siempre por debajo de la voz. Tracks licenciados (Artlist · Epidemic) sin drops agresivos. BPM 110–130 para Reels, 90–110 para video largo. Los niveles exactos viven en la mezcla de audio.

Sonido

SFX como acentos

Flash de cámara en intro, bubble pop en color card, swish entre cortes. Tres SFX máximo por pieza. Más es ruido decorativo.

Sonido

Silencio estratégico

Bajar la música a 0 antes de una revelación o conclusión clave. El recurso más infravalorado para generar impacto. Implementar con fade out/in de 6 frames en los extremos.