Alguna vez jugando Animal Crossing me pregunté como funcionan esas vocecitas. No hay actores de voz, no hay dialogo grabado, y aun asi el personaje se siente como si estuviera hablando. Queria entender el truco.
GibGen nacio de esa pregunta. Dado un texto, genera un clip de audio que suena como un personaje hablando, sin palabras reales, sin grabaciones, sin ningun asset de audio. Pura sintesis.
Como funciona
Tiene tres modos, cada uno con un enfoque distinto al mismo problema.
Procedural: formas de onda puras (sine, square, sawtooth, triangle). Rapido, retro, muy 8-bit.
Fonetico: carga una carpeta con tus propios samples y los une por caracter. Util si quieres algo mas organico.
Formante: el mas interesante. Usa filtros biquad para moldear un oscilador y producir algo que se parece a vocales. Sin archivos de audio, solo matematicas. Es lo mas cercano a como funciona Animal Crossing.
Los tres respetan envelopes ADSR, pitch, velocidad y variacion de tono. Todo es reproducible con seed, asi que el mismo texto siempre genera la misma voz.
Estado actual
Esto es un trabajo en progreso y un proyecto de aprendizaje activo. El motor de sintesis funciona. La GUI y la CLI tambien. Hay muchas aristas sin pulir todavia.
Si buscas algo listo para produccion, esto no es para ti aun. Si estas haciendo un game jam y quieres darle voz a tus personajes sin presupuesto, puede que sea exactamente lo que necesitas.