Vaya más allá de la síntesis estándar. Nuestro nivel generativo de alta definición (HD) ofrece voces que respiran, hacen pausas y emiten emociones de manera natural.
Entrega Consciente del Contexto: El motor analiza el texto para entender si debe susurrar un secreto, gritar una advertencia o entregar noticias con autoridad.
Disfluencias Naturales: Capaz de insertar elementos humanos realistas como "ums," "uhs," y respiraciones para agentes conversacionales que suenan genuinamente espontáneos.
Inteligencia Afectiva: Ajusta dinámicamente el peso emocional (alegría, tristeza, urgencia) basado en el sentimiento de su guion.
Deje de depender de etiquetas de código rígidas. Controle la voz utilizando indicaciones en lenguaje natural.
Indicación a Voz: Simplemente dígale a la API: *"Lea esto como un narrador de cuento cansado"* o *"Hable esto rápidamente y con emoción como un comentarista deportivo."*
Pacing Granular: Ajuste el ritmo del habla hasta el milisegundo. Alargue pausas para un efecto dramático o acelere frases específicas para imitar un intercambio rápido.
Genere escenas de audio complejas con una sola llamada a la API.
Intercambio de Turnos Sin Problemas: Simule pódcast, entrevistas o roles de servicio al cliente donde múltiples voces distintas interactúan.
Contexto Unificado: El sistema mantiene el tono y el flujo de la conversación a través de diferentes altavoces, asegurando que no haya transiciones abruptas.
Nuestra infraestructura está diseñada para un despliegue global, asegurando que su aplicación hable el idioma de sus clientes—literalmente.
| Característica | Especificación |
|---|---|
| Cartera de Voces | Acceso a 380+ personas de voz distintas en todos los niveles. |
| Cobertura de Idiomas | Soporte nativo para 80+ idiomas y variantes (locales). |
| Accentos Regionales | Profundo soporte para matices regionales (por ejemplo, 5+ variantes de inglés, 3+ variantes de español y francés). |
| Nivel de Estudio | voces especializadas grabadas por actores de voz profesionales para contenido de formato largo (audiolibros/noticias) para eliminar la fatiga del oyente. |
Construido para desarrolladores que exigen confiabilidad y flexibilidad.
Latencia Ultra-Baja: La arquitectura del modelo "Flash" entrega audio en <300ms, habilitando conversaciones de voz interrumpibles en tiempo real para agentes de IA.
Audio de Alta Fidelidad:
Calidad de Estudio: Hasta 48 kHz de tasa de muestreo.
Salida Comprimida: (MP3) para post-producción.
Flexibilidad de Entrada: Acepta texto plano y indicaciones en lenguaje natural.
Transmisión Bidireccional: La reproducción comienza instantáneamente mientras el resto de la oración aún se está generando.
Agentes de IA Interactivos: Potencie bots de soporte al cliente que suenan empáticos y humanos, no robóticos.
Producción de Contenidos: Automatice la narración de audiolibros, creación de pódcast y doblaje de videos a una fracción del costo de un estudio.
EdTech y E-Learning: Genere lecciones dinámicas de aprendizaje de idiomas con pronunciación nativa perfecta en 80+ idiomas.
Juegos y VR: Cree NPCs (Personajes No Jugadores) dinámicos que puedan generar diálogo único sobre la marcha sin líneas pregrabadas.
Obtener lista de voces
{
"data": [
{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"type": "Premium",
"voice_id": "en-US-News-L"
}
],
"message": "success",
"success": true
}
curl --location --request GET 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21834/list+of+voices' --header 'Authorization: Bearer YOUR_API_KEY'
Crear texto a voz - Características del Endpoint
| Objeto | Descripción |
|---|---|
Cuerpo de la Solicitud |
[Requerido] Json |
{"data":"https://s3.us-east-1.amazonaws.com/invideo-uploads-us-east-1/speechen-US-News-L17664032245720.mp3","message":"success","success":true}
curl --location --request POST 'https://zylalabs.com/api/11558/ultra+text-to-speech+api/21835/create+text-to-speech' --header 'Authorization: Bearer YOUR_API_KEY'
--data-raw '{
"gender": "FEMALE",
"language_code": "en-US",
"language_name": "English (US)",
"voice_id": "en-US-News-L",
"text": "Stand by... we have a major development coming into the newsroom right now. After weeks of uncertainty—and hours of intense speculation—the decision has finally been made. The result? It is absolutely not what anyone expected! Sources on the ground are describing the atmosphere as tense... yet strangely hopeful. We are working to confirm the details at this very moment, so please... do not go anywhere."
}'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
El endpoint GET List of voices devuelve una lista de personas de voz disponibles incluyendo atributos como género código de idioma y tipo de voz El endpoint POST Create text-to-speech devuelve un enlace URL al archivo de audio generado junto con un mensaje de éxito
Para la lista de voces GET, los campos clave incluyen "género," "código de idioma," "nombre del idioma," "tipo," y "id de voz." Para el POST Crear texto a voz, los campos clave son "datos" (URL de audio), "mensaje," y "éxito"
El endpoint POST Crear texto a voz acepta parámetros como el texto que se va a convertir y señales de lenguaje natural opcionales para la modulación de la voz. Los usuarios pueden personalizar el estilo de entrega y el ritmo a través de estas señales
Los datos de respuesta para la solicitud GET Lista de voces están organizados en un formato JSON con un array de objetos de voz bajo la clave "data". La respuesta del POST Crear texto a voz incluye un único objeto con las claves "data", "message" y "success"
Los casos de uso típicos incluyen generar audio dinámico para agentes de IA interactivos automatizar la narración de audiolibros crear contenido educativo atractivo y mejorar las experiencias de juego con diálogos realistas de NPC
La precisión de los datos se mantiene a través de una combinación de grabaciones de actores de voz profesionales y algoritmos de IA avanzados que aseguran una síntesis de voz de alta calidad Las actualizaciones continuas y la retroalimentación de los usuarios también contribuyen a mejorar el rendimiento de la voz
Los usuarios pueden utilizar la URL de audio devuelta en la respuesta POST Crear texto a voz para reproducir o almacenar el audio generado. Los atributos de voz de la GET Lista de voces pueden ayudar a los usuarios a seleccionar la voz más adecuada para su aplicación
Los usuarios pueden esperar respuestas JSON estructuradas con indicadores de éxito claros Para la solicitud GET de la lista de voces los datos incluirán típicamente múltiples opciones de voz mientras que el POST de crear texto a voz devolverá un único enlace de archivo de audio tras un procesamiento exitoso
Los usuarios pueden personalizar su selección de voz utilizando los atributos devueltos en la lista GET de voces. Pueden filtrar las voces según el género el idioma y el tipo para encontrar la persona de voz más adecuada para su aplicación
La API admite salida de audio en formato MP3 para el audio de texto a voz generado Este formato es adecuado para la postproducción y la fácil integración en diversas aplicaciones
La característica de Inteligencia Afectiva de la API ajusta dinámicamente el peso emocional del discurso según el sentimiento del texto de entrada permitiendo una entrega más atractiva y contextualmente adecuada
El campo "data" en la respuesta POST Crear texto a voz contiene el enlace URL al archivo de audio generado Los usuarios pueden usar este enlace para reproducir o descargar el audio para sus aplicaciones
El motor de "diálogo" de múltiples hablantes permite a la API simular conversaciones con voces distintas manteniendo un contexto y tono unificados lo cual es esencial para crear interacciones realistas en podcasts o escenarios de atención al cliente
Las indicaciones en lenguaje natural permiten a los usuarios controlar el estilo de entrega de voz de manera intuitiva, lo que permite expresiones creativas como "habla con emoción" o "lee despacio" Esta flexibilidad mejora el impacto emocional y la participación del audio
La API ofrece un profundo soporte para acentos regionales proporcionando múltiples variantes para idiomas como inglés español y francés Esto asegura que el discurso generado resuene con las audiencias locales y mejore la conexión
Si los usuarios reciben una respuesta vacía, deben verificar la precisión y completitud de sus parámetros de entrada Asegurarse de que el texto y las indicaciones sean válidos puede ayudar a evitar resultados vacíos y mejorar la probabilidad de una generación de audio exitosa
Nivel de Servicio:
96%
Tiempo de Respuesta:
735ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.594ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
888ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
731ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
646ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.477ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
15ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
17ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
9.058ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
18ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
7.052ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.298ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.654ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
3.373ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
16ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.471ms