Vos a texto con inteligencia artificial assemblyia
En ocasiones necesitamos convertir vos a texto , aunque existen buenas aplicaciones fáciles de manejar e incluso gratis si el audio es pequeño , es una buena opción poder hacerlo desde nuestra propia consola , para lo cual solo se requiere tener instalado python e importar una librería de inteligencia artificial llamada assemblyia.
El sus sitio muestra como hacerlo en diferentes SDK y lenguajes.Es importante la selección del archivo de entrada en formato MP3 o WAV en general , la salida es tipo txt y para mejores resultados usar los parámetros que la librería proporciona para hacer ajustes, como son la separación de párrafos mediante el manejo de pausas por ejemplo.
Explicación de parámetros utilizados en este script.
1. **`language_code="es"`**:
- Este parámetro especifica el idioma del audio que se va a transcribir. En este caso, "es" corresponde al idioma español.
- Es importante establecer el idioma correcto para que el modelo de transcripción pueda procesar el audio de manera más precisa.
2. **`speaker_labels=True`**:
- Este parámetro habilita la detección de diferentes hablantes en el audio.
- Cuando está activado, la transcripción separará el texto por hablante, mostrando quién dijo cada parte del texto.
- Esto es útil cuando tienes múltiples personas hablando en el audio, como en una reunión o entrevista.
3. **`punctuate=True`**:
- Este parámetro hace que la transcripción incluya signos de puntuación, como puntos, comas, etc.
- Esto mejora la legibilidad y la estructura del texto transcrito, haciéndolo más similar a un texto escrito.
4. **`format_text=True`**:
- Este parámetro formatea el texto transcrito, aplicando la capitalización adecuada y realizando otros ajustes de formato.
- Esto ayuda a que el texto transcrito se vea más profesional y coherente.
5. **`content_safety=True`**:
- Este parámetro habilita la detección de contenido potencialmente ofensivo o inapropiado en el audio.
- Puede ser útil para moderar el contenido y asegurarse de que la transcripción no contenga lenguaje inapropiado.
6. **`iab_categories=True`**:
- Este parámetro permite obtener información sobre las categorías IAB (Interactive Advertising Bureau) detectadas en el contenido del audio.
- Las categorías IAB son una taxonomía estándar utilizada en la industria publicitaria para clasificar el contenido.
- Esta información puede ser útil para entender el tema o contexto del audio transcrito.
7. **`entity_detection=True`**:
- Este parámetro activa la detección de entidades nombradas, como personas, organizaciones, ubicaciones, etc.
- La transcripción incluirá información sobre las entidades detectadas en el audio.
- Esto puede ser valioso para extraer información relevante, como nombres de personas o empresas mencionadas.
Estos parámetros permiten personalizar y mejorar la calidad de la transcripción, proporcionando información adicional que puede ser útil para diferentes casos de uso, como transcripción de reuniones, análisis de contenido, entre otros.
Es importante tener en cuenta que la disponibilidad y el comportamiento de algunos de estos parámetros pueden variar según la versión y las capacidades del API de AssemblyAI que estés utilizando. Por eso es importante revisar la documentación de la API y realizar pruebas para asegurarte de que los parámetros funcionan como esperas.
Si tienes alguna otra pregunta sobre estos parámetros o necesitas más aclaraciones, no dudes en preguntar.
Debemos registrarnos en : https://www.assemblyai.com/ para que nos proporciones un apikey con el cual podemos convertir audio a viseo y viceversa. con 416 horas libres como parece en su sitio web.
Instalar assemblyai mediante;
# usar pip o pip3 de acuerdo a su instalación
$ sudo pip install assemblyai
python transcripy.py
**********************************************************************
import assemblyai as aaiimport time
# Configurar la API key (asegúrate de reemplazar esto con tu API key real)
aai.settings.api_key = "SU APIKEY AQUI"
# Configurar el archivo de entrada y salida
archivo_entrada = "/home/ec2-user/valeria.mp3"
archivo_salida = "transcripcion.txt"
# Configurar el modelo de transcripción
config = aai.TranscriptionConfig(
language_code="es",
speaker_labels=True,
punctuate=True,
format_text=True,
content_safety=True,
iab_categories=True,
entity_detection=True
)
# Crear un nuevo objeto de transcripción
transcriber = aai.Transcriber()
# Iniciar la transcripción
transcript = transcriber.transcribe(archivo_entrada, config)
# Esperar a que la transcripción se complete
while transcript.status != "completed":
print(f"Estado de la transcripción: {transcript.status}")
time.sleep(5)
transcript = transcriber.get_transcript(transcript.id)
# Procesar la transcripción
with open(archivo_salida, "w", encoding="utf-8") as f:
current_speaker = None
for utterance in transcript.utterances:
if utterance.speaker != current_speaker:
f.write(f"\n\nHablante {utterance.speaker}:\n")
current_speaker = utterance.speaker
f.write(f"{utterance.text} ")
print(f"Transcripción completada y guardada en {archivo_salida}")
Comentarios
Publicar un comentario