Las aplicaciones de reconocimiento de voz permiten a nuestro ordenador y nuestro teléfono convertir las palabras en un texto que luego podremos editar. Son programas que han mejorado a lo largo de los últimos años gracias al desarrollo de procesadores mucho más potentes y que permiten realizar las transcripciones de forma casi instantánea. Al principio, estas aplicaciones estaban orientadas a entornos profesionales donde fuera necesario un uso intensivo de la transcripción de discursos y notas, o bien para los usuarios con discapacidad, como una forma de interactuar con un ordenador de modo más accesible. Sin embargo, en los últimos años se han abierto a todas las personas y se han adaptado a los dispositivos móviles como una forma más natural de comunicarse.
Cuando deseemos utilizar estas aplicaciones, es imprescindible que estemos correctamente situados delante del micrófono interno del ordenador o teléfono, o bien debemos adquirir un conjunto de auriculares y micrófono que le permita al programa captar la voz y timbre de forma más precisa y correcta. Por otro lado, son programas que a menudo disponen de mecanismos de autoentrenamiento para aprender el tono en el que hablamos y, de esta forma, minimizar el número de errores cometidos en la transcripción. Es imprescindible realizar estos ejercicios previos para conseguir una mayor precisión y que la aplicación trabaje de forma correcta en un uso habitual.
Dragon Naturally es un programa muy popular orientado a convertir en texto nuestra voz. Incluye otras funciones de reconocimiento para navegar por Internet y controlar el ordenador mediante comandos de voz. Esta aplicación dispone de diferentes versiones, según las necesidades y requerimientos del sistema operativo del ordenador: Windows o Mac Os X. La versión doméstica tiene un coste de 99 euros y permite tomar notas de voz para transcribirlas en texto, que luego puede enviarse por correo electrónico.
Los usuarios pueden tomar notas de voz y enviar el texto transcrito por correo electrónico sin necesidad de utilizar el teclado
El mismo fabricante, Nuance, dispone de una línea de productos pensada para transcribir la voz en texto desde dispositivos portátiles y smartphones. De esta forma, los usuarios pueden tomar notas de voz y enviar el texto transcrito por correo electrónico sin necesidad de utilizar el teclado, que a menudo es pequeño y poco usable. Dragon Dictation está disponible de forma gratuita para los dispositivos de Apple iPhone, iPad e iPad Touch, junto con versiones para teléfonos Blackberry y los modelos que funcionen con Android.
Como función incluida en el navegador
Los usuarios no solo podemos transcribir la voz a texto mediante el uso de aplicaciones informáticas. Una de las últimas especificaciones de HTML 5, la nueva versión del lenguaje básico que estructura la Web, está orientada a proveer de una API -conjunto de instrucciones de programación- para incorporar el reconocimiento de voz. Esta especificación, impulsada por Google, es de momento un borrador de trabajo orientado al dictado de palabras y frases que luego puedan transcribirse para su uso en formularios de texto o en diferentes servicios web. De esta forma, los usuarios no necesitarán teclear un término de búsqueda en un buscador o rellenar un campo de texto de un formulario.El reconocimiento de voz y su transcripción a texto se ha añadido en la última versión del navegador Chrome
De momento, la función se ha añadido en la última versión del navegador Chrome, la 11, y Google ha creado un sitio web donde usuarios y desarrolladores pueden experimentar con esta tecnología. Para utilizarla es necesario acceder con alguna de las últimas versiones de Chrome. Si aprueba esta especificación el consorcio W3C, encargado de los estándares web, en el futuro el resto de navegadores, como Firefox, Opera o Internet Explorer, podrían implementarla.
Por su parte, Apple ha presentado una patente en Estados Unidos para el reconocimiento de voz y control de la misma desde sus aparatos móviles. Esta tecnología está orientada a momentos en que la conversación no es clara debido a incidencias en la comunicación, falta de cobertura o un ambiente ruidoso. De esta forma, el sistema se encargaría de convertir a texto la voz del interlocutor en cualquier momento de la conversación y la transcripción se publicaría en la pantalla del dispositivo del otro usuario. Para responder, este usuario podría escribir un mensaje de texto.
En el verano de 2009, la BBC denunció que la empresa británica de reconocimiento de voz para teléfonos móviles Spinvoxutilizaba “call centers” ubicados principalmente en Sudáfrica y Filipinas para transcribir de forma manual los mensajes de voz de los usuarios del sistema a SMS, con la consiguiente pérdida de privacidad, al ser un humano el encargado de transcribir el mensaje. Spinvox alegó que recurrían a “call centers” como parte del proceso de aprendizaje necesario en este tipo de tecnologías, ya que esta empresa también utilizaba un sistema informático para transcribir los mensajes de forma automatizada, pero en caso de que el sistema no reconociera la voz del usuario, el mensaje de voz se enviaba a un operador para su transcripción manual.
El problema, según la denuncia de la BBC, está en que el sistema no funcionaba demasiado bien y empleados de estos “call centers” convertían a texto la mayoría de los mensajes. A finales de 2009, la empresa, junto con su sistema de reconocimiento de voz, se vendió a Nuance, interesada en los algoritmos de reconocimiento de voz desarrollados por Spinvox.