La interfaz de programación de aplicaciones de voz (SAPI) es una interfaz de audio desarrollada por Microsoft. Diseñado para su uso dentro de los sistemas operativos Windows, la idea detrás de SAPI era hacer posible el uso de la síntesis y el reconocimiento de voz dentro de la función de varias aplicaciones de Windows. Se han lanzado diferentes versiones de Speech API desde que apareció la primera versión en 1995. Algunas son estándar con todos los sistemas operativos de Windows, mientras que otras están personalizadas para su uso con programas específicos.
La aplicación de SAPI amplía la gama de consumidores que pueden disfrutar del uso de programas basados en Windows. Debido al aspecto de reconocimiento de voz de SAPI, es posible que las personas que puedan estar físicamente limitadas por condiciones temporales o permanentes sigan trabajando con programas de procesamiento de texto y otros conceptos básicos. Al mismo tiempo, SAPI tiene la capacidad de traducir texto a la palabra hablada. Esta función puede ser especialmente útil para las personas con problemas de visión, ya que permite interactuar con el contenido de un sitio web o simplemente poder disfrutar de la recepción de correos electrónicos de amigos y familiares.
En las primeras versiones de SAPI, la capacidad de la interfaz era de calidad algo baja en comparación con las versiones que se utilizan hoy en día. La programación permitió la creación de una reproducción de sonido de naturaleza algo robótica. Si bien fueron efectivas para su época, las innovaciones en versiones posteriores mejoraron la calidad de la reproducción de la voz para incluir palabras habladas por humanos y archivadas para que las use el programa cuando sea necesario. Cuando una voz SAPI no se crea electrónicamente, a menudo se utilizan personas capacitadas en trabajo de voz para crear estos archivos. Por ejemplo, un intérprete que se gana la vida haciendo anuncios de radio o realizando trabajos de voz en off para comerciales en televisión sería un excelente candidato para crear archivos de texto a voz que puedan ser utilizados por SAPI.
La versión más reciente de SAPI incluye una serie de funciones mejoradas. Entre ellos se encuentra la capacidad de ajustar la velocidad, el volumen y el tono de la voz, así como mejorar la pronunciación. Las interpretaciones semánticas permiten obtener definiciones de palabras que no se entienden fácilmente. Las nuevas versiones de SAPI se lanzan cada pocos años, y cada versión ofrece alguna mejora o refinamiento de las funciones existentes que hacen que la interfaz sea cada vez más útil en una serie de aplicaciones.