it-swarm.com.de

APIs für Text-zu-Text (Sprachgenerierung) und Spracherkennung (Spracherkennung)?

Gibt es eine umfassende Liste bekannter APIs für Desktop- oder Browserumgebungen?

15
Halst

Ich überarbeite und aktualisiere eine Antwort von Spracherkennung in C oder Java oder PHP? . Dies ist keineswegs umfassend, könnte aber ein Anfang für Sie sein


Nachdem ich diese Fragen einige Monate lang beobachtet habe, habe ich festgestellt, dass die meisten Entwicklerentscheidungen folgendermaßen aufgeschlüsselt sind:

Windows-Benutzer: Verwenden Sie die System.Speech-Funktionen von .Net oder Microsoft.Speech und installieren Sie die kostenlosen Erkennungsfunktionen, die Microsoft bereitstellt. Windows 7 enthält ein vollständiges Sprachmodul. Andere können kostenlos heruntergeladen werden. Es gibt eine C++ - API für dieselben Engines, die als SAPI bezeichnet werden. Siehe unter http://msdn.Microsoft.com/en-us/magazine/cc163663.aspx . oder http://msdn.Microsoft.com/en-us/library/ms723627(v=vs.85).aspx . Weitere Informationen zu Microsoft-Engines für Windows Was ist der Unterschied zwischen System.Speech.Recognition und Microsoft.Speech.Recognition?

Linux-Leute - Sphinx scheint eine gute Anhängerschaft zu haben. Siehe http://cmusphinx.sourceforge.net/ und http://cmusphinx.sourceforge.net/wiki/

Kommerzielle Produkte - Nuance , Loquendo , AT & T , IBM , andere. Jeder stellt seine eigenen SDKs und Bibliotheken für verschiedene Sprachen zur Verfügung.

Onlinedienst - Nuance , Yapme , ispeech.org , vlingo , andere. Nuance hat sein Entwicklerprogramm verbessert und gibt Ihnen jetzt freien Zugang zu seinen Diensten für die Entwicklung. Yap (glaube ich) war vor kurzem von Amazon gekauft , daher werden wir dort möglicherweise einige Änderungen sehen.

Dies kann natürlich auch hilfreich sein - http://en.wikipedia.org/wiki/List_of_speech_recognition_software

Es gibt eine Java-Sprach-API. Siehe javax.speech.recognition in der Java-Sprach-API http://Java.Sun.com/products/Java-media/speech/forDevelopers/jsapi-guide/Recognition.html . Ich glaube, Sie müssen noch ein Sprachmodul finden, das diese API unterstützt. Ich denke nicht, dass Sphinx es vollständig unterstützt - http://cmusphinx.sourceforge.net/sphinx4/doc/Sphinx4-faq.html#support_jsapi

Es gibt viele andere SO Fragen: Benötigen Sie Text zu Sprache und Spracherkennungstools für Linux und Pyspeech (Python) - MP3-Dateien transkribieren?http://code.google.com/p/pyspeech/ . Möglicherweise möchten Sie auch http://code.google.com/p/dragonfly/ aufrufen.

31
Michael Levy

Die führenden API-Anbieter für Text-to-Speech (Sprachgenerierung) sind YAKiToMe! und iSpeech. YAKiToMe! ist die, die ich benutze, weil mir ihre Sprachqualität am besten gefällt und sie am billigsten sind (meistens kostenlos). Sie unterstützen männliche und weibliche Sprecher in mehreren Sprachen. Einige der Sprachanbieter, wie Acapella, Nuance, Loquendo und iVona, haben anständige Stimmen, sind aber in der Verwendung tendenziell teuer.

2
Richard

Das geht so: Hinweis: Es ist eine API von Google und funktioniert daher nur im Chrome-Browser.

(Sehen Sie sich die Live-Demo an und laden Sie den vollständigen Quellcode hier herunter http://purpledesign.in/blog/?p=33 )

definieren Sie eine Schaltfläche

<input id="speech" type="text" speech="speech" x-webkit-speech="x-webkit-speech" onspeechchange="processspeech();" onwebkitspeechchange="processspeech();" />

und definieren Sie, was Sie in einer Funktion in Ihrer Javascript-Datei tun möchten

So was

   function processspeech()
   {
     var speechtext=$("#speech").val();
     var elem = document.getElementById("test");
     elem.value = speechtext;
     var notification="\"<span style=\"color:#F00; text-transform:uppercase;\">"+  speechtext + "</span>\" <br />*Is this what you said???";
    notify(notification);
}

Hier

<textarea> id="test"></textarea>

Die Rede ist im Textbereich geschrieben

1
Raj Sharma