Spracherkennung

50 %
50 %
Information about Spracherkennung
Technology

Published on November 19, 2009

Author: kolonyevi

Source: slideshare.net

Description

Referat zum Thema "Spracherkennung" im Fach "Computerlinguistische Grundlagen" an der Universität zu Köln.

SPRACHERKENNUNG UNIVERSITÄT ZU KÖLN COMPUTERLINGUISTIK IM WS 2008 / 09 JENNIFER STEINBACH BILAL ERKIN Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

SPRACHERKENNUNG  Was ist Spracherkennung?  Unter Spracherkennung (engl. speech recognition) versteht man das Erkennen gesprochener Sprache. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

GESCHICHTE • Erforschung von Spracherkennungssystemen seit den 1960er Jahren • bis zum Beginn der 1980er Jahre wenig Fortschritte; Erkennung von gerade mal einigen hundert Einzelwörtern • im Jahre 1962 wird von IBM das erste Sprachausgabegerät vorgestellt • ab 1988 Entwicklung von TANGORA deutsch in Heidelberg, es umfasst etwa 2020-30 tausend Wörter; Einsatzgebiete in der Medizin, dem Gerichtswesen sowie der Geschäftskorrespondenz • IBM entwickelt 1992 SpeechServer als Client/Server Client/Server-System - Server benötigte RISC-Prozessoren - Kostenpunkt um die 10.000$ • IBM entwirft 1993 erneut ein Spracherkennungssystem  Personal DictationSystem (heute: IBM VoiceType) - Spracherkennung erstmals für den breiten Markt - Kostenpunkt unter 1.000$ • 1994 konzipiert die Firma Philips DictationSystems das erste Client/Server Client/Server-System für Spracherkennung • drei Jahre später entwickelte Philips DictationSystems das erste Konsumentenprodukt (FreeSpeech98) Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

SPRACHERKENNUNG  Sprecherunabhängige Spracherkennung  Keine Trainingsphase  Geringer Wortschatz  Mehrere Benutzer möglich  Sprecherabhängige Spracherkennung  Anpassung auf den jeweiligen Benutzer  Trainingsphase  Keine wechselnden Benutzer möglich Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HERAUSFORDERUNGEN HERAUSFORDERUNGE AUSSPRACHE UMGEBUNGSGERÄUSCHE HOMOPHONE VOKALERKENNUNG Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

AUSSPRACHE  Diskrete Sprache  Künstliche Pause zwischen den Wörtern  Kontinuierliche Sprache  Flüssige Aussprache ohne Pause Bilder: www.wikipedia.de Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

UMGEBUNGSGERÄUSCHE  Bürolärm  Fahrgeräusche  Andere Personen  Rauschen der Telefonleitung  Diese sollten entfernt werden Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HOMOPHONE  Wörter die identisch klingen, aber eine andere Bedeutung haben  Meer ≠ mehr  Graf ≠ Graph  Usw… Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

VOKALERKENNUNG  Vokale sind von ihren Frequenzbereichen zu unterscheiden  „O“ liegt im Frequenzbereich tiefer als „E“ Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

REALISIERUNG VORVERARBEITUNG MERKMALSEXTRAKTION UNTEREINHEITENVERGLEICH HIDDEN-MARKOV-MODELLE SYNTAKTISCHE / SEMANTISCHE ANALYSE Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

VORVERARBEITUNG  Entfernung von Störgeräuschen  Entfernung von Sprachsignalen anderer Personen Ziel: Vereinfachung und Beschleunigung der Weiterverarbeitung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

MERKMALSEXTRAKTION  Blockweise Aufteilung des Audiosignals  Abfolge von Merkmalsvektoren Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

UNTEREINHEITENVERGLEICH  Umwandlung der Merkmalsvektoren in Phoneme, Silben und Wörter  Angewendete Sprachmoddelle:  Hidden-Markov-Modelle  Neuronale Netze  … Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MARKOV-MODELLE  Stochastische Methode, um Phoneme zu finden, die am besten zu den Eingangssignalen passen  Fehlt ein wichtiges Phonem, kann das Wort nicht zugeordnet werden  HMMs berechnen die Wahrscheinlichkeit aus welcher Folge von Phonemen das Wort enstanden sein könnte Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE MARKOV  Jedes Phonem wird durch einen Zustand dargstellt O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE - II MARKOV  Übergänge zu den nächsten Zuständen enthalten Wahrscheinlichkeitswerte O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Aussuchen eines Phonems und Vergleich mit dem Audiosignal  Wiederholdung, falls keine Übereinstimmung Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Ausgabe des Phonems bei Übereinstimmung O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE - Ablauf MARKOV  Übergang zum nächsten Zustand O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

HIDDEN-MARKOV MODELLE – Ablauf MARKOV  HMMs können auch auf anderen Ebenen angewendet werden (Syntax, Semantik) O F E N Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

SYNTAKTISCHE / SEMANTISCHE ANALYSE  Syntaktische Analyse  Zulassung von Wörtern, die nur im Wörterbuch vorhanden sind  Vorgegebene Reihenfolge der Wörter (Grammatik)  Semantische Analyse  Erkennung der Satzstruktur Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

PERSPEKTIVEN  Keinen universellen Spracherkenner  Systeme für spezielle Anwendungen  Optimierung bei der Entfernung der Umgebungsgeräusche  Erkennung unbekannter Wörter Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

WINDOWS VISTA - SPRACHERKENNUNG • Windows Vista verfügt über leistungsstarke Sprachfeatures • Mit Hilfe dieser Sprachfeatures wird dem Anwender ermöglicht, den Computer statt mit der Tastatur oder der Maus mittels Sprachbefehlen zu steuern. • Die Spracherkennung unter Windows Vista ermöglicht die Interaktion mit dem Computer per Stimme. • Es können Dokumente und E E-Mail-Nachrichten in gängigen Anwendungen diktiert und Formulare im Internet mit Hilfe von Sprachbefehlen ausgefüllt werden. Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

SPRACHERKENNUNG - ENTWICKLUNG • Entwicklung von multilingualen Spracherkennungssystemen • Multilinguale Spracherkennungssysteme: o Dies sind Systeme, die für mehrere Sprachen gleichzeitig genutzt werden können. Vorteile: - man kann während des Diktiervorgangs zwischen den Sprachen wechseln Nachteile: - Entwicklung sehr kostspielig, da erst das gesamte Vokabular der jeweiligen Sprache erfasst werden muss - Entwicklungsdauer somit sehr lang - es gibt bis jetzt kein System, das diese Fähigkeiten aufweist Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

QUELLENNACHWEIS • http://digbib.ubka.uni-karlsruhe.de/volltexte/1000008467 karlsruhe.de/volltexte/1000008467 • http://www.lars-lehre.de/download/Vorlesung5.pdf • http://www.fh-wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm wedel.de/~si/seminare/ss01/Ausarbeitung/a.sprache/gdlgsprerk12.htm • Vater, H. (1994): Einführung in die Sprachwissenschaft. München: Fink. • Carstensen, K.U., Ebert, C., Endriss, C., Jekat, S., Klabunde, R., Langer, H. (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung (2. Auflage). Heidelberg, Berlin: Spektrum. • Euler, Stefan: Grundkurs Spracherkennung, Vieweg-Verlag, Wiesbaden, 2006. Verlag,  Mitkov, Ruslan (hrsg.): The Oxford handbook of computational linguistics, Oxford University Press, Oxford, 2005.  www8.informatik.uni-erlangen.de/IMMD8/Lectures/AI- -GAMES/SS2002/hs/vortraege/12062002/VoiceCCC.ppt  http://nats-www.informatik.uni-hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html hamburg.de/~cri/MTPraktikum02_03/Paper_Signal/Slide006.html Computerlinguistik WS 2008 / 09 Bilal Erkin & Jennifer Steinbach

Add a comment

Related presentations

Presentación que realice en el Evento Nacional de Gobierno Abierto, realizado los ...

In this presentation we will describe our experience developing with a highly dyna...

Presentation to the LITA Forum 7th November 2014 Albuquerque, NM

Un recorrido por los cambios que nos generará el wearabletech en el futuro

Um paralelo entre as novidades & mercado em Wearable Computing e Tecnologias Assis...

Microsoft finally joins the smartwatch and fitness tracker game by introducing the...

Related pages

Einrichten der Spracherkennung - Windows-Hilfe

Im Lieferumfang von Windows ist ein Sprachlernprogramm enthalten, mit dessen Hilfe Sie die mit der Spracherkennung verwendeten Befehle lernen können.
Read more

Spracherkennung funktioniert!

Auf Ihre Bedürfnisse zugeschnitten Die neuen Versionen Dragon Professional Individual (DPI) und Dragon Legal Individual (DLI) sind die professionelle ...
Read more

Spracherkennung – Wikipedia

Die Spracherkennung oder auch automatische Spracherkennung ist ein Teilgebiet der angewandten Informatik, der Ingenieurwissenschaften und der ...
Read more

Automatische Spracherkennung, Spracherkennungssoftware ...

Software für Spracherkennung - aktuelle Marktübersicht. Spracherkennungssoftware unterstützt viele Berufsgruppen mit einem hohen schriftlichen ...
Read more

Windows 8.1: Spracherkennung optimal nutzen - Tipps ...

Die Spracherkennung in Windows 8.1 ist gut gelungen und eine echte Überraschung. Noch ist sie unheitlich integriert, aber ab 2015 will Microsoft laut ...
Read more

Spracherkennung - Golem.de

Spracherkennung. Entwickler versuchen, Computern und anderen Geräten beizubringen, gesprochene Worte zu erkennen. Das soll deren Bedienung vereinfachen ...
Read more

Der Bestellshop für Dragon Spracherkennung von Nuance ...

Bestellshop für Dragon Spracherkennung von Nuance und Diktiergeraete von Grundig, Philips und Olympus. Wenn Sie nicht ueber unseren Shop bestellen wollen ...
Read more

Spracherkennung | heise online

News und Hintergründe zum Thema Spracherkennung bei heise online.
Read more

Nuance Healthcare I Entdecken Sie Spracherkennung für das ...

Machen Sie moderne Anwendungen nutzbar, ohne das Verhältnis zwischen Arzt und Patient zu beinträchtigen. Daten erfassen, einfach, schnell und fehlerfrei.
Read more

Gesagt, getan: Sprachprogramm Dragon 13 im Praxistest

Spracherkennung: Das war doch immer die Technik, die nicht perfekt funktionierte, oder? Jenseits mancher Anekdote zum Thema „Der PC bittet zum Diktat ...
Read more