Speech to Text (STT) und Text to Speech (TTS)

OCI Speech ist ein KI-Dienst, der sowohl Sprache in Text transkribiert als auch Sprache aus Text synthetisiert. Erhalten Sie genaue, textnormierte, mit Zeitstempeln versehene Transkriptionen und synthetisierte Stimmen über OCI Console, OCI Data Science-Notizbücher und REST-APIs sowie CLIs oder SDKs.

OCI Speech-Funktionen

Vorkonfigurierte akustische und sprachliche Modelle

OCI Speech verwendet die automatische Spracherkennung, einen Deep Learning-Prozess, um eine genaue Transkription aus natürlichen Unterhaltungen abzuleiten. Beginnen Sie ganz einfach mit vorgefertigten akustischen und sprachlichen Modellen, für die keine Data Science-Erfahrung erforderlich ist.

Analysieren von Daten aus Audio- und Videodateien

Suchen, Indexieren und Entschlüsseln von in Ihren Audiodateien versteckten Daten. Konvertieren aufgezeichneter Audiounterhaltungen in Textdaten zur Analyse mit KI-Services. Verwenden Sie beispielsweise OCI Language, um die Stimmung abzurufen, und die Anomalieerkennungsfunktionen von OCI Speech, um die Wahrscheinlichkeit einer Kundenabwanderung zu ermitteln.

Echtzeit-Transkription

Die nun in begrenzter Verfügbarkeit erhältliche Echtzeit-Transkriptionsfunktion von OCI Speech ermöglicht es Ihnen, Audiostreams zu senden und innerhalb von Sekunden genaue Transkriptionen zu erhalten.

Neuronales Text-to-Speech (TTS)

Die Text-to-Speech-Funktion in OCI Speech ist jetzt in begrenzter Verfügbarkeit erhältlich und ermöglicht es Ihnen, aus Text in verschiedenen Anwendungen eine menschenähnliche Sprache zu synthetisieren. Die Funktion verbessert die Kommunikation mit Kunden, ermöglicht mehrsprachige Stimmübersetzungen und eine bessere Zugänglichkeit. Wählen Sie aus einer Vielzahl von Stimmen aus, um die Interaktion zu verbessern.

Nativer mehrsprachiger Support

Die ASR-Modelle von OCI Speech unterstützen Englisch, Spanisch, Portugiesisch, Deutsch, Französisch, Italienisch und Hindi, sodass Sie Ihre Audiodateien in Ihrer bevorzugten Sprache transkribieren können. Darüber hinaus unterstützt OCI Speech auch das OpenAI Whisper-Modell, das standardmäßig mehr als 57 unterstützte Sprachen bietet. Erfahren Sie mehr über OCI und das Whisper-Modell.

Diarisierung für mehr Lesbarkeit und Verständnis

OCI Speech unterstützt die Erstellung von Tagebüchern, um Informationen zu organisieren, zu analysieren und aussagekräftige Informationen aus den Beiträgen mehrerer Sprecher zu extrahieren.


Integrierter Transkriptions-Service

Schaffen Sie die Abhängigkeit von Transkriptionsangeboten von Drittanbietern ab und üben Sie mehr Kontrolle über Ihre Daten durch End-to-End-Sicherheit und -Compliance aus.

Einfach zu integrieren

OCI Speech ist ein vielseitiger Service, der über REST-APIs, verschiedene SDKs und die Oracle CLI aufgerufen werden kann. Entwickler können einfach einen skalierbaren Sprachservice bereitstellen, ohne Data Science oder ML-Kenntnisse besitzen zu müssen.

Speziell entwickelt für Sicherheit und Datenschutz

Oracle Cloud Infrastructure Speech schützt die Privatsphäre unserer Kunden. Vordefinierte automatische Spracherkennungsmodelle übertragen Ihre Inhalte, speichern jedoch keine Daten für Schulungen, Debugging oder andere Zwecke.


Integrierter Transkriptions-Service

OCI Speech verwendet proprietäre Modelle und Architektur, die eine schnelle Konvertierung von Sprache in Text ermöglichen.

Konfidenzscore pro Wort

Wir haben einen Konfidenzscore auf Wortebene hinzugefügt, um Wörter zu identifizieren, die möglicherweise falsch transkribiert wurden. Mit dem Wortkonfidenzscore können Sie bestimmen, wo beim Erstellen einer Anwendung der Fokus liegt.

Obszönitätsfilter

Wir haben eine vorkonfigurierte Wortfilterung mit einer kuratierten Liste von Obszönitäten hinzugefügt. Sie können Obszönitäten maskieren, entfernen oder taggen.


Unsere Echtzeit-Spracherkennung sorgt dafür, dass Ihre Worte genau transkribiert werden, während Sie ganz natürlich sprechen, und ermöglicht so eine nahtlose und unterbrechungsfreie Kommunikation.
Michael Zhang, Senior Principal Product Manager, Oracle

Anwendungsfälle für OCI Speech

Inhaltssuche und Untertitel in den digitalen Medien

Automatische Bereitstellung von Untertiteln während des Workflows auf der OCI-Plattform für alle Inhalte, die von digitalen Mediendiensten erstellt und kuratiert werden. Indexieren Ihrer Inhalte mit OCI Speech, um Ihre Inhalte problemlos zu durchsuchen.

Kundenfeedback und Anrufanalyse

Transkribieren Sie Kundenanrufe, um Informationen leichter suchen und abrufen zu können. Verwenden Sie OCI Language, um die Stimmung zu erkennen sowie Kundenabwanderung und Schulungsmöglichkeiten für Mitarbeiter zu ermitteln.

Medizinisches Diktat

Durch die Echtzeit-Transkription können Ärzte und Krankenschwestern Patientendaten unterwegs erfassen, was zu einer höheren Effizienz und besseren Behandlungsergebnissen führt.

Verbesserte Barrierefreiheit

Neuronale Text-to-Speech-Technologie bietet eine menschliche Stimme mit hoher Genauigkeit und Intonation und damit mehr Optionen für barrierefreie Funktionen.

OCI Speech-Ressourcen

Erste Schritte mit OCI Speech


Oracle Cloud Free Tier

Erstellen, testen und implementieren Sie Anwendungen in Oracle Cloud – und das kostenlos.


Häufig gestellte Fragen

Antworten auf alle Ihre Fragen zu OCI Speech.