智能语音识别

功能介绍
录音文件识别
支持长时长录音文件识别,离线版本不限制时长,取决于终端设备的内存大小。适用于长语音、实时性要求不高的场景,如智能质检等。
实时语音识别
对实时音频流进行识别,达到"说完即出文字”的效果。适用于实时性要求较高的场景,如语音输入、电话机器人等。
一句话识别
对一句话短音频文件进行识别,离线版本支持超过1分钟时长的识别。
产品优势
支持高并发低延时的实时转写
提供实时的语音转写为文字服务,支持主流传输协议。在维持高准确率、高并发通路数的基础上,实现端到端低延时,低于当前行业实际平均水平。
说话人识别准确率高
识别准确率高,采用国际领先的语音语言一体化建模方法 ,融合硅基自研的深度自然语言处理技术,基于大量自建的行业录音数据进行训练,大幅提高识别准确率。
多领域智能语义解析
支持数十个行业细分领域的语义理解,如:金融,保险,政务在不同场景下更准确地理解用户意图。
多形式部署
支持本地化的私有部署或者云端的私有部署模式。我们将根据实际业务量,为您推荐高效的云端或本地服务器配置。

智能语音合成

功能介绍
语音支持
支持中文、英文、中英文混读
语速、音调可调节
支持多种参数配置,可根据场景需求对音库的语速、音调、音量进行灵活设置,满足个性化需求
专属的语音定制
提供可定制化的语音服务功能,以发音人为基准定制出专属的语音合成效果
高度智能的文本处理能力
采用高度智能的学习方法,结合多种上下文语境特征对多音字的读法进行智能判断,以确保多音字发音正确
完善的文本标记功能
语音合成系统提供了多种简单文本标记功能来为用户改善合成效果,满足更多自定义语音效果
丰富的场景应用
支持在线、离线融合两种应用方式,弱网环境下也能提供效果稳定的合成播报,满足不同的场景需求
核心优势
多音色多语言覆盖
  • 支持中、英语种
  • 针对不同语种,能够很好地支持不同地区的口音
  • 部分音色支持跨语言混读能力
可自定义的合成方式
  • 支持标记语言( SSML )方式的合成方式
  • 支持对音量、语速、音高等参数进行动态调整
  • 企业可以快速定制化,差异化的合成
贴近真人的音色听感
  • 业界领先的语音合成技术,精品音库,合成效果流畅自然、发音清晰
  • TTS音色高拟真度还原,贴近真人音色听感
丰富的调用方式
  • 支持在线、离线调用
  • 支持手机APP端、呼叫中心、车载等多种环境下的合成音播报需求
应用场景
智能语音客服
人机语音交互
新闻传媒播报