【ART-Pi】离线TTS语音合成+识别 - 嘉立创EDA开源硬件平台

编辑器版本 ×
标准版 Standard

1、简单易用,可快速上手

2、流畅支持300个器件或1000个焊盘以下的设计规模

3、支持简单的电路仿真

4、面向学生、老师、创客

专业版 professional

1、全新的交互和界面

2、流畅支持超过3w器件或10w焊盘的设计规模,支持面板和外壳设计

3、更严谨的设计约束,更规范的流程

4、面向企业、更专业的用户

标准版 【ART-Pi】离线TTS语音合成+识别

简介:ART-PI的扩展板。 1.离线中文、英文语音合成; 2.语音编码、解码; 3.芯片内部集成 80 种常用提示音; 3.支持 30 个命令词的识别。

开源协议:

(未经作者授权,禁止转载)

创建时间: 2021-01-13 14:13:22
更新时间: 2021-12-11 12:24:21
描述

 

展示

 

功能

1.底板设计采用紧凑布局的模块化设计,节约资源及成本。

2.纯离线模块。

3.采用双层板设计,从左到右依次是:接口、电源、语音模块、功放。语音输入麦、扬声器接口。

4.支持任意中文文本、 英文文本的合成,并且支持中英文混读。芯片支持任意中文、英文文本的合成,可以采用 GB2312、 GBK、 BIG5 和 UNICODE 四种编码方式。每次合成的文本量最多可达 4K 字节。

芯片对文本进行分析, 对常见的数字、 号码、时间、 日期、度量衡符号等格式的文本,芯片能够根据内置的文本匹配规则进行正确的识别和处理;对一般多音字也可以依据其语境正确判断读法;另外

针对同时有中文和英文的文本,可实现中英文混读。
5. 支持语音编解码功能,用户可以使用芯片直接进行录音和播放芯片内部集成了语音编码单元和解码单元,可以进行语音的编码和解码,实现录音和播放功能。芯片的语音编解码具备高压缩率、低失真率、

低延时的特点,并且可以支持多种语音编码解码速率。这些特性使它非常适合于数字语音通信、语音存储以及其它需要对语音进行数字处理的场合。如:车载微信、指挥中心等。
6. 支持语音识别功能,支持 30 个命令词的识别。芯片出默认设置的是 30 个车载、预警等行业常用识别命令词。
7. 支持 UART、 I2C 、 SPI 三种通讯方式UART 串口支持 种通讯波特率可设: 4800 bps、 9600 bps、 57600 bps、 115200 bps,可以依据情况通过硬件配置选择自己所需的波特率。
8.支持多种控制命令,如合成文本、停止合成、暂停合成、恢复合成、状态查询、进入省电模式、唤醒等。控制器通过通讯接口发送控制命令可以对芯片进行相应的控制。 芯片的控制命令非常简单易用,

例如:芯片可通过统一的“合成命令”接口播放提示音和中文文本,还可以通过标记文本实现对合成的参数设置。

 

原理

1.语音合成系统最小系统需要包括:控制器模块、 XFS5152CE 芯片、 功放模块、喇叭。如果需要使用语音识别功能、或者语音编解码功能,系统中还需要增加麦克风。
2.语音合成系统中, 主控制器和 
XFS5152CE 芯片之间可以通过 UART 接口、或者 I2C 接口、或者 SPI 接口连接,控制器可通过上述通讯接口向 XFS5152CE 芯片发送控制命令和文本,XFS5152CE 芯片接收到文本后合成为语音信号输出,输出的信号经功率放大器进行放大后连接到喇叭进行播放。
3.在使用语音识别功能时, 上位机发送启动语音识别功能的命令给语音芯片, 芯片把从麦克风采集到的语音数据,通过内部的识别模块进行转换成相应的识别结果,通过通讯接口回传给控制器。
4.在使用语音编解码功能时(通讯接口必须选择 
UART 接口,并且波特率设置为115200bps), 上位机发送启动编解码的命令给语音芯片, 芯片内部的语音编解码模块把采集到的音频数据进行编码并通过 UART 接口实时传送给上位机,或者对上位机传送来的音频数据进行解码并实时播放出来。

语音合成系统最小系统需要包括:控制器模块、 XFS5152CE 芯片、 功放模块、 喇叭。如果需要使用语音识别功能、或者语音编解码功能,有主板、麦克风、扬声器。 语音合成系统中, 主控制器和 XFS5152CE 芯片之间可以通过 UART 接口、或者 I2C 接口、 或者 SPI 接口连接,控制器可通过通讯接口向 XFS5152CE 芯片发送控制命令和文本, XFS5152CE 芯片接收到文本后合成为语音信号输出,输出的信号经功率放大器进行放大后连接 到喇叭进行播放。 使用语音识别功能时, 上位机发送启动语音识别功能的命令给语音芯片, 芯片把从麦 克风采集到的语音数据,通过内部的识别模块进行转换成相应的识别结果,通过通讯接口回传给 控制器。 在使用语音编解码功能时(通讯接口必须选择 UART 接口,并且波特率设置为 115200bps), 上位机发送启动编解码的命令给语音芯片, 芯片内部的语音编解码模块把采集到的 音频数据进行编码并通过 UART 接口实时传送给上位机,或者对上位机传送来的音频数据进行解 码并实时播放出来。

5.录音功能,麦克风模块可以参考以下电路进行设计, MIC 偏置电压MIC_BIAS 由芯片 12 脚输出。 图电路中网络标号 MIC 为麦克风接入处。

文本标记控制

1.文本控制标记的使用方法

①XFS5152CE 芯片的语音合成功能支持多种文本控制标记,可以满足用户对语音合成发音人、音量、语速、语调等的设置。
②文本控制标记的格式一般是半角中括号(即“
[]”)内一个小写字母、一个阿拉伯数字, 如:[m3], 标记的使用方法和合成文本完全一致。通讯协议详见本开发指南的“8.2.1 语音合成命令”章节。
③用户可以把标记作为文本单独发送到芯片上,如:只发送“
[v3]”到芯片上设置合成音量为3 级,或者把标记和其他要合成的文本放在一起发送给芯片上,如:“[v3]我在小声说话, [v10]我在大声说话”。
④标记只是作为控制标记实现设置功能,不会合成为声音输出。如:“
[s1]我慢条斯理。 [s8]我快言快语”中,经过标记的设置,前一句合成语速会很慢,后一句合成语速会很快,但不会读出“s1”和“s8”。

2. 文本控制标记列表

注意:
i.所有的控制标识均为半角字符。
ii.控制标识需要按照语音合成命令的格式发送,控制标记作为文本进行合成,即合成命令是“帧头 + 数据区长度 + 合成命令字 + 文本编码格式 + 控制标记文本”的格式。
iii. 控制标识为全局控制标识,也就是只要用了一次,在不对芯片进行复位、或断电、或使用[d]恢复默认设置的条件下,其后发送给芯片的所有文本都会处于它的控制之下。
iv. 当芯片掉电或是复位后,原来的设置过的标识会失去作用,芯片将恢复到所有的默认值。

 

芯片集成提示音

1.信息提示音列表

 

2.铃声提示音列表

 

3.警报提示音列表

 

语音识别命令词

 

调试

1.芯片上电初始化成功后,自动传回0X4A

 

2.语音合成

-----------------------------------------------------------------------------------------------------------------------------------------------

视频连接:https://b23.tv/CCKl3s

 

 

3.提示音展示

-----------------------------------------------------------------------------------------------------------------------------------------------

视频连接:https://b23.tv/xCVxiR

 

 

4.轻量级30个语音识别词

-----------------------------------------------------------------------------------------------------------------------------------------------

视频连接:https://b23.tv/j6ouiL

 

注:虽然识别词在这里会播报出来,但是可以程序里设置不播吧及播报自己的定制回答。如:(识别:打开音乐。应答:好的)

 

资料连接

XFS5152CE用户手册:chrome-extension://ibllepbpahcoppkjjllbabhnigcbffpi/http://www.iflytek.com/upload/contents/2014/07/53be5e3ec4047.pdf

讯飞开放平台社区:http://bbs.xfyun.cn/portal.php

 

设计图
原理图
1 /
PCB
1 /
未生成预览图,请在编辑器重新保存一次
工程视频/附件
暂无
工程成员
侵权投诉
相关工程
换一批
加载中...
添加到专辑 ×

加载中...

温馨提示 ×

是否需要添加此工程到专辑?

温馨提示
动态内容涉嫌违规
内容:
  • 153 6159 2675

服务时间

周一至周五 9:00~18:00
  • 技术支持

support
  • 开源平台公众号

MP