
ESP-VoCat 喵伴:会听、会动、会陪伴的 AI 萌宠
简介
ESP-VoCat(喵伴)是乐鑫携⼿⽕⼭引擎扣⼦⼤模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。
简介:ESP-VoCat(喵伴)是乐鑫携⼿⽕⼭引擎扣⼦⼤模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。开源协议
:GPL 3.0
描述
ESP-VoCat 喵伴:会听、会动、会陪伴的 AI 萌宠
项目简介
ESP-VoCat 喵伴是乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒与声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互、多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。
视频展示
ESP-VoCat(喵伴):乐鑫发布与火山引擎扣子联名 AI 智能体开发板
更新日志
2025/9/1
新增功能
- 小智 固件
- 更新1.1.0版本,支持更多表情,支持中文/英文/日文字库
2025/7/18
新增功能
- products 模块
- 优化 ESP-VoCat 的 common_components 组件
- 调整 ESP-VoCat 分区结构,优化分区逻辑与资源分配
- 新增 ESP-VoCat 英文 README 文档
- 实现 ESP-VoCat 从 SD 卡读取 coze 配置的功能,拓展配置获取路径
- 将 ESP-VoCat 的 BSP 更新至支持 SD 卡,并新增对 v1.2 PCB 的适配
- core 模块
- 为 ESP-VoCat 新增音频播放限制机制,防止音频无限播放导致的资源占用异常
- 优化 ai_framework Agent 配置逻辑,支持通过外部配置外设参数
- apps 模块
- 新增 时钟应用(功能界面详见 功能展示 部分)
- 其他优化
- launchpad:在二进制文件命名规则中增加版本标识
Bug 修复
- core 模块
- 修复 NVS 擦除逻辑问题:此前仅擦除指定命名空间而非整个分区,修复后严格按分区维度执行擦除
- 解决应用程序内 Agent 异常唤醒问题
- apps 模块
- 修复设置界面内容显示错误问题
- 其他修复
- 解决 Windows 平台下的构建报错问题
关于固件
-
Coze
该示例是基于 Coze 智能体开发,需要自行注册 KEY 才能使用,具体使用方式参考ESP-VoCat(喵伴)用户指南,代码基于最新的面向物联网设备的人机交互开发框架ESP-Brookesia开发,目前已经开源。快速体验: esp-launchpad
固件也可在附件下载(speaker_0_12_2_dev_vocat_1_0.bin)
-
小智
该示例是基于 小智AI机器人开发,代码已经开源。快速体验: esp-launchpad
固件也可在附件下载(vocat_xiaozhi_1_1_0.bin)。
-
屏幕触摸固件
一些批次屏幕存在触摸位置偏移问题,可以烧录触摸升级固件,以更新屏幕触摸芯片固件。
固件也可在附件下载(vocat_touch_update_5c18.bin)。
> 程序运行后如果顶部绿灯常亮,表示屏幕触摸固件更新成功;如果快速闪烁表示更新失败,请查看log以确认具体原因 -
旋转底座
旋转底座固件可在附件下载(ESP_VoCat_Rotating_Base_1_0_0.bin)。
功能展示
ESP-VoCat 主控采用乐鑫 ESP32-S3-WROOM-1-N16R16VA 模组,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。存储方面,整机具备 16MB PSRAM、16MB Flash 的存储空间,同时还配备了一个可支持高达 32GB 的 microSD 卡插槽,满足语音交互和多媒体处理需求。配备 1.85 英寸圆形触摸屏(360×360 分辨率)与 ESP32-S3 原生触摸传感器,提供直观丰富的交互体验。
音频方面,ESP-VoCat 内置 3W 扬声器和双麦克风阵列,支持本地语音唤醒和声源定位。电源系统兼容 5V DC 和 3.7V 700mAh 锂电池供电。此外,还集成一个 USB-C 接口支持供电与编程下载,同时预留 Pogopin 接口方便功能拓展。
作为 ESP-VoCat 的一大技术亮点,设备搭载的 esp-brookesia 框架不仅承担了整体 UI 的构建与渲染,还深度融合了火山引擎扣子平台 和乐鑫全新音视频框架 esp-gmf ,集成了多项面向端侧优化的智能功能,借助该框架,ESP-VoCat 可实现全双工语音交互、多模态识别与智能体控制,构建更具沉浸感的人机交互体验。
-
智能对讲与情绪识别
智能对讲与情绪识别能力可主动识别用户的意图与情绪变化,基于大模型的语义理解能力,结合语气、词义与上下文语境进行综合判断,并通过拟人化的动态表情与语音反馈进行响应,进一步增强设备的情感表达能力与人格化特征。 -
长记忆能力
长记忆能力支持对用户多轮对话内容的持续记录,能够记住用户的姓名、偏好、常用语句等核心信息,并在后续交互中予以调用,实现更贴近用户使用习惯的个性化体验,提升设备作为 “情感陪伴体” 的交互价值。
-
离线语音唤醒与声源定位
离线语音唤醒与声源定位结合电机控制模块与双麦克阵列,可实现 180° 范围内的精准方向跟踪。用户每一次的语音唤醒,设备均可自动识别声源方位并配合旋转底座进行视觉对视,使交互过程更具沉浸感与自然感;。
-
自定义语音角色
基于火山扣子平台,ESP-VoCat 支持自定义语音角色,可灵活切换音色与风格,打造属于你的专属 AI 语音形象。支持角色语音 DIY,无论是邻家少女还是湾区大叔,开发者可按需定制,语音体验更自由、更具个性。
-
MCP 协议与 Function Call 能力
ESP-VoCat 还支持 MCP 协议与 Function Call 能力,能够对接本地智能设备,实现远程控制、任务下发及状态反馈等功能,作为智能家居系统中的本地控制中枢,为用户提供稳定高效的边缘控制能力和开放的拓展接口。
-
动作与姿态感知
ESP-VoCat 内置 IMU传感器,能感知你的动作与姿态,用 “身体语言” 和你互动。
-
时钟界面功能展示
时钟应用分为数字时钟和模拟时钟两个界面,通过单击屏幕进行切换。 -
数字时钟界面
-
模拟时钟界面
复刻教程
ESP-VoCat 本体复刻
在装配前请准备以下材料:
| 序号 | 描述 |
|---|---|
| 1 | 3D 打印外壳底盖 |
| 2 | 3D 打印外壳上盖 |
| 3 | 1.85寸TFT显示屏 |
| 4 | M1.6×4mm 螺丝 |
| 5 | 橡胶垫片 |
| 6 | 麦克风防尘泡棉 |
| 7 | Touch铜箔 |
| 8 | ESP-VoCat MicBoard |
| 9 | M2×5mm 螺丝 |
| 10 | ESP-VoCat CoreBoard |
| 11 | ESP-VoCat BaseBoard |
| 12 | 4欧3瓦2828方形腔体喇叭 |
| 13 | 3.7V聚合物锂电池902530 700mAh |
| 14 | 8P同向 0.5mm间距 FPC软排线 |
投板注意事项:
- 板厚选择1.0mm
- LCD连接座 CN3 供兼容其他屏幕使用,可不上件
V1.0 版本本体硬件装配
ESP-VoCat 包含 CoreBoard 、 BaseBoard 和 MicBoard 三块子板, CoreBoard 和 BaseBoard 通过两个 2×5 1.27mm间距 的排针相连。MicBoard 通过FPC软排线与 CoreBoard 连接。
ESP-VoCat 本体 3D 结构爆炸图
装配步骤:
-
组装 CoreBoard 与 BaseBoard ,通过两个排针相连,注意接口方向无防呆设计,装配时需特别留意天线与TYPE-C在一个方向。
-
将 CoreBoard 与 BaseBoard 安装到外壳底盖中,并安装两颗 M1.6螺丝 固定。注意将 TYPE-C 和 pogopin触点弹簧针 卡入底盖孔内。


-
粘贴 Touch铜箔 到底盖顶部,并将连接器插入 CoreBoard 上Touch接口。注意铜箔不要遮挡前后盖装配缝隙
-
将扬声器放入固定位置,固定两颗 M2螺丝,将连接器插入 CoreBoard 上 SPK 接口
-
安装电池,粘贴在扬声器背面,并将连接器插入 CoreBoard 上 BAT 接口
-
给 MicBoard 板的麦克风粘贴防尘泡棉
-
将 MicBoard 安装搭配外壳前盖,用两颗 M1.6螺丝 固定,并插入 FPC软排线
-
将外壳前后盖组合并用两颗 M1.6螺丝 固定,将 FPC软排线 的另一端插入到 CoreBoard 的 MIC 接口
-
将屏幕排线以下接方式插入 CoreBoard 板的FPC连接座中,并锁紧FPC连接座
-
撕掉屏幕背胶贴纸,粘贴屏幕到外壳上,并将橡胶垫也粘贴到外壳底部
-
烧录固件获得喵伴
ESP-VoCat 旋转底座复刻
在装配前请准备以下部件:
| 序号 | 描述 |
|---|---|
| 1 | 3D 打印底座旋转转台 |
| 2 | 3D 打印转台电位器轴盖 |
| 3 | 3D 打印电机限位块 |
| 4 | 6mm 空心杯减速电机及主动齿轮 |
| 5 | 3D 打印底座外壳上盖及 3 颗轴承 |
| 6 | 3D 打印底座外壳底盖 |
| 7 | 4 颗 M1.6 螺丝 & 防滑垫 |
| 8 | 转台磁吸连接器子板 |
| 9 | 底座核心板 |
| 10 | 底座屏幕子板及屏幕 |
投板注意事项:
- 底座核心板和 0.96 寸屏幕子板板厚均选择1.0mm
- 屏幕子板 2x6P 1.27 mm 贴片排母选择 2mm 塑高,详见物料清单
旋转底座 3D 结构爆炸图
装配步骤:
-
组装转台:将磁吸连接器子板、3D 打印底座旋转转台和3D 打印转台电位器轴盖进行组装,并用 M1.6 螺丝固定。磁吸连接器子板焊接后成品实物图如下:
注意:黄铜弹簧针需要足够垂直于板面,否则影响与核心板的电气接触!
-
将屏幕子板和屏幕安装在旋转底座外壳上盖的对应卡位中,注意方向;将电机、主动齿轮、电机限位块安装在外壳上盖的对应卡位中;将 3 颗轴承(内3外6高2,详见材料清单)和转台装入指定位置。装配好的实物图如下:
屏幕及屏幕子板装配参考如下:
-
将核心板卡入外壳上盖,装配时需使用镊子转动电位器使其与转台轴角度匹配,并且注意屏幕 2x6P 排针排母完美对准卡入。
-
装入底盖,打上固定螺丝并贴上防滑垫
-
烧录底座固件,上电观察屏幕是否亮,单击 USB 口右侧 Boot 键,观察转台是否转动(转到现象:向左转 90 度、回中、向右转 90 度、回中)。如若屏幕正常显示“ESP-VoCat”,并且旋转无卡顿表明装配无问题。
硬件电路设计说明
本体硬件电路设计
主体电路设计
ESP-VoCat 硬件部分主要包含电源管理、MCU、IMU、音频、LCD、SD卡,总体硬件框图如下:

供电方式
ESP-VoCat 支持 USB-Type-C、锂电池和磁吸连接器三种供电方式,700mAh 的电池提供充足的续航时间。主电源为 5 V,由 USB 提供。辅助电源为 3.7 V,由电池提供。外部供电时设备会同时为电池充电,充电过程中背部红灯亮起,充满后变为绿色。
ESP-VoCat 底部有一个电源开关,不论供电方式如何,单击按键都可以切换开机和关机状态。

电源域控制: SD卡、LCD背光和LCD驱动电源由 POWER_CTRL(GPIO9) 控制

音频
ESP-VoCat 使用了 ES8311 芯片作为音频采集并使用 NS4150B 作为音频放大器;为了取得更好的拾音效果,使用 ES7210 芯片连接两个 LMA3729T381-OY3S(和MSM381A3729H9BPC封装兼容,可替换) 模拟麦克风作为拾音器,麦克风间距45mm,可以有效的实现声源识别。
旋转底座硬件电路设计
为实现对转台角度的闭环控制,使用 SV01A103AEA01R00 旋转角度位置传感器(实际为一个电位器,通过电压反馈角度)检测转台角度,并使用 PID 控制器对转台角度进行控制。ESP-VoCat 本体通过串口向底座发送要转动的角度值即可实现转动。
物料清单
ESP-VoCat 本体物料清单
- ESP32-S3-WROOM-1-N16R16VA
- 1.85 英寸圆形触摸屏 360*360 链接一、链接二
- SAM8108开关机芯片
- pogopin触点弹簧针--4P2.5母座带耳
- 4欧3瓦2828方形腔体喇叭--XHXDZ-2828-4R3W-2P1.25银色
- 3.7V聚合物锂电池902530 700mAh--902530
- FPC软排线--8P同向 0.5mm间距 长50mm (5条)
- 固定扬声器用M2螺丝钉--M2* 5 (100粒)
- 固定BaseBoard/MicBoard/前后盖用M1.6螺丝钉--KM1.6*4(100个)
- Touch连接线--GH1.25-2P 带锁扣 单头 15CM 5条
- Touch铜箔--圆15mm直径*60只(共2张)
- 丁晴橡胶垫片定制--黑色 橡胶:使用附件中 橡胶垫片外形图 找商家定制
- M1.6 贴片螺母-M1.6¢31.0+¢2*0.8
- 3D 打印外壳可以选择自己打印或者走嘉立创打印
- 麦克风防尘泡棉可自行定制
ESP-VoCat 旋转底座物料清单
- ESP32-C3-MINI-1U-H4
- SV01A103AEA01R00 旋转角度位置传感器
- 2x3P 1.27mm 塑高 2mm 立贴排母
- 6mm 空心杯减速电机(242转速)
- 0.96 寸屏幕
- 内 3 外 6 高 2 轴承
附件列表
- speaker_0_12_0_ctm_vocat_1_0.bin: 喵伴-Coze版固件。
- vocat_xiaozhi_1_0_2.bin:喵伴-小智版固件
- ESP-VoCat-v1.0-外壳.zip:v1.0的外壳,包含前盖和后盖。
- 橡胶胶垫.zip:底部胶垫,防滑功能。
- 麦克风防尘泡棉.zip:麦克风防尘透声泡棉。
- ESP-VoCat_Rotating_Base_1_0_0.bin:旋转底座固件。
- ESP-VoCat 旋转底座结构文件_V1_0_20250709.zip:旋转底座结构文件(STL 文件)。
- ESP-VoCat_touch_update_5c18.bin:屏幕触摸升级固件。
已知问题
- V1.0 本体: 需要删除 Baseboard 的 C1、C10 和 CoreBoard 的 C4,三个10uF的电容,这些电容会影响板上VCC电源域供电能力,会导致概率触发芯片设备重启。
- 旋转底座在旋转时会有震动噪音,这种噪音会通过固体结构传导至麦克风(无法避免),对声源识别产生很大的影响(现象是人说话后转到人一侧后会概率性左右乱转)。底座固件已对这一问题进行了规避,做法是在转到过程时不接收来自 ESP-VoCat 本体发送的任何角度控制指令,待当前声源识别角度旋转结束后再恢复接收指令。后续 ESP-VoCat 本体也会对声源识别算法进行优化改善。
如果你在复刻之后发现有问题,欢迎评论指正!!!
设计图
未生成预览图,请在编辑器重新保存一次BOM
暂无BOM
克隆工程知识产权声明&复刻说明
本项目为开源硬件项目,其相关的知识产权归创作者所有。创作者在本平台上传该硬件项目仅供平台用户用于学习交流及研究,不包括任何商业性使用,请勿用于商业售卖或其他盈利性的用途;如您认为本项目涉嫌侵犯了您的相关权益,请点击上方“侵权投诉”按钮,我们将按照嘉立创《侵权投诉与申诉规则》进行处理。
请在进行项目复刻时自行验证电路的可行性,并自行辨别该项目是否对您适用。您对复刻项目的任何后果负责,无论何种情况,本平台将不对您在复刻项目时,遇到的任何因开源项目电路设计问题所导致的直接、间接等损害负责。










