站内搜索
发作品签到
ESP-VoCat 喵伴:会听、会动、会陪伴的 AI 萌宠
专业版

ESP-VoCat 喵伴:会听、会动、会陪伴的 AI 萌宠

23.7w
0
0
446

简介

ESP-VoCat(喵伴)是乐鑫携⼿⽕⼭引擎扣⼦⼤模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。

简介:ESP-VoCat(喵伴)是乐鑫携⼿⽕⼭引擎扣⼦⼤模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。

开源协议

GPL 3.0

创建时间:2025-06-10 16:54:59更新时间:2026-04-08 16:51:47

描述

ESP-VoCat 喵伴:会听、会动、会陪伴的 AI 萌宠

image.png

项目简介

ESP-VoCat 喵伴乐鑫携手火山引擎扣子大模型团队打造的智能 AI 开发套件,适用于玩具、智能音箱、智能中控等需要大模型赋能的语音交互类产品。该设备搭载 ESP32-S3-WROOM-1 模组,1.85 寸 QSPI 圆形触摸屏,双麦阵列,支持离线语音唤醒声源定位算法。结合火山引擎提供的大模型能力,喵伴可实现全双工语音交互多模态识别与智能体控制,为开发者打造完整的端侧 AI 应用体验提供坚实基础。

视频展示

ESP-VoCat(喵伴):乐鑫发布与火山引擎扣子联名 AI 智能体开发板

更新日志

2025/9/1

新增功能

  1. 小智 固件
    • 更新1.1.0版本,支持更多表情,支持中文/英文/日文字库

2025/7/18

新增功能

  1. products 模块
    • 优化 ESP-VoCat 的 common_components 组件
    • 调整 ESP-VoCat 分区结构,优化分区逻辑与资源分配
    • 新增 ESP-VoCat 英文 README 文档
    • 实现 ESP-VoCat 从 SD 卡读取 coze 配置的功能,拓展配置获取路径
    • 将 ESP-VoCat 的 BSP 更新至支持 SD 卡,并新增对 v1.2 PCB 的适配
  2. core 模块
    • 为 ESP-VoCat 新增音频播放限制机制,防止音频无限播放导致的资源占用异常
    • 优化 ai_framework Agent 配置逻辑,支持通过外部配置外设参数
  3. apps 模块
    • 新增 时钟应用(功能界面详见 功能展示 部分)
  4. 其他优化
    • launchpad:在二进制文件命名规则中增加版本标识

Bug 修复

  1. core 模块
    • 修复 NVS 擦除逻辑问题:此前仅擦除指定命名空间而非整个分区,修复后严格按分区维度执行擦除
    • 解决应用程序内 Agent 异常唤醒问题
  2. apps 模块
    • 修复设置界面内容显示错误问题
  3. 其他修复
    • 解决 Windows 平台下的构建报错问题

关于固件

  • Coze
    该示例是基于 Coze 智能体开发,需要自行注册 KEY 才能使用,具体使用方式参考ESP-VoCat(喵伴)用户指南,代码基于最新的面向物联网设备的人机交互开发框架ESP-Brookesia开发,目前已经开源

    快速体验: esp-launchpad

    固件也可在附件下载(speaker_0_12_2_dev_vocat_1_0.bin)

  • 小智
    该示例是基于 小智AI机器人开发,代码已经开源

    快速体验: esp-launchpad

    固件也可在附件下载(vocat_xiaozhi_1_1_0.bin)。

  • 屏幕触摸固件
    一些批次屏幕存在触摸位置偏移问题,可以烧录触摸升级固件,以更新屏幕触摸芯片固件。
    固件也可在附件下载(vocat_touch_update_5c18.bin)。
    > 程序运行后如果顶部绿灯常亮,表示屏幕触摸固件更新成功;如果快速闪烁表示更新失败,请查看log以确认具体原因

  • 旋转底座
    旋转底座固件可在附件下载(ESP_VoCat_Rotating_Base_1_0_0.bin)。

功能展示

ESP-VoCat 主控采用乐鑫 ESP32-S3-WROOM-1-N16R16VA 模组,支持 2.4 GHz Wi-Fi 和 Bluetooth 5 (LE) 无线连接。存储方面,整机具备 16MB PSRAM、16MB Flash 的存储空间,同时还配备了一个可支持高达 32GB 的 microSD 卡插槽,满足语音交互和多媒体处理需求。配备 1.85 英寸圆形触摸屏(360×360 分辨率)与 ESP32-S3 原生触摸传感器,提供直观丰富的交互体验。

音频方面,ESP-VoCat 内置 3W 扬声器和双麦克风阵列,支持本地语音唤醒和声源定位。电源系统兼容 5V DC 和 3.7V 700mAh 锂电池供电。此外,还集成一个 USB-C 接口支持供电与编程下载,同时预留 Pogopin 接口方便功能拓展。

作为 ESP-VoCat 的一大技术亮点,设备搭载的 esp-brookesia 框架不仅承担了整体 UI 的构建与渲染,还深度融合了火山引擎扣子平台 和乐鑫全新音视频框架 esp-gmf ,集成了多项面向端侧优化的智能功能,借助该框架,ESP-VoCat 可实现全双工语音交互多模态识别与智能体控制,构建更具沉浸感的人机交互体验。

  • 智能对讲与情绪识别
    智能对讲与情绪识别能力可主动识别用户的意图情绪变化,基于大模型的语义理解能力,结合语气、词义与上下文语境进行综合判断,并通过拟人化的动态表情与语音反馈进行响应,进一步增强设备的情感表达能力人格化特征

  • 长记忆能力
    长记忆能力支持对用户多轮对话内容的持续记录,能够记住用户的姓名、偏好、常用语句等核心信息,并在后续交互中予以调用,实现更贴近用户使用习惯的个性化体验,提升设备作为 “情感陪伴体” 的交互价值。

    本地语音唤醒.gif
  • 离线语音唤醒与声源定位
    离线语音唤醒与声源定位结合电机控制模块与双麦克阵列,可实现 180° 范围内的精准方向跟踪。用户每一次的语音唤醒,设备均可自动识别声源方位并配合旋转底座进行视觉对视,使交互过程更具沉浸感自然感;。

    本地语音唤醒.gif
  • 自定义语音角色
    基于火山扣子平台,ESP-VoCat 支持自定义语音角色,可灵活切换音色与风格,打造属于你的专属 AI 语音形象。支持角色语音 DIY,无论是邻家少女还是湾区大叔,开发者可按需定制,语音体验更自由更具个性

    本地语音唤醒.gif
  • MCP 协议与 Function Call 能力
    ESP-VoCat 还支持 MCP 协议与 Function Call 能力,能够对接本地智能设备,实现远程控制任务下发状态反馈等功能,作为智能家居系统中的本地控制中枢,为用户提供稳定高效的边缘控制能力和开放的拓展接口。

    本地语音唤醒.gif
  • 动作与姿态感知
    ESP-VoCat 内置 IMU传感器,能感知你的动作与姿态,用 “身体语言” 和你互动。

    本地语音唤醒.gif

  • 时钟界面功能展示
    时钟应用分为数字时钟和模拟时钟两个界面,通过单击屏幕进行切换。

  • 数字时钟界面

    数字时钟界面.gif
  • 模拟时钟界面

    模拟时钟界面.gif

复刻教程

ESP-VoCat 本体复刻

在装配前请准备以下材料:

序号描述
13D 打印外壳底盖
23D 打印外壳上盖
31.85寸TFT显示屏
4M1.6×4mm 螺丝
5橡胶垫片
6麦克风防尘泡棉
7Touch铜箔
8ESP-VoCat MicBoard
9M2×5mm 螺丝
10ESP-VoCat CoreBoard
11ESP-VoCat BaseBoard
124欧3瓦2828方形腔体喇叭
133.7V聚合物锂电池902530 700mAh
148P同向 0.5mm间距 FPC软排线
image.png

投板注意事项:

  1. 板厚选择1.0mm
  2. LCD连接座 CN3 供兼容其他屏幕使用,可不上件

V1.0 版本本体硬件装配

ESP-VoCat 包含 CoreBoardBaseBoardMicBoard 三块子板, CoreBoardBaseBoard 通过两个 2×5 1.27mm间距 的排针相连。MicBoard 通过FPC软排线与 CoreBoard 连接。

ESP-VoCat 本体 3D 结构爆炸图

image.png

装配步骤:

  1. 组装 CoreBoardBaseBoard ,通过两个排针相连,注意接口方向无防呆设计,装配时需特别留意天线与TYPE-C在一个方向

    image.png
  2. CoreBoardBaseBoard 安装到外壳底盖中,并安装两颗 M1.6螺丝 固定。注意将 TYPE-Cpogopin触点弹簧针 卡入底盖孔内。
    image.pngimage.png

  3. 粘贴 Touch铜箔 到底盖顶部,并将连接器插入 CoreBoard 上Touch接口。注意铜箔不要遮挡前后盖装配缝隙

    image.png
  4. 将扬声器放入固定位置,固定两颗 M2螺丝,将连接器插入 CoreBoard 上 SPK 接口

    image.png
  5. 安装电池,粘贴在扬声器背面,并将连接器插入 CoreBoard 上 BAT 接口

    image.png
  6. MicBoard 板的麦克风粘贴防尘泡棉

    image.png
  7. MicBoard 安装搭配外壳前盖,用两颗 M1.6螺丝 固定,并插入 FPC软排线

    image.png
  8. 将外壳前后盖组合并用两颗 M1.6螺丝 固定,将 FPC软排线 的另一端插入到 CoreBoard 的 MIC 接口

    image.png
  9. 将屏幕排线以下接方式插入 CoreBoard 板的FPC连接座中,并锁紧FPC连接座

    image.png
  10. 撕掉屏幕背胶贴纸,粘贴屏幕到外壳上,并将橡胶垫也粘贴到外壳底部

    image.png
  11. 烧录固件获得喵伴

    image.png

ESP-VoCat 旋转底座复刻

在装配前请准备以下部件:

序号描述
13D 打印底座旋转转台
23D 打印转台电位器轴盖
33D 打印电机限位块
46mm 空心杯减速电机及主动齿轮
53D 打印底座外壳上盖及 3 颗轴承
63D 打印底座外壳底盖
74 颗 M1.6 螺丝 & 防滑垫
8转台磁吸连接器子板
9底座核心板
10底座屏幕子板及屏幕
image.png

投板注意事项:

  1. 底座核心板和 0.96 寸屏幕子板板厚均选择1.0mm
  2. 屏幕子板 2x6P 1.27 mm 贴片排母选择 2mm 塑高,详见物料清单

旋转底座 3D 结构爆炸图

image.png

装配步骤:

  1. 组装转台:将磁吸连接器子板、3D 打印底座旋转转台和3D 打印转台电位器轴盖进行组装,并用 M1.6 螺丝固定。磁吸连接器子板焊接后成品实物图如下:

    image.png

    注意:黄铜弹簧针需要足够垂直于板面,否则影响与核心板的电气接触!

  2. 将屏幕子板和屏幕安装在旋转底座外壳上盖的对应卡位中,注意方向;将电机、主动齿轮、电机限位块安装在外壳上盖的对应卡位中;将 3 颗轴承(内3外6高2,详见材料清单)和转台装入指定位置。装配好的实物图如下:

    image.png 屏幕及屏幕子板装配参考如下: image.png
  3. 将核心板卡入外壳上盖,装配时需使用镊子转动电位器使其与转台轴角度匹配,并且注意屏幕 2x6P 排针排母完美对准卡入。

    image.png
  4. 装入底盖,打上固定螺丝并贴上防滑垫

    image.png
  5. 烧录底座固件,上电观察屏幕是否亮,单击 USB 口右侧 Boot 键,观察转台是否转动(转到现象:向左转 90 度、回中、向右转 90 度、回中)。如若屏幕正常显示“ESP-VoCat”,并且旋转无卡顿表明装配无问题。

硬件电路设计说明

本体硬件电路设计

主体电路设计

ESP-VoCat 硬件部分主要包含电源管理、MCU、IMU、音频、LCD、SD卡,总体硬件框图如下:
image.png

供电方式

ESP-VoCat 支持 USB-Type-C锂电池磁吸连接器三种供电方式,700mAh 的电池提供充足的续航时间。主电源为 5 V,由 USB 提供。辅助电源为 3.7 V,由电池提供。外部供电时设备会同时为电池充电,充电过程中背部红灯亮起,充满后变为绿色。

ESP-VoCat 底部有一个电源开关,不论供电方式如何,单击按键都可以切换开机和关机状态。
image.png

电源域控制: SD卡、LCD背光和LCD驱动电源由 POWER_CTRL(GPIO9) 控制
image.png

音频

ESP-VoCat 使用了 ES8311 芯片作为音频采集并使用 NS4150B 作为音频放大器;为了取得更好的拾音效果,使用 ES7210 芯片连接两个 LMA3729T381-OY3S(和MSM381A3729H9BPC封装兼容,可替换) 模拟麦克风作为拾音器,麦克风间距45mm,可以有效的实现声源识别。

旋转底座硬件电路设计

为实现对转台角度的闭环控制,使用 SV01A103AEA01R00 旋转角度位置传感器(实际为一个电位器,通过电压反馈角度)检测转台角度,并使用 PID 控制器对转台角度进行控制。ESP-VoCat 本体通过串口向底座发送要转动的角度值即可实现转动。

物料清单

ESP-VoCat 本体物料清单

ESP-VoCat 旋转底座物料清单

附件列表

  • speaker_0_12_0_ctm_vocat_1_0.bin: 喵伴-Coze版固件。
  • vocat_xiaozhi_1_0_2.bin:喵伴-小智版固件
  • ESP-VoCat-v1.0-外壳.zip:v1.0的外壳,包含前盖和后盖。
  • 橡胶胶垫.zip:底部胶垫,防滑功能。
  • 麦克风防尘泡棉.zip:麦克风防尘透声泡棉。
  • ESP-VoCat_Rotating_Base_1_0_0.bin:旋转底座固件。
  • ESP-VoCat 旋转底座结构文件_V1_0_20250709.zip:旋转底座结构文件(STL 文件)。
  • ESP-VoCat_touch_update_5c18.bin:屏幕触摸升级固件。

已知问题

  • V1.0 本体: 需要删除 Baseboard 的 C1、C10 和 CoreBoard 的 C4,三个10uF的电容,这些电容会影响板上VCC电源域供电能力,会导致概率触发芯片设备重启。
  • 旋转底座在旋转时会有震动噪音,这种噪音会通过固体结构传导至麦克风(无法避免),对声源识别产生很大的影响(现象是人说话后转到人一侧后会概率性左右乱转)。底座固件已对这一问题进行了规避,做法是在转到过程时不接收来自 ESP-VoCat 本体发送的任何角度控制指令,待当前声源识别角度旋转结束后再恢复接收指令。后续 ESP-VoCat 本体也会对声源识别算法进行优化改善。

如果你在复刻之后发现有问题,欢迎评论指正!!!

设计图

未生成预览图,请在编辑器重新保存一次

BOM

暂无BOM

3D模型

序号文件名称下载次数
暂无数据

附件

序号文件名称下载次数
1
橡胶胶垫.zip
1894
2
麦克风防尘泡棉.zip
1657
3
vocat_touch_update_5c18.bin
271
4
VoCat 旋转底座结构文件_V1_0_20250709.zip
351
5
vocat_xiaozhi_1_1_0.bin
421
6
Vocat-v1.0-外壳.zip
586
7
VoCat_Rotating_Base_1_0_0.bin
289
8
speaker_0_12_2_dev_vocat_1_0.bin
432
克隆工程
添加到专辑
0
0
分享
侵权投诉
知识产权声明&复刻说明

本项目为开源硬件项目,其相关的知识产权归创作者所有。创作者在本平台上传该硬件项目仅供平台用户用于学习交流及研究,不包括任何商业性使用,请勿用于商业售卖或其他盈利性的用途;如您认为本项目涉嫌侵犯了您的相关权益,请点击上方“侵权投诉”按钮,我们将按照嘉立创《侵权投诉与申诉规则》进行处理。

请在进行项目复刻时自行验证电路的可行性,并自行辨别该项目是否对您适用。您对复刻项目的任何后果负责,无论何种情况,本平台将不对您在复刻项目时,遇到的任何因开源项目电路设计问题所导致的直接、间接等损害负责。

底部导航