站内搜索
发作品签到
ESP-VoCat-S31 喵伴:视觉与蓝牙音频的 AI 萌宠
专业版

ESP-VoCat-S31 喵伴:视觉与蓝牙音频的 AI 萌宠

简介

基于 ESP32-S31 升级的喵伴,新增 SC101IOT 摄像头、蓝牙音频、视觉识别、视频推流与高帧率显示能力。

简介:基于 ESP32-S31 升级的喵伴,新增 SC101IOT 摄像头、蓝牙音频、视觉识别、视频推流与高帧率显示能力。

开源协议

GPL 3.0

创建时间:2026-06-30 18:00:50更新时间:2026-07-01 16:11:25

描述

ESP-VoCat-S31 喵伴:视觉与蓝牙音频的 AI 萌宠

项目介绍

ESP-VoCat-S31 是基于 ESP-VoCat 喵伴 项目的 ESP32-S31 升级版本。原项目是一款面向语音交互、AI 萌宠、智能音箱和智能中控场景的开发套件,具备离线语音唤醒、双麦拾音、圆形触摸屏显示、音频播放、姿态感知以及旋转底座联动等能力。

本版本主要针对 CoreBoard 主控板 进行重绘升级,将原 ESP32-S3 主控替换为 ESP32-S31-WROOM-1,并在 S31 CoreBoard 上新增一颗 SC101IOT DVP 摄像头。复刻时,ESP-VoCat 的 BaseBoardMicBoard 仍然沿用原 S3 版本板子,只需要把原 S3 版本 CoreBoard 替换为本项目对应的 ESP-VoCat-S31 CoreBoard

项目特点

  • 主控升级为 ESP32-S31-WROOM-1,延续 ESP-VoCat 的语音交互和屏幕交互设计。
  • CoreBoard 重新绘制,保留原项目的主要连接器、接口和功能分区,硬件上保留了 1.85 寸圆形触摸屏、双麦克风、功放扬声器、IMU、SD 卡及旋转底座 UART 通信等硬件资源。
  • 相比原 S3 版本,S31 CoreBoard 新增 SC101IOT DVP 摄像头,可用于后续多模态视觉能力扩展。
  • 兼容原 ESP-VoCat 的 BaseBoard、MicBoard、屏幕、扬声器、电池、触摸按键和外壳装配方式。
  • 适合作为 ESP-VoCat 原项目的 S31 主控升级验证板,也适合作为语音 AI 交互硬件开发参考。

功能展示

ESP-VoCat-S31 在延续原 ESP-VoCat 语音交互、表情显示和旋转底座玩法的基础上,利用 ESP32-S31 新增的蓝牙音频、更多 GPIO、DVP 摄像头、硬件 JPEG 编解码、PPA 图像处理加速以及更高的 PSRAM 带宽,扩展了蓝牙音箱、视觉识别、视频推流和高帧率显示等能力。

蓝牙音箱

ESP32-S31 新增经典蓝牙与 BLE Audio 能力,喵伴可以像普通蓝牙音箱一样连接手机播放音乐。S31 还支持将蓝牙音频流与音频时钟同步,降低软件补偿和同步处理开销。

蓝牙音箱

LE Audio / Auracast 广播音频

ESP-VoCat-S31 支持 LE Audio 广播音频能力,可作为 Auracast 广播源向周围设备发送音频,也可以与其他支持 BLE Audio 的设备组成更灵活的音频播放场景。

LE Audio

SC101IOT DVP 摄像头

相比原 S3 版本,S31 版本新增 SC101IOT DVP 摄像头。得益于 S31 更充足的 GPIO 资源,喵伴在保留屏幕、音频、触摸、IMU、SD 卡和底座通信等外设的同时,仍可接入 DVP 摄像头,为视觉识别和多模态交互提供硬件基础。

摄像头

Wi-Fi 6 视频推流

S31 摄像头采集图像后,可结合硬件 JPEG 编码能力,通过 Wi-Fi 6 上传图像或进行视频推流。相比纯软件编码方案,硬件编码能降低 CPU 占用,并提升实时画面传输效率。

视频推流

离线手势识别

借助摄像头输入、更高的主频和更快的 PSRAM 带宽,ESP-VoCat-S31 可以运行本地视觉识别模型,实现离线手势识别等端侧 AI 交互能力。

手势识别

OpenCV 颜色识别

ESP32-S31 主频提升到 320 MHz,并加入图像处理相关硬件能力,运行传统视觉算法时响应更快。喵伴可基于 OpenCV 完成颜色识别等轻量视觉任务。

OpenCV 颜色识别

YOLO11 物体识别

S31 的 PSRAM 带宽提升后,本地模型加载和推理效率更高,可用于 YOLO11 物体识别等更复杂的视觉 AI 场景。

YOLO11 物体识别

高帧率刷屏

ESP32-S31 支持硬件 JPEG 编解码、PPA 像素处理加速器和 2D-DMA,可加速图像缩放、旋转、镜像、颜色格式转换和数据搬运。用于喵伴圆形屏显示时,可获得更流畅的动画和更高的刷图性能。

S31 喵伴刷屏

复刻指南

复刻说明

本项目不是完整重新设计 ESP-VoCat 三块板,而是对原项目 CoreBoard 的 S31 版本重绘。复刻时请按以下原则准备:

  • 需要替换:CoreBoard,使用本项目开源的 S31 CoreBoard 及 3D 打印外壳(本体 + 摄像头外壳)。
  • 继续沿用:原 ESP-VoCat S3 版本的 BaseBoard、MicBoard、外壳、屏幕、扬声器、电池、触摸 FPC 软排线、旋转底座等结构件和外设。
  • 新增:SC101IOT DVP 摄像头

如果已经复刻过原 ESP-VoCat,本版本的核心变化就是将 S3 CoreBoard 拆下,替换为 S31 CoreBoard。其余装配流程基本保持一致。

准备材料

  • ESP-VoCat-S31 CoreBoard PCB
  • ESP32-S31-WROOM-1 模组
  • ESP-VoCat-S31 CoreBoard 所需的电源、音频、IMU、连接器、阻容和 MOS 器件
  • 原 S3 版本的 BaseBoard 和 MicBoard,及其他部件
  • SC101IOT DVP 摄像头

CoreBoard 投板与焊接注意事项

  1. 按 S31 CoreBoard PCB 文件投板,板厚、连接器高度和结构限位应与原 ESP-VoCat CoreBoard 保持一致,避免外壳、屏幕和板对板连接器装配干涉。
  2. 焊接 ESP32-S31-WROOM-1 时注意模组方向、天线净空和底部焊盘可靠性。
  3. LCD、MicBoard、Camera 等 FPC 连接器方向必须与原结构匹配,避免排线反插或装配后折弯方向错误。
  4. 两个板对板连接器需要与原 BaseBoard 位置严格对齐,否则会影响 CoreBoard 与 BaseBoard 的插合。
  5. 音频、IMU、Camera 和电源部分建议完成焊接后分模块检查短路,再进行整板上电。
  6. 首次上电建议使用限流电源或带电流显示的 USB 供电设备,确认无异常发热后再连接电池和外设。

装配流程

本体装配

本体三个 PCB 板、喇叭、电池、触摸 FPC 排线等的装配流程与原 S3 版本基本一致,只需将 CoreBoard 替换为本项目开源的版本即可。

摄像头装配

  • 将买到的摄像头两侧固定耳剪掉! 如下图所示:
摄像头修剪
  • 将修剪之后的摄像头按照下图所示方向插入摄像头外壳中,并将其安装到位。
摄像头安装步骤1
  • 将摄像头限位器插入摄像头外壳,顶住摄像头,以防止摄像头松动。
摄像头安装步骤2
  • 将摄像头结构件卡入本体对应的卡槽,将摄像头排线插入 CoreBoard 摄像头排线座中。
摄像头安装步骤3

安装完成整体效果如下:

安装完成效果

固件下载与测试

  • 将装配好的 ESP-VoCat-S31 使用 USB 数据线连接电脑,烧录附件中的固件:esp_vocat_s31_xiaozhi_v012.bin。

> 建议先下载固件测试屏幕、摄像头等功能正常后再装配外壳!

附件固件为小智版固件,主要支持以下功能:

  • 小智 AI 对话:通过语音与小智 AI 进行自然对话,体验语音助手和 AI 陪伴功能。
  • 拍照上传与画面分析:可通过语音指令让小智调用摄像头拍照,并上传图像进行画面理解与分析。
  • 蓝牙音箱播放:手机可通过蓝牙连接 ESP-VoCat-S31,将其作为蓝牙音箱播放音乐或其他音频内容。

硬件设计说明

除音频和 Camera 部分,其他均与原 S3 版本一致,故此处只对音频和 Camera 部分进行说明。

音频设计

音频部分将 Codec 替换为 ES8389,与之前 ES8311 + ES7210 的方案相比,成本更低,封装更小、外围电路更少、支持双喇叭。

ES8389 负责音频采集与播放,连接主控的 I2S 和 I2C 控制信号:

  • ES_I2C_SCL / ES_I2C_SDA:Codec 控制 I2C。
  • ES_SCLK:I2S 位时钟。
  • ES_DLRCK:I2S 左右声道时钟。
  • ES_DSDIN:主控到 Codec 的播放数据。
  • ES_ASDOUT:Codec 到主控的采集数据。
  • ES_MCLK:音频主时钟。

Camera 接口

S31 版本相比原 S3 版本新增 SC101IOT DVP 摄像头。CoreBoard 提供 DVP Camera FPC 接口,包含摄像头时钟、同步、数据、I2C 和控制信号,可为后续视觉识别和多模态交互提供硬件基础。

主要信号包括:

  • CAM_I2C_SCL / CAM_I2C_SDA:摄像头配置 I2C。
  • XMCLK:摄像头主时钟。
  • DVP_PCLK:像素时钟。
  • DVP_VSYNC:场同步信号。
  • DVP_HREF:行同步信号。
  • DVP_Y2DVP_Y9:DVP 并行数据线。
  • CAM_RESET:摄像头复位,低电平复位,高电平正常工作。
  • CAM_PWDN:摄像头掉电控制,低电平正常,高电平休眠。
  • CAM_EN:摄像头电源或使能控制。

SC101IOT 摄像头相关电源包含 3.3 V、2.8 V 和 1.5 V 电源域,调试时应先确认电源和复位/掉电控制时序,再连接或启用摄像头模组。

额外物料清单

附件列表

  • esp_vocat_s31_xiaozhi_v012.bin:S31 版本喵伴-小智版固件
  • ESP-VoCat-S31 本体 3D 模型.zip:本体 3D 外壳结构文件

设计图

未生成预览图,请在编辑器重新保存一次

BOM

暂无BOM

3D模型

序号文件名称下载次数
暂无数据

附件

序号文件名称下载次数
1
ESP-VoCat-S31 本体 3D 模型.zip
1
2
esp_vocat_s31_xiaozhi_v012.bin
1
克隆工程
添加到专辑
0
0
分享
侵权投诉
知识产权声明&复刻说明

本项目为开源硬件项目,其相关的知识产权归创作者所有。创作者在本平台上传该硬件项目仅供平台用户用于学习交流及研究,不包括任何商业性使用,请勿用于商业售卖或其他盈利性的用途;如您认为本项目涉嫌侵犯了您的相关权益,请点击上方“侵权投诉”按钮,我们将按照嘉立创《侵权投诉与申诉规则》进行处理。

请在进行项目复刻时自行验证电路的可行性,并自行辨别该项目是否对您适用。您对复刻项目的任何后果负责,无论何种情况,本平台将不对您在复刻项目时,遇到的任何因开源项目电路设计问题所导致的直接、间接等损害负责。

底部导航