Henry-Z

天道酬勤 知行合一

概述

MiniCPM 是面壁与清华大学自然语言处理实验室共同开源的系列端侧大语言模型,主体语言模型 MiniCPM-1B 仅有 12亿(1.2B)的非词嵌入参数量。

模型框架介绍

如下图所示,是MiniCPMV模型的多模态推理流程图。如果有图片输入,会在文本字段中添加 (<image>./</image>)占位符号,表示需要基于该图片特征进行内容的生成,当然也可以支持多个图片的输入,简单示例如下:

  • 单张图片
1
(<image>./</image>)What is this picture?
  • 多张图片
1
(<image>./</image>)(<image>./</image>)What is those pictures?

那么从图片的像素特征空间转到语言模型特征空间后,其等效的文本token长度固定为64,多张图片的token长度则对应为64的倍数。

阅读全文 »

概述

CTC,全称是Connectionist Temporal Classification,中文译为连接时序分类。特别适用于处理序列数据,例如语音识别、手写识别和机器翻译等任务,其中输入序列和输出序列的长度可能不一致。 更具体地说,CTC 解决了序列标注问题中标签与输入长度不匹配的难题。传统的序列标注方法要求输入序列和输出序列长度一致,而 CTC 允许输出序列比输入序列短,并引入了空白符(blank symbol)来处理重复和不必要的标签。

阅读全文 »

概述

目前板端部署的语音模型是通义千问的SenseVoice Small模型,具有如下优点:

  • 多语言识别: 采用超过40万小时数据训练,支持超过50种语言,识别效果上优于Whisper模型。
  • 富文本识别:
    • 具备优秀的情感识别,能够在测试数据上达到和超过目前最佳情感识别模型的效果。
    • 支持声音事件检测能力,支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测。
  • 高效推理: SenseVoice-Small模型采用非自回归端到端框架,推理延迟极低,10s音频推理仅耗时70ms,15倍优于Whisper-Large。
  • 微调定制: 具备便捷的微调脚本与策略,方便用户根据业务场景修复长尾样本问题。
  • 服务部署: 具有完整的服务部署链路,支持多并发请求,支持客户端语言有,python、c++、html、java与c#等。

在语音特征前添加四个嵌入作为输入传递给编码器:

  • LID:用于预测音频语种标签。
  • SER:用于预测音频情感标签。
  • AED:用于预测音频包含的事件标签。
  • ITN:用于指定识别输出文本是否进行逆文本正则化。
阅读全文 »

概述

语音模型常用的语音特征类型如下:

  • 梅尔滤波器组系数(Mel Filter Bank, FBank, 又称 Log-Mel);
  • 梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC); 如下图所示,是提取上述特征的流程:

audio-pre-process

阅读全文 »

概述

在语音活动检测(VAD)中,有多种模型可供选择,每种模型都有其独特的特点和应用场景。

Webrtc-VAD 是一种广泛应用的语音活动检测模型,它基于语音信号的能量和过零率等特征进行检测。SileroVAD 则采用了深度学习技术,通过对大量语音数据的学习,能够更准确地检测语音活动。FSMN-VAD 结合了前馈序列记忆网络,在处理长语音序列时表现出色。

这些模型在不同的环境和应用中都发挥着重要作用。例如,在电话会议中,Webrtc-VAD 可以有效地过滤背景噪声,提高语音质量;在智能语音助手等场景中,SileroVADFSMN-VAD 能够更准确地识别用户的语音指令。

未来,随着技术的不断发展,语音活动检测模型将不断改进和创新,为语音通信和交互提供更好的支持。

阅读全文 »

概述

3DSSD是基于点的单阶段3D目标检测网络,该模型的提出背景是在3D单阶段目标检测器大都是基于体素,其在转换过程中会丢失信息,而基于点的检测器大都是两阶段网络,精度虽然高,但是推理性能差。而此时,基于点的单阶段网络还未充分探索。作者基于点基础,提出了一个轻量级且高效的单阶段网络(3DSSD),可以很好地在精度和效率之间保持平衡。 网络框图 作者通过分析两阶段网络各个部分耗时情况,发现SA层对于提取点得特征是必要的,但FP和细化模块确实限制了基于点的方法的效率。 各阶段时间

阅读全文 »

概述

网络框图
  1. 第一个子采样网络用于过滤掉大多数的背景点;
  2. 第二阶段是基于点基础的候选框生成;
  3. 第三个组成部分是网络架构,由主干网络、proposal特征生成模块和边界框预测网络组成,它对生成的候选框进行分类和回归;
阅读全文 »

概述

PointRCNN 将目标检测任务分为两个阶段: 第一阶段:借助点云分割为前景点和背景,并以自下而上的方式直接从点云生成少量高质量的目标候选框; 第二阶段:再对候选目标框进行优化调整,细化目标框的边界。

网络框图
阅读全文 »
0%