Henry-Z

天道酬勤 知行合一

概述

在语音活动检测(VAD)中,有多种模型可供选择,每种模型都有其独特的特点和应用场景。

Webrtc-VAD 是一种广泛应用的语音活动检测模型,它基于语音信号的能量和过零率等特征进行检测。SileroVAD 则采用了深度学习技术,通过对大量语音数据的学习,能够更准确地检测语音活动。FSMN-VAD 结合了前馈序列记忆网络,在处理长语音序列时表现出色。

这些模型在不同的环境和应用中都发挥着重要作用。例如,在电话会议中,Webrtc-VAD 可以有效地过滤背景噪声,提高语音质量;在智能语音助手等场景中,SileroVADFSMN-VAD 能够更准确地识别用户的语音指令。

未来,随着技术的不断发展,语音活动检测模型将不断改进和创新,为语音通信和交互提供更好的支持。

阅读全文 »

概述

3DSSD是基于点的单阶段3D目标检测网络,该模型的提出背景是在3D单阶段目标检测器大都是基于体素,其在转换过程中会丢失信息,而基于点的检测器大都是两阶段网络,精度虽然高,但是推理性能差。而此时,基于点的单阶段网络还未充分探索。作者基于点基础,提出了一个轻量级且高效的单阶段网络(3DSSD),可以很好地在精度和效率之间保持平衡。 网络框图 作者通过分析两阶段网络各个部分耗时情况,发现SA层对于提取点得特征是必要的,但FP和细化模块确实限制了基于点的方法的效率。 各阶段时间

阅读全文 »

概述

网络框图
  1. 第一个子采样网络用于过滤掉大多数的背景点;
  2. 第二阶段是基于点基础的候选框生成;
  3. 第三个组成部分是网络架构,由主干网络、proposal特征生成模块和边界框预测网络组成,它对生成的候选框进行分类和回归;
阅读全文 »

概述

PointRCNN 将目标检测任务分为两个阶段: 第一阶段:借助点云分割为前景点和背景,并以自下而上的方式直接从点云生成少量高质量的目标候选框; 第二阶段:再对候选目标框进行优化调整,细化目标框的边界。

网络框图
阅读全文 »

概述

先进的3D对象检测方法提出了各种从稀疏的点云数据中学习辨别特征的方法:

  1. 将点云投影到鸟瞰图,并利用2D CNN学习点云特征以生成3D预测框;
  2. 将点云分组为体素,并使用3D CNN学习体素的特征来生成3D框;
  3. 直接采样点云数据,并使用MLP学习点云特征来生成3D框;
车展
阅读全文 »

概述

在自动驾驶使用场景中,一般会使用各类传感器(摄像头、激光雷达、毫米波雷达和超声波雷达等)来感知周围环境信息,传感器收集的大量信息,通过各类算法最终融合到一个真实的语义地图上,下游模块通过该语义地图做相应的规划和决策。

花孔雀
阅读全文 »
0%