Henry-Z

语音活动检测(VAD)

发表于 2024-12-01 更新于 2024-12-08 分类于 Audio Changyan： Disqus：

概述

在语音活动检测(VAD)中，有多种模型可供选择，每种模型都有其独特的特点和应用场景。

Webrtc-VAD 是一种广泛应用的语音活动检测模型，它基于语音信号的能量和过零率等特征进行检测。SileroVAD 则采用了深度学习技术，通过对大量语音数据的学习，能够更准确地检测语音活动。FSMN-VAD 结合了前馈序列记忆网络，在处理长语音序列时表现出色。

这些模型在不同的环境和应用中都发挥着重要作用。例如，在电话会议中，Webrtc-VAD 可以有效地过滤背景噪声，提高语音质量；在智能语音助手等场景中，SileroVAD 和 FSMN-VAD 能够更准确地识别用户的语音指令。

未来，随着技术的不断发展，语音活动检测模型将不断改进和创新，为语音通信和交互提供更好的支持。

阅读全文 »

Graph Nueral Network

发表于 2024-08-18 更新于 2024-12-01 分类于 Graph Nueral Network Changyan： Disqus：

应用领域

图(a)道路网络；图(b)分子结构；图(c)电路图图(d)飞机点云图图(a)社交网络-无向；图(b)论文引用网络-有向；图(c)知识图谱-有向-异构

阅读全文 »

Point-GNN模型分析(3D对象检测)

发表于 2024-08-17 更新于 2024-12-08 分类于 3D Object Detector ， Point-GNN Changyan： Disqus：

概述

如下是三种常见的点云表示和处理方法: 点云数据表示

如下图所示，网络架构主要由三部分组成：图构建、T次迭代GNN和边界框合并和评分。

阅读全文 »

3DSSD模型分析(3D对象检测)

发表于 2024-08-16 更新于 2024-12-08 分类于 3D Object Detector ， 3DSSD Changyan： Disqus：

概述

3DSSD是基于点的单阶段3D目标检测网络，该模型的提出背景是在3D单阶段目标检测器大都是基于体素，其在转换过程中会丢失信息，而基于点的检测器大都是两阶段网络，精度虽然高，但是推理性能差。而此时，基于点的单阶段网络还未充分探索。作者基于点基础，提出了一个轻量级且高效的单阶段网络(3DSSD)，可以很好地在精度和效率之间保持平衡。网络框图作者通过分析两阶段网络各个部分耗时情况，发现SA层对于提取点得特征是必要的，但FP和细化模块确实限制了基于点的方法的效率。各阶段时间