在线视听数据的音频内容分析

标签 audio video-processing multimedia

我想从事一个项目，我必须根据其音频内容对在线视听数据进行分割和分类，即视听数据的不同部分将被分割并分类为静音、音乐、语音、语音+背景音乐等关于他们的音频内容。

我知道我必须从视听数据中获取音频部分，并提取过零、频谱峰值等特征，并找出段边界以分割音频数据。

但我迷失在开始本身。

我不知道如何开始这个项目。该软件的输出是不同类别的视听数据片段，如静音、语音、音乐等。

如果有人让我知道这将非常有帮助

哪种编程语言适合此目的？

为了开发这个软件，我应该遵循哪些步骤？

我没有数字信号处理方面的背景。如果我得到一些指导，这将非常有帮助

最佳答案

我建议研究一个多媒体框架，例如 GStreamer .它是跨平台的，但在它起源的 Linux 上最容易上手。它已经带有各种插件来接收、解复用和解码音频和视频。它还有几个分析器(例如用于音频和语音事件检测的电平和频谱分析器)。这些可能是您实验的一个很好的起点。 Gstreamer 本身是用 C 语言编写的，但应用程序可以使用语言绑定(bind)到 python、perl、c#、c++、java ......

关于在线视听数据的音频内容分析，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9138997/

上一篇：android - 如何停止音频？

下一篇：audio - 适用于多个平台的游戏音频库

相关文章：

用于处理视频的 Java 库 - 手势分析

matlab - 访问视频文件的音频部分

javascript - ECMAScript-6音频永远重复

ubuntu - Pulseaudio不能永久工作

android - 如何从uri获取路径？ android开发

java - 缓存文件夹中的 nomedia 文件 (Android)

java - 如何将从 WAV 文件读取的数据转换为 java 中带符号的 16 位原始音频数据数组？

audio - 3D位置音频和Scenekit

ffmpeg - Gstreamer 基础教程给出黑屏

encoding - ffmpeg 应用过滤器而不重新编码？