python - 分离然后加入 .wav 立体声 channel 时出现断断续续的音频

标签 python audio byte wave pyaudio

我目前正在使用 python 处理 .wav 文件,使用 Pyaudio 流式传输音频,使用 python wave 库加载文件数据。
我计划稍后包括处理单个立体声 channel ,关于信号的幅度和立体声信号的平移,但现在我只是试图分离波形文件的两个 channel ,并将它们缝合回去一起 - 希望最终得到与输入数据相同的数据。

下面是我的代码。
getRawSample 方法工作得非常好,我可以通过该函数流式传输音频。
问题是我的 getSample 方法。沿着这条线的某个地方,我将两个音频 channel 分开,然后将它们重新连接在一起,音频会失真。我什至已经注释掉了我进行幅度和平移调整的部分,所以理论上它是数据输入 -> 数据输出。
下面是我的代码示例:

class Sample(threading.Thread) :

def __init__(self, filepath, chunk):
    super(Sample, self).__init__()
    self.CHUNK = chunk
    self.filepath = filepath
    self.wave = wave.open(self.filepath, 'rb')
    self.amp = 0.5 # varies from 0 to 1
    self.pan = 0 # varies from -pi to pi
    self.WIDTH = self.wave.getsampwidth()
    self.CHANNELS  = self.wave.getnchannels()
    self.RATE = self.wave.getframerate()
    self.MAXFRAMEFEEDS = self.wave.getnframes()/self.CHUNK  # maximum even number of chunks
    self.unpstr = '<{0}h'.format(self.CHUNK*self.WIDTH)  # format for unpacking the sample byte string
    self.pckstr = '<{0}h'.format(self.CHUNK*self.WIDTH)  # format for unpacking the sample byte string

    self.framePos = 0  # keeps track of how many chunks of data fed

#  panning and amplitude adjustment of input sample data

def panAmp(self, data, panVal, ampVal):  # when panning, using constant power panning
    [left, right] = self.getChannels(data)
    #left = np.multiply(0.5, left) #(np.sqrt(2)/2)*(np.cos(panVal) + np.sin(panVal))
    #right = np.multiply(0.5, right)  # (np.sqrt(2)/2)*(np.cos(panVal) - np.sin(panVal))
    outputList = self.combineChannels(left, right)
    dataResult = struct.pack(self.pckstr, *outputList)
    return dataResult

def getChannels(self, data):
    dataPrepare = list(struct.unpack(self.unpstr, data))
    left = dataPrepare[0::self.CHANNELS]
    right = dataPrepare[1::self.CHANNELS]
    return [left, right]

def combineChannels(self, left, right):
    stereoData = left
    for i in range(0, self.CHUNK/self.WIDTH):
        index = i*2+1
        stereoData = np.insert(stereoData, index, right[i*self.WIDTH:(i+1)*self.WIDTH])
    return stereoData

def getSample(self, panVal, ampVal):
    data = self.wave.readframes(self.CHUNK)
    self.framePos += 1
    if self.framePos > self.MAXFRAMEFEEDS:  # if no more audio samples to process
        self.wave.rewind()
        data = self.wave.readframes(self.CHUNK)
        self.framePos = 1
    return self.panAmp(data, panVal, ampVal)

def getRawSample(self):  # for debugging, bypasses pan and amp functions
    data = self.wave.readframes(self.CHUNK)
    self.framePos += 1
    if self.framePos > self.MAXFRAMEFEEDS:  # if no more audio samples to process
        self.wave.rewind()
        data = self.wave.readframes(self.CHUNK)
        self.framePos = 1
    return data

我怀疑错误在于我将左右 channel 缝合在一起的方式,但不确定。
我用 16 位 44100khz .wav 文件加载项目。
以下是音频文件的链接,以便您可以听到生成的音频输出。
第一部分是通过 getSample 方法运行两个文件(都是两个 channel ),而下一部分是通过 getRawSample 方法运行这些相同的文件。

https://dl.dropboxusercontent.com/u/24215404/pythonaudiosample.wav

根据音频,如前所述,立体声文件似乎失真了。看上面文件的波形,经过getSample方法后,左右声道好像是一模一样的。

如果需要,我还可以发布我的代码,包括主要功能。
希望我的问题不是太含糊,但我很感激任何帮助或意见!

最佳答案

正如它经常发生的那样,我睡在上面,第二天醒来时有一个解决方案。
问题出在 combineChannels 函数中。
以下是工作代码:

   def combineChannels(self, left, right):
    stereoData = left
    for i in range(0, self.CHUNK):
        index = i*2+1
        stereoData = np.insert(stereoData, index, right[i:(i+1)])
    return stereoData

变化是
  • 对于循环边界:因为我在左右列表中有 1024 个项目(与我的 block 大小相同),我当然需要遍历其中的每一个。
  • index:索引定义保持不变
  • stereoData:再次,我记得我在处理列表,每个列表都包含一帧音频。问题中的代码假定我的列表存储为字节串,但事实并非如此。如您所见,生成的代码要简单得多。
  • 关于python - 分离然后加入 .wav 立体声 channel 时出现断断续续的音频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38943778/

    相关文章:

    javascript - 让 Javascript 通过 JSON 查看来自 Python 的列表的过程很困惑

    c# - byte[] 的最大长度?

    html - IE9多个<audio>标记阻止了其他HTTP请求

    audio - 解码RTP iLBC有效负载

    python - 从字符串中读取字节作为 float

    c - 如何将已声明的 char 字符串(即 Unicode 字符)读取为十六进制 2 位值?

    python - 如何在不使用 Biopython 的情况下从 FASTA 文件获取此输出?

    python - 轮廓中点之间的距离opencv

    python - 从嵌套 json 文件中删除 python dict 项

    .net - 带有服务的媒体播放器控制