python - step_size为0的滑动窗口算法怎么写?

标签 python algorithm text range sliding-window

我正在处理一个大型文本文件,其中包含具有这种格式的 pi 的小数位。注意头部全是数字,没有字符串。

标题格式:Number_of_sequences Total_Pi_Digits File_Version_Number

550 10000 5

*Pi Sequence Part 1
1415926535897932384
*Pi Sequence Part 2
6264338327950288419
*Pi Sequence Part 3
1693993751058209749

我需要制作一个使用三个参数(window_size、step_size 和 last_windowstart)裁剪文件的滑动窗口。 last_windowstart 是最后一个窗口开始的地方。

文件数由 Total_Pi_Digits 除以窗口确定。

如果文件有 99 个 Total_Pi_Digits,window_size 为 10,step_size 为零,则总共有 11 个窗口,因为 99//10=10 并且 99%10 在窗口 11 中留下 9。

我猜对于这个例子,lastwindow_start 应该是 90。我不确定我是否需要启动 last_window。

对于每个窗口,将创建一个名为 PiSubsection 的文件# 其中 # 是窗口编号。

对于每个文件,每个窗口都应该有相同的新标题,其中 Number_of_sequences Total_Pi_Digits File_Version_Number 是标题格式。

Number_of_sequences Total_Pi_Digits 将根据 window_size 和 step_size 而改变,但 File_Version_Number 不得改变。

我的问题是我的滑动窗口算法没有考虑到 step_size 为 0,并且它没有生成正确数量的文件。 到目前为止,它生成的文件数量是原来的两倍,我不确定为什么。

此外,我不确定我是否理解滑动窗口算法中窗口数量的数学运算。

如何修复我的滑动窗口算法以接受 step_size 为 0 并生成适量的输出文件?

    inputFileName = example.txt

    import shlex

    def sliding_window(windows_size, step_size, lastwindow_start):
        for i in xrange(0, lastwindow_start, step_size):
            yield (i, i + windows_size)

    def PiCrop(windows_size, step_size):

    with open(inputFileName, 'r') as input:
        first_line = shlex.split(input.readline().strip())
        PiNumber = int(first_line[1])

        lastwindow_start = PiNumber-(PiNumber%windows_size)
        flags = [False for i in range(lastwindow_start)]

        first_line[1] = str(windows_size * int(first_line[0]))

        first_line = " ".join(first_line)

        for line in input:
            if line.startswith(first_line[0]):
                pass
            elif line.startswith('*'):
                Indiv = line
            else:
                for counter, window in        enumerate(sliding_window(windows_size,step_size,lastwindow_start)):
                    newline = line[window[0]:window[1]]

                    with open('PiSection{}.txt'.format(counter), 'a') as output:
                        if (flags[counter] == False):
                            flags[counter] = True
                            output.write(first_line + '\n')
                        output.write(Indiv)
                        output.write(newline + '\n')

最佳答案

下面的示例代码提供了一种替代方法,可以避免进行计算。我认为您在加载数字文件或之后实际写入“窗口”文件时都没有问题,因此我的代码假定它们已加载并生成一组准备写入的数字窗口。

根据该结果,您可以简单地遍历现在派生的窗口并像以前一样输出文件,或者您可以深入了解嵌套数据并根据需要获取单独的窗口进行处理。

示例输出如下。让我知道是否需要更多详细信息...

import pprint

# Separated just for easy comparison with the output.
pi_digits = '1415926535' + '8979323846' + '2643383279' + '5028841916' + '9399375105' + '8209749'
total_digits = len(pi_digits)

def splitIntoWindows(digits, window_size):
    result = []
    count = 0
    window = -1
    for digit in digits:
        index = count % window_size
        if index == 0:
            window += 1
            result.append([])
        result[window] += digit
        count += 1
    return result

windows = splitIntoWindows(pi_digits, 10)

print("Split into {} window(s):".format(len(windows)))
pprint.pprint(windows)

示例输出:

Split into 6 window(s):
[['1', '4', '1', '5', '9', '2', '6', '5', '3', '5'],
 ['8', '9', '7', '9', '3', '2', '3', '8', '4', '6'],
 ['2', '6', '4', '3', '3', '8', '3', '2', '7', '9'],
 ['5', '0', '2', '8', '8', '4', '1', '9', '1', '6'],
 ['9', '3', '9', '9', '3', '7', '5', '1', '0', '5'],
 ['8', '2', '0', '9', '7', '4', '9']]

编辑

为了避免我做太多假设,这里有一个片段来解析加载的数字文件:

# Assumed these are the contents loaded in:
file_contents = '''
550 10000 5

*Pi Sequence Part 1
1415926535897932384
*Pi Sequence Part 2
6264338327950288419
*Pi Sequence Part 3
1693993751058209749
'''

pi_digits = ''
line_num = 0
for line in file_contents.split('\n'):
    line = line.strip()
    if (len(line) > 0) & (line[0:1] != "*"):
        line_num += 1
        if (line_num > 1):
            pi_digits += line

这应该让 pi_digits 准备好使用,因此您只需用它替换我上面代码中的 pi_digits 声明即可。

关于python - step_size为0的滑动窗口算法怎么写?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34246970/

相关文章:

python - 按一年中的某天分组

python - 使用全局 MANIFEST 执行对象。有没有更好的办法?

python - Pandas 数据框到数量总和的重复矩阵

text - 如何使Emacs文本像Netbeans一样清晰呈现

text - awk - 比较两个文件,匹配一个字段,合并两个文件

haskell - 是否有基于 ByteString 或 Text 的单子(monad)/应用映射(即 traverse/mapM)函数?

python - 在 python 中导入 Zookeeper libzookeeper_mt.so.2 时出错

algorithm - 快速排序的内存复杂度

performance - 从成对列表中提取包的有效算法是什么?

Python Powell 最小化求解器 : type error - subtracting 'list' and 'list'