string - 遍历并索引文本文件

由于所有的例子，这篇文章看起来比实际的要长。伪代码没问题，但我使用的是 vbscript。在克服了许多其他障碍后，我遇到了最后一个难题，到目前为止还找不到解决方案。

-- 底线 --

我正在尝试提出一种稳健算法来识别文本文件中的理想“插入点”(基于几个标准)以在该点插入另一个文本 block ，并且将其余文本向下移动。我的最终目标是在文件中的特定位置将一些必要的服务条目插入到该文件中，以便于阅读和维护。

作为引用，我在 Windows 中使用位于以下位置的“服务”文件:

C:\Windows\system32\drivers\etc\services

这个文件可能看起来像这样:

 #
# <service name>  <port number>/<protocol>  [aliases...]   [#<comment>]
#
findME2     80/tcp
findME1     80/tcp
skipME1     80/tcp
skipME2     80/tcp

理想情况下，该算法不应因空行(任何地方)、注释前的空格等变化而中断。

到目前为止，我已经编写了将“服务”文件和我的模板文件(包含要添加的条目)读入两个字符串变量的代码，我解析它们以创建相同“类型”的所有组合条目的列表,"然后消除重复项、排序，最后创建一个格式类似于服务文件的新文本字符串。

现在我只需要在某些相关服务的第一个条目上方插入该文本 block 。例如:

合并条目

findME1     80/tcp
findME2     80/tcp
NEWME1      80/tcp    #New Entry

插入点

# COMMENT BLOCK #
<-- INSERT HERE -->
skipME1     80/tcp
skipME2     80/tcp

结果

# COMMENT BLOCK #
findME1     80/tcp
findME2     80/tcp
NEWME1      80/tcp    #New Entry
skipME1     80/tcp
skipME2     80/tcp

请注意我开始时使用的文件与上面的最终结果进行比较。我的麻烦是，在遍历文件文本字符串中的每一行时(在我的例子中使用 For Each 循环)，我正在努力设置我的 <-- INSERT HERE --> 显示的位置的索引。备注如上。

问题

如何识别上述位置的索引？
是否可以只遍历此文本一次，或者我是否应该担心这一点？ (我觉得我看到了太多的循环，但考虑到问题的性质，也许我不值得花时间去优化它，是吗？)

示例算法

Dim lines, index, indexLastComment, insertionIndex
index = 0
insertionIndex = -1
indexLastComment = -1
lines = Split(fileText, vbCrLf) 'fileText is from the "services" file
For Each line In lines
    line = Trim(line)
    If Len(line) > 0 Then 'ignore empty lines           
        'Identify ideal line to insert new "services" entries
        If (Left(line,1) = "#") Then 'If a comment
            indexLastComment = index
        ElseIf ((insertionIndex = -1) _
            And (index > indexLastComment) _
            And (Left(line,4) = "find")) Then 'If insertionIndex not set
            'This should set the insertionIndex at the location of the first line
            '  beginning with "find" so long as the index of that line is after
            '  the last comment.
            insertionIndex = index
        End If
    End If
    index = index + 1
Next

预期 insertionIndex示例(当然是基于 0 的):

插入索引 = 1

# COMMENT BLOCK #
findME2     80/tcp
findME1     80/tcp
skipME1     80/tcp
skipME2     80/tcp

插入索引 = 2

# COMMENT BLOCK #

findME2     80/tcp
findME1     80/tcp
skipME1     80/tcp
skipME2     80/tcp

插入索引 = 3

# COMMENT BLOCK #

#
findME2     80/tcp
findME1     80/tcp
skipME1     80/tcp
skipME2     80/tcp

插入索引 = 0

findME2     80/tcp
findME1     80/tcp
skipME1     80/tcp
skipME2     80/tcp

# COMMENT BLOCK #

最佳答案

除非您正在处理非常大的文件，否则以将输入文件解析为数组(甚至可能是二维数组或对象数组)并在内存中对其进行排序的方式编写程序可能更合适使用 QuickSort 或 ASP.NET(如果您有权访问它)，然后通过打印出集合的修改内容来覆盖文件。

这样，您就不必担心低级细节，例如跟踪文件指针，其他好处:它会自动清除错误的格式，它会对任何现有的条目进行排序排序正确，您可以稍后扩展它以进行其他类型的处理。

关于string - 遍历并索引文本文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25298645/