javascript - 使用索引拆分来解析文本流日志

我有仅保存原始文本的日志文件。我无法控制这些日志文件的写入方式。它们以数据流传输的方式保存。我试图解析出每行以索引开头的位置。

日志文件和预期输出如下。日志文件始终以 13 位数字的索引开头(可能已填充)，因此我将其作为索引。然后，我将内容与索引分开，以使第一个初始行正常工作。然后我将其放入 while 循环中，检查文件是否能够使用 lines.length > 1 分割任何内容。

我注意到我错误地使用了 split，因为它仅用于查找行结尾而不是它们的开始位置。否则它将达到预期的结果。话虽如此，对于我所拥有的部分解决方案是否有一个简单的解决方案？

var reader = new FileReader();
var output = [];

reader.readAsText(f, "UTF-8");

            // if file read successful then text string stored in the result property of FileReader()
            reader.onload = function(evt){
                var fileContents = evt.target.result;
                var index = fileContents.slice(0,13);
                var lines = fileContents.split(index);

                // Continue splitting until we fail (nothing split = 1)
                //while(lines.length > 1){
                    for(var i = 0; i < lines.length; i++){
                        output.push(index + ' ' + lines[i] + '<br>')
                    }

                    // go to next lines
                    index++;
                    lines = fileContents.split(index);
                //}

                document.getElementById('content').innerHTML = '<ul>' + output.join('') + '</ul>';
            }

提供的日志文件:

1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 1564001512016 INFO: some test stuff 1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

实际输出:


1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj
1564001512016 INFO: some test stuff 
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

预期输出:

1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 
1564001512016 INFO: some test stuff
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 
1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 
1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

更新: 通过下面的答案，我可以根据下面的代码对其进行定制。一些值得注意的更改，添加了通过拆分(出于某种原因)删除的 INFO 字符串，并将 int i 存储到变量 x 中以不递增每次迭代第三次:

                var fileContents = evt.target.result;
                var regex = /(\d{13}) INFO:/
                var lines = fileContents.split(regex);

                // i starts at 1 as split seems to always return empty at 0
                for(var i = 1; i < lines.length; i+=2){
                    var x = i;
                    var index = lines[x]
                    var context = lines[x+1]
                    // \xa0 = space
                    output.push('<li>' + index + "\xa0INFO:\xa0\xa0" + context + '</li>')
                }
                document.getElementById('content').innerHTML = output.join('') + '</br>';

结果:

1564001512016 INFO:  LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 
1564001512016 INFO:  some test stuff
1564001512016 INFO:  kjhdshfakhfdskjdshkjfdsh 
1564001512017 INFO:  hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 
1564001512017 INFO:  hdskjahfjfdshdfsahfdsajfdsa

最佳答案

由于索引定期更改，没有行结尾，并且日志消息可能包含任意文本，因此没有可靠的方法来解析此文件。不过，您可以使用正则表达式来接近:

var regex = /(\d{13}) INFO:/
var lines = fileContents.split(regex);

for(var i = 1; i < lines.length; i+=2){
    var index = lines[i];
    var line = lines[i+1];
    // ...
}

关于javascript - 使用索引拆分来解析文本流日志，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58422546/

javascript - 使用索引拆分来解析文本流日志

上一篇：javascript - 如何使用 XPath 选择具有特定 insideText 的直接同级元素？

下一篇：javascript - JSON.stringify 显示属性值，但无法直接访问属性