javascript - 使用索引拆分来解析文本流日志

标签 javascript parsing split

我有仅保存原始文本的日志文件。我无法控制这些日志文件的写入方式。它们以数据流传输的方式保存。我试图解析出每行以索引开头的位置。

日志文件和预期输出如下。日志文件始终以 13 位数字的索引开头(可能已填充),因此我将其作为索引。然后,我将内容与索引分开,以使第一个初始行正常工作。然后我将其放入 while 循环中,检查文件是否能够使用 lines.length > 1 分割任何内容。

我注意到我错误地使用了 split,因为它仅用于查找行结尾而不是它们的开始位置。否则它将达到预期的结果。话虽如此,对于我所拥有的部分解决方案是否有一个简单的解决方案?

var reader = new FileReader();
var output = [];

reader.readAsText(f, "UTF-8");

            // if file read successful then text string stored in the result property of FileReader()
            reader.onload = function(evt){
                var fileContents = evt.target.result;
                var index = fileContents.slice(0,13);
                var lines = fileContents.split(index);

                // Continue splitting until we fail (nothing split = 1)
                //while(lines.length > 1){
                    for(var i = 0; i < lines.length; i++){
                        output.push(index + ' ' + lines[i] + '<br>')
                    }

                    // go to next lines
                    index++;
                    lines = fileContents.split(index);
                //}

                document.getElementById('content').innerHTML = '<ul>' + output.join('') + '</ul>';
            }

提供的日志文件:

1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 1564001512016 INFO: some test stuff 1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

实际输出:


1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj
1564001512016 INFO: some test stuff 
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

预期输出:

1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 
1564001512016 INFO: some test stuff
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 
1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 
1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa

更新: 通过下面的答案,我可以根据下面的代码对其进行定制。一些值得注意的更改,添加了通过拆分(出于某种原因)删除的 INFO 字符串,并将 int i 存储到变量 x 中以不递增每次迭代第三次:

                var fileContents = evt.target.result;
                var regex = /(\d{13}) INFO:/
                var lines = fileContents.split(regex);

                // i starts at 1 as split seems to always return empty at 0
                for(var i = 1; i < lines.length; i+=2){
                    var x = i;
                    var index = lines[x]
                    var context = lines[x+1]
                    // \xa0 = space
                    output.push('<li>' + index + "\xa0INFO:\xa0\xa0" + context + '</li>')
                }
                document.getElementById('content').innerHTML = output.join('') + '</br>';

结果:

1564001512016 INFO:  LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 
1564001512016 INFO:  some test stuff
1564001512016 INFO:  kjhdshfakhfdskjdshkjfdsh 
1564001512017 INFO:  hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 
1564001512017 INFO:  hdskjahfjfdshdfsahfdsajfdsa

最佳答案

由于索引定期更改,没有行结尾,并且日志消息可能包含任意文本,因此没有可靠的方法来解析此文件。不过,您可以使用正则表达式来接近:

var regex = /(\d{13}) INFO:/
var lines = fileContents.split(regex);

for(var i = 1; i < lines.length; i+=2){
    var index = lines[i];
    var line = lines[i+1];
    // ...
}

关于javascript - 使用索引拆分来解析文本流日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58422546/

相关文章:

r - 如何将键/值字符串转换为单独的列?

javascript - 用于格式化电子表格的 Google 脚本制作工具

javascript - Windows机器上网站的自动登录脚本?

javascript - 为什么一个元素在从 DOM 中移除后仍然可以访问?

android - 如何在android中解析graph cool service

c# - 如何在 C# 中将 List<char> 转换为 List<string>?

javascript - Jquery:获取数字数组中的最大值

javascript - 如何从 html blob 中的脚本标记中提取变量

javascript - 使用 babel 解析器时,Eslint 禁用严格模式

Java 将带有换行符的字符串拆分为数组,其中使用缓冲读取器从文件中读取字符串