我有仅保存原始文本的日志文件。我无法控制这些日志文件的写入方式。它们以数据流传输的方式保存。我试图解析出每行以索引开头的位置。
日志文件和预期输出如下。日志文件始终以 13 位数字的索引开头(可能已填充),因此我将其作为索引。然后,我将内容与索引分开,以使第一个初始行正常工作。然后我将其放入 while 循环中,检查文件是否能够使用 lines.length > 1
分割任何内容。
我注意到我错误地使用了 split,因为它仅用于查找行结尾而不是它们的开始位置。否则它将达到预期的结果。话虽如此,对于我所拥有的部分解决方案是否有一个简单的解决方案?
var reader = new FileReader();
var output = [];
reader.readAsText(f, "UTF-8");
// if file read successful then text string stored in the result property of FileReader()
reader.onload = function(evt){
var fileContents = evt.target.result;
var index = fileContents.slice(0,13);
var lines = fileContents.split(index);
// Continue splitting until we fail (nothing split = 1)
//while(lines.length > 1){
for(var i = 0; i < lines.length; i++){
output.push(index + ' ' + lines[i] + '<br>')
}
// go to next lines
index++;
lines = fileContents.split(index);
//}
document.getElementById('content').innerHTML = '<ul>' + output.join('') + '</ul>';
}
提供的日志文件:
1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj 1564001512016 INFO: some test stuff 1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa
实际输出:
1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj
1564001512016 INFO: some test stuff
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh 1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds 1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa
预期输出:
1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj
1564001512016 INFO: some test stuff
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh
1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds
1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa
更新:
通过下面的答案,我可以根据下面的代码对其进行定制。一些值得注意的更改,添加了通过拆分(出于某种原因)删除的 INFO
字符串,并将 int i
存储到变量 x
中以不递增每次迭代第三次:
var fileContents = evt.target.result;
var regex = /(\d{13}) INFO:/
var lines = fileContents.split(regex);
// i starts at 1 as split seems to always return empty at 0
for(var i = 1; i < lines.length; i+=2){
var x = i;
var index = lines[x]
var context = lines[x+1]
// \xa0 = space
output.push('<li>' + index + "\xa0INFO:\xa0\xa0" + context + '</li>')
}
document.getElementById('content').innerHTML = output.join('') + '</br>';
结果:
1564001512016 INFO: LOG MANAGER jdshfkjaafhdskfdsajfdsadsfj
1564001512016 INFO: some test stuff
1564001512016 INFO: kjhdshfakhfdskjdshkjfdsh
1564001512017 INFO: hjkdsahfjkfhdskjfdsahkfdskjfdsakjfds
1564001512017 INFO: hdskjahfjfdshdfsahfdsajfdsa
最佳答案
由于索引定期更改,没有行结尾,并且日志消息可能包含任意文本,因此没有可靠的方法来解析此文件。不过,您可以使用正则表达式来接近:
var regex = /(\d{13}) INFO:/
var lines = fileContents.split(regex);
for(var i = 1; i < lines.length; i+=2){
var index = lines[i];
var line = lines[i+1];
// ...
}
关于javascript - 使用索引拆分来解析文本流日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58422546/