xml - 解析带有重复标签的 XML 文件

标签 xml bash perl xml-parsing gpx

我目前使用 XML 解析器从 GPX (XML) 文件中提取路由名称。

每个 GPX 文件都包含一个“名称”标签,这是我一直在提取的。

这是脚本:

#! /bin/bash

gpxpath=/mnt/gpxfiles; export gpxpath

for file in $gpxpath/*
do

filename=`ls $file`; export filenanme
gpxname=`$scripts/xmlparse.pl "$file"`

echo $filename "    "$gpxname >> gpxparse.tmp

done

sort -k 2,2 gpxparse.tmp > gpxparse.out

cat gpxparse.out

这里是 xmlparse.pl:

#!/usr/bin/perl

use strict;
use warnings;

use XML::Twig;

XML::Twig->new(
    twig_handlers => {
        'name' => sub { print $_ ->text }
    }
    )->parse( <> );

这是一个示例 GPX 文件:

<?xml version="1.0" encoding="UTF-8"?>
<gpx version="1.1" creator="creator" xsi:schemaLocation="http://www.topografix.com/GPX/1/1 http://www.topografix.com/GPX/1/1/gpx.xsd" xmlns="http://www.topografix.com/GPX/1/1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
    <metadata>     
        <referrer>Referrer</referrer>
        <time>2019-06-17T06:02:23.000Z</time>
    </metadata>
    <trk>
        <name>Another GPX file</name>
        <trkseg>
            <trkpt lon="-1.91990" lat="53.00131">
                <ele>112.1</ele>
                <time>2019-06-17T06:02:23.000Z</time>
            </trkpt>
            <trkpt lon="-1.91966" lat="53.00126">
                <ele>113.6</ele>
                <time>2019-06-17T06:02:25.000Z</time>
            </trkpt>
            <trkpt lon="-1.91962" lat="53.00125">
                <ele>114.1</ele>
                <time>2019-06-17T06:02:25.000Z</time>
            </trkpt>
            <trkpt lon="-1.91945" lat="53.00120">
                <ele>115.5</ele>
                <time>2019-06-17T06:02:26.000Z</time>
            </trkpt>
        </trkseg>
    </trk>
</gpx>

我可以使用上面的脚本成功提取路线的名称但是,我还想提取每个文件中的第一个坐标对。

Atrack 可以由“trk”元素定义,并且在一个轨道内可以是多个段或“trkseg”。最后,在一个 trkseg 中有多个“trkpt”(跟踪点)。

轨迹点通常由纬度和经度坐标对以及海拔和时间戳信息组成。

我只想在 GPX 文件的第一个 trkpt 中提取第一个 lat 和 lon。理想情况下,一旦脚本找到第一个坐标对,它应该退出并移动到下一个文件。

我已经尝试制作一个额外的 perl 脚本

我已经使用 XML::Twig 添加了一个额外的 perl 解析脚本,但是当有多个具有重复名称的元素时,它似乎会出错。

最佳答案

使用 提取“名称”值和第一个 trkpt 的 lat 和 lon:

xmlstarlet sel -t -v '//_:name'          -o , \
                  -v '//_:trkpt[1]/@lat' -o , \
                  -v '//_:trkpt[1]/@lon' -n \
                  file.xml
Another GPX file,53.00131,-1.91990

在 shell 脚本中,您可以使用以下命令解析此输出:

IFS=, read -r gpxname lat long < <( xmlstarlet ... )

关于xml - 解析带有重复标签的 XML 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63341720/

相关文章:

xml - 如何使用 XPath 在 XML 文档中选择多组属性?

Java 自定义解析器(如 XML)

bash - ANSI 问题 : "\x1B[?25h" and "\x1BE"

regex - 使用 sed 查找和替换?

c# - 从资源复制文件

java - jersey-media-json-jackson、jersey-json、jersey-media-multipart 之间的区别?

php - Linux "at"命令在从 shell 运行时工作正常,但在从 web 服务器运行时失败

regex - Perl:根据键将散列分成几个?

linux - 在 Perl 脚本中执行 SQLite DB 时遇到问题

perl - 如何从作为数组元素的 Perl 文件句柄中读取数据?