我目前正在尝试提取脚本 type="text/html"指向的页面。例如this CNN link源代码中有一行:
<script type="text/html" id="pageTemplate"></script>
我想下载 pageTemplate 的内容并能够解析结果。我一直在尝试使用 HTML::TagParser,并且能够获取元素 pageTemplate,但无法获取其内容。
最佳答案
照原样,“pageTemplate”没有任何内容。据推测,那是因为它将被用作某些 html 的存储; “text/html”类型的脚本实际上做 任何事情。即 <script>
就像这是一个未显示的 DOM 元素,可以用于任何目的。
一种可能性:http://ejohn.org/blog/javascript-micro-templating/
查看与 CNN 页面关联的 javascript,以获取有关该 ID 用途的线索。
关于javascript - 使用 Perl 提取脚本类型 html/text,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10341405/