javascript - 如何操作从 x 射线抓取器 (node.js) 检索到的默认值

标签 javascript node.js scraper

这是我的代码:

var Xray = require('x-ray');  
var x = Xray();
x('http://someurl.com', 'tr td:nth-child(2)', [{  
    text: 'a',
    url: 'a@href'
  }]).write('results.json')

我只需要用每个 a 标签的第一个词填充名为“文本”的字段。标签值的示例:

“第一个字第二个字第三个字”

实际结果是文本:FirstWord SecondWord ThirdWord

期望的结果文本:FirstWord

我可以对 result.json 文件进行后处理,但我不喜欢这种方式。

最佳答案

您可以在过滤器中定义您的函数,这在官方 Github 页面中显示

var Xray = require('x-ray');
var x = Xray({
  filters: {
    trim: function (value) {
      return typeof value === 'string' ? value.trim() : value
    },
    reverse: function (value) {
      return typeof value === 'string' ? value.split('').reverse().join('') : value
    },
    slice: function (value, start , end) {
      return typeof value === 'string' ? value.slice(start, end) : value
    }
  }
});

x('http://mat.io', {
  title: 'title | trim | reverse | slice:2,3'
})(function(err, obj) {
/*
  {
    title: 'oi'
  }
*/
})

关于javascript - 如何操作从 x 射线抓取器 (node.js) 检索到的默认值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31876224/

相关文章:

sql - 连接到 SQL Server : Connection Error: Failed to connect to servername\instancename in 15000ms 时出现超时错误

node.js - 如何在 sails.js 中省略 sails.sockets.broadcast 中的两个或多个套接字?

java - 使用java jsoup登录不起作用

html - 使用蜜 jar img 标签检测爬虫/恶意机器人的建议

python - 如何将 Python 爬虫输出保存到 JSON 文件?

javascript - 如何使用 javascript 中的 http.post 将图像发送到服务器并在 mongodb 中存储 base64

javascript - Puppeteer - 在循环中使用 await

javascript - 更好的使用onmouseover、onmouseleave的方法

javascript - 创建从上到下、从左到右和向右溢出的 CSS div

javascript - 将 Maya 模型导入到 Three.js 场景的最佳方法是什么