node.js - 使用 Node.js 抓取和存储 Shopify 电子商务网站

标签 node.js web-scraping shopify

我编写了一段代码,使用 node.js 中的 website-scraper npm 模块来抓取一系列 Shopify 电子商务网站,但它显示 403 错误,但相同的代码适用于其他网站。

我们如何解决这个问题?

我的 scraperTest.js 文件是:

var scrape = require('website-scraper');
let test = require('./test')
let urls = [];
urlList = ['1500.academy'];
urlList.forEach(url =>{
    test.checkRedirect(url)
    .then(domain =>{
        urls.push('https://' + domain);
        console.log(urls);
        var options = {
            urls: urls,
            directory: './autochat/',
            'User-Agent': 'request',
        };

        // with promise
        scrape(options).then((result) => {
            /* some code here */
        }).catch((err) => {
            /* some code here */
        });

        // or with callback
        scrape(options, (error, result) => {
            /* some code here */
        });
    })
})

test.js 文件是

const request = require('request');
const extractDomain = require('extract-domain');

//var link = 'oneplustwocase.com';

function checkRedirect(link) {
    return new Promise((resolve, reject) => {

        var url = "http://" + link;
        var options = {
            url: url,
            headers: {
                'User-Agent': 'request'
            }
        };
        request(options, function (error, response, body) {
            let redirectedDomain = extractDomain(response.request.uri.href);
            if(response !== undefined){
                extractDomain(response.request.uri.href);
                if (response.statusCode === 200 && link !== redirectedDomain) {
                   resolve(redirectedDomain);
                } else {
                    resolve(link);
                }
            } else {
                resolve(link);
            }
        });
    });
}

module.exports.checkRedirect = checkRedirect;

最佳答案

我找到了解决方案。 我们可以使用 request() 获取域的 html 数据; response.body包含html数据

我使用以下代码得到的解决方案:

const request = require('request');
const extractDomain = require('extract-domain');
let fs = require('fs');

function checkRedirect(link) {
        var url = "http://" + link;
        var options = {
            url: url,
            headers: {
                'User-Agent': 'request'
            }
        };
        request(options, function (error, response, body) {

            if(response !== undefined){
                let redirectedDomain = extractDomain(response.request.uri.href);
                let writeStream = fs.createWriteStream(redirectedDomain + '.html');
                writeStream.write(response.body)
                writeStream.end();
        });
}

module.exports.checkRedirect = checkRedirect;

//checkRedirect('oneplustwocase.com')

/*
var r = request(url, function (e, resp) {
    r.uri
    resp.request.uri
  })*/

关于node.js - 使用 Node.js 抓取和存储 Shopify 电子商务网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52663482/

相关文章:

python - 如何从 python beautiful soup 的表中获取 tbody?

java - coldfusion 计算 getHTTPRequestData 的 HMAC256

python - 如何使用 BeautifulSoup 停止文章打印两次

r - 无法通过 RStudio 的任务调度程序启动浏览器

javascript - 如何为 Shopify 主题创建 "smarter"色板

reactjs - 该表达式不可在自定义 Hook 上调用

node.js - 如何为 Adonisjs 项目配置域名?

javascript - 如何使用node.js请求模块发送文件?

node.js - Nexus 3 不支持 npm dist-tags 命令

node.js - 如何结束 express.js/node POST 响应?