python - 新程序员,坚持使用 python http 请求

标签 python http web-scraping obfuscation

首先,我想提前感谢大家,我意识到这可能是一个相当基本的问题,但是经过几个小时没有结果,我决定伸出援手寻求帮助。

我正在编写一个小脚本,它最终将成为一个更大的多部分程序的一部分(希望大声笑)。基本上它会查询 hidemyass.com 以获取代理列表(基于用户输入),然后将所述列表保存到临时文件中,以便在下一步中进行 ping 和验证。 看起来很简单吧?

现在我的问题...

当我发出请求并查看 html 响应源时,代理 IP 地址已被拆分得很奇怪。

例如。

    <br>
    .QJZ-{display:none}<br>
    .dA6C-{display:inline}<br>
    .h0UB-{display:none}<br>
    .HOns-{display:inline}<br>
    <br>        
    </style><div style="display:none">1</div><span></span><span style="display:none">99</span><span class="QJZ-">99</span><div style="display:none">99</div>201<span style="display: inline">.</span><span class="QJZ-">9</span><div style="display:none">9</div><div style="display:none">10</div><span style="display:none">80</span><span class="QJZ-">80</span><span style="display:none">140</span><span class="QJZ-">140</span><span style="display:none">149</span><span class="h0UB">149</span><div style="display:none">149</div><span style="display:none">161</span><span class="h0UB">161</span><span></span><span style="display:none">190</span>210<div style="display:none">217</div><span class="h0UB">234</span><span class="243">.</span><span class="h0UB">6

我的问题是,我到底怎么才能让我的代码将其读取为 IP 地址? (它不是完整的 html,我切断以缩短我的问题,因为它已经很大了)

再次感谢,
L8nit3tr0ubl3

编辑 - 忘了提到我使用 python,并且几乎没有 javascript/html 经验(我假设拆分是用 java 完成的)

最佳答案

他们专门试图阻止你这样做。
(正如我在 blog 中所描述的那样)

您可以向他们索取 API,或者您可以尝试使用 CSS 引擎来确定将显示哪些元素。

关于python - 新程序员,坚持使用 python http 请求,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18856926/

相关文章:

Python PyCrypto RSA 盲与非盲

python - 如何删除一组字典中所有字典的字典值中某个字符之后的所有内容?

python - 如何在 Flask 服务器中将 python JSON 转换为 html 表?

http - 用于指示 OpenID Connect 服务器位置的标准 HTTP header ?

javascript - window.opener.document.getElementById ("parentId1").value = myvalue 不起作用

Python:将 SELECT 查询列表转换为字典

asp.net - Multipart和Form在客户端上传方面的区别

java - Selenium 偶尔出现 UnreachableBrowserException

jquery - 脚本无法产生期望的结果

r - 使用R和XML包进行Web爬取