python - driver.page_source 使用 Selenium 仅返回元名称 ="ROBOTS"内容 ="NOINDEX, NOFOLLOW"

标签 python selenium web-scraping meta-tags meta

我想抓取一个网站,以使用以下代码获取页面内容:

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
driver = webdriver.Remote("http://adress:4444/wd/hub", DesiredCapabilities.CHROME)
link = 'website_url'
driver.get(link)
s = driver.page_source
print((s.encode("utf-8")))
driver.quit()

这是收到的:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

我也尝试了很多不同的方法,Luminati,代理newipnow,phantomjs,但不起作用,有什么建议我还能尝试解决这个问题吗?

最佳答案

<meta name="ROBOTS" content="value">

此元标记向不同的搜索引擎传达它们在特定页面上允许和不允许执行的操作。此元标记可以放置在<head>内的任何位置。和</head>标签。

注意::如<meta>标签不具有站点范围的效果,它可以在同一网站的不同页面上包含不同的值。

有效的是:

  • Index (默认值)
  • Noindex
  • None
  • Follow
  • Nofollow
  • Noarchive
  • Nosnippet

这些值也可以组合起来形成所需的有效元机器人标签。

示例:

  • <meta name="robots" content="noindex" />
  • <meta name="robots" content="index,follow" />
  • <meta name="robots" content="index,follow,noarchive" />
<小时/>

content="NOINDEX, NOFOLLOW"

NOINDEX值传达搜索引擎索引该页面,因此该页面不应显示在搜索结果中。 NOFOLLOW值(value)传达给搜索引擎NOT关注或发现此页面链接到的页面。

网络开发人员在开发网站上添加 NOINDEXNOFOLLOW 元机器人标签,因此搜索引擎意外地不会开始向仍在 build 中的网站发送流量.

<小时/>

你为什么看到?

原因可能是以下任一原因:

  • 您正在尝试在开发环境中执行自动测试
  • 开发团队无意中将此标签添加到实际网站中。
  • 开发团队忘记在上线后将其从上线网站中删除。
<小时/>

引用

What is the meaning of the meta name "robots" tag

<小时/>

片尾

Using the robots meta tag

关于python - driver.page_source 使用 Selenium 仅返回元名称 ="ROBOTS"内容 ="NOINDEX, NOFOLLOW",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57638195/

相关文章:

python - Scrapy 在执行时抛出 "ModuleNotFoundError"

python - _event.cpython-310-x86_64-linux-gnu.so : undefined symbol: _PyGen_Send 导入错误

java - Selenium 之于 Web UI 测试就像 ________ 之于 Windows 应用程序 UI 测试

python - 属性错误: module 'http.server' has no attribute 'ThreadingHTTPServer'

java - 显式等待不起作用,Thread.sleep 有效

selenium - 具有下载功能的 headless 浏览器测试?

python - Selenium WebDriverException 尝试保存屏幕截图时出错(Python 3.6)

html - 为什么我的使用跟随兄弟的 XPath 不起作用?

python - DateTime属性时区

python - 移动相应py时自动删除pyc文件(Mercurial)