python-3.x - 使用 XPath python 将同一 td 中的 href 中的文本分开

标签 python-3.x selenium xpath web-crawler

我有一个像这样的 HTML 网页:

<tr><td style="text-align:center;">7</td><td class="multi_row" style="line-height:15px;">Loaded on 'NYK LEO 303W' at Port of Loading<br> <a href="JavaScript:void(0);" style="line-height:15px;" title="NYK LEO" data-click="vesselPop" data-cd="NLZT0303W">NYK LEO 303W</a></td><td class="multi_row" style="line-height:15px;">VANCOUVER, BC ,CANADA<br>  <a href="JavaScript:void(0);" style="line-height:15px;" onclick="openLocationPopup('CAVAN01')" title="3891 DELTAPORT GCT">3891 DELTAPORT GCT</a></td><td class="ico_e">2018-10-26 23:30</td></tr>

我想将 <a href> 分开的字符串部分位于一个变量中，并在另一个变量中具有纯文本，如“bla bla bla”。这就是我到目前为止所做的:

event_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]")
event = [cell.text for cell in event_path]

用于文本部分这一个用于

中的字符串:

vessel_path = driver.find_elements_by_xpath("//table[@id='detail']//tr/td[2]/a")
vessel = [cell.text.split(' ')[:2] for cell in vessel_path]

split(' ')[:2]是因为数据是这样的:NYK LEO 303W，我只需要单词而不是数字(使用正则表达式可以更可靠地完成)

最佳答案

尝试使用下面的方法仅从 td 获取第一个文本节点

event = [driver.execute_script('return arguments[0].firstChild.textContent;', cell).strip() for cell in event_path]

关于python-3.x - 使用 XPath python 将同一 td 中的 href 中的文本分开，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52971601/

上一篇：java - 使用 libGDX 将 tmx 文件加载到 java 时出现异常

下一篇：javascript - 使用 Lodash/Underscore 从对象列表中跳过并返回对象

相关文章：

python - 如何获取具有特定元素的列表的数量？

python-3.x - 如何按列分组并标准化？

python - 解析时转义错误的 XML

python - 使用理解向列表添加元素

java - 当尝试在 Selenium 中使用 POM 自动化论坛时，我遇到了 java.lang.NoClassDefFoundError...我该如何解决这个问题？

python - 相对 XPath 错误地选择了循环中的相同元素

python - 如何使用Selenium获取房屋数据

java - 如何使用 Java 在 Selenium WebDriver 中获取 webtable 中的确切行数

python - 如何在Python中使用XPath选择兄弟节点的子节点？

javascript - 无法使用 javascript 或 xpath 单击跨度内的按钮