javascript - 仅从 html 页面中提取单词

标签 javascript python html css python-2.7

我正在使用 python 2.7,我有一个包含 html 页面列表的文件夹,我只想从中提取单词。目前,我正在使用的过程是打开 html 文件,通过漂亮的汤库运行它,获取文本并将其写入新文件。但这里的问题是我仍然在输出中得到 javascript、css(body、colour、#000000 .etc)、符号(|、`、~、[] .etc)和随机数。

如何去除不需要的输出并只获取文本?

path = *folder path*
raw = open(path + "/raw.txt", "w")
files = os.listdir(path)
for name in files:
    fname = os.path.join(path, name)
    try:
        with open(fname) as f:
            b = f.read()
            soup = BeautifulSoup(b)
            txt = soup.body.getText().encode("UTF-8")
            raw.write(txt)

最佳答案

可以去除脚本和样式标签

import requests
from bs4 import BeautifulSoup

session = requests.session()

soup = BeautifulSoup(session.get('http://stackoverflow.com/questions/27684020/extracting-only-words- from-html-pages').text)

#This part here will strip out the script and style tags.
for script in soup(["script", "style"]):
script.extract()

print soup.get_text()

关于javascript - 仅从 html 页面中提取单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27684020/

相关文章:

css - 如何清除固定高度的 div 和内部跨度?

html - 响应式样式表上的背景图片不起作用

php - 如何使用一个表中的价格数据进行存储在另一个表中的计算?

javascript - 如何拒绝数组中的元素?

javascript - 如何在 Google map 中添加缩放控件

javascript - .d.ts 文件的构造和应用的简单示例?

javascript - 如何在 TypeScript 中导出生成器函数?

python - 在特定索引之后将值添加到数据框列

python - 将 PySpark DF 写入专用格式的文件

python - Python 中的循环切片