python - 从python中的长字符串中删除某些字符

标签 python string

我正在开发一个项目,该项目涉及获取一些源代码并将其简化为页面上显示的单词。我可以让它删除所有 html 标签以及脚本标签之间的所有内容,但我不知道如何删除所有以反斜杠开头的字符。页面将包含\t、\n 和\x**,其中 * 似乎是任何小写字母或数字。

我如何编写一个代码来用空格替换字符串的所有这些部分?我正在使用 python 工作。

例如,这是来自网页的字符串:

\n\t\n\t\n\t\tApple - Wikipedia, the free encyclopedia\n\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\n\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\n\t\t\tLanguage:English\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a\xd8\xa9Aragon\xc3\xa9sAsturianuAz\xc9\x99rbaycanca\xe0\xa6\xac\xe0\xa6\xbe\xe0\xa6\x82\xe0\xa6\xb2\xe0\xa6\xbeB\xc3\xa2n-l\xc3\xa2m-g\xc3\xbaBasa Banyumasan\xd0\x91\xd0\xb5\xd0\xbb\xd0\xb0\xd1\x80\xd1\x83\xd1\x81\xd0\xba\xd0

会变成:

Apple - Wikipedia, the free encyclopedia Language:English sAsturianuAz rbaycanca Basa Banyumasan

最佳答案

s = repr('''\n\t\n\t\n\t\tApple - Wikipedia, the free encyclopedia\n\t\t\n\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\n\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\n\t\t\t\t\t\t\n\t\t\t\n\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\t\n\t\t\t\t\n\t\t\t\n\t\t\t\t\t\n\t\t\t\t\t\t\t\t\t\n\t\t\tLanguage:English\xd8\xa7\xd9\x84\xd8\xb9\xd8\xb1\xd8\xa8\xd9\x8a\xd8\xa9Aragon\xc3\xa9sAsturianuAz\xc9\x99rbaycanca\xe0\xa6\xac\xe0\xa6\xbe\xe0\xa6\x82\xe0\xa6\xb2\xe0\xa6\xbeB\xc3\xa2n-l\xc3\xa2m-g\xc3\xbaBasa Banyumasan\xd0\x91\xd0\xb5\xd0\xbb\xd0\xb0\xd1\x80\xd1\x83\xd1\x81\xd0\xba\xd0''')
s =  re.sub(r'\\[tn]', '', s)
s =  re.sub(r'\\x..', '', s)
print s

关于python - 从python中的长字符串中删除某些字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10964106/

相关文章:

python - 如何在 Clojure 的 while 循环中应用嵌套的 for 循环?

python - zip、排序和 Pandas

python - Django 处理可选的 url 参数

python - 日志文件的实时进度

java - java计算字符串中某个字符出现的次数

Python 正则表达式与年月组合不匹配

python - Python 中 sum() 的时间复杂度是多少?

python - os.path.splitext(file.txt.gz) 到 (file,.txt.gz)

c++ - 静态内存实例中的字符串计数

swift 3 : convert a null-terminated UnsafePointer<UInt8> to a string