我试图将一串字符拆分成一个列表,同时排除某些子字符串。
例如:
>>> sentences = '<s>I like dogs.</s><s>It\'s Monday today.</s>'
>>> substring1 = '<s>'
>>> substring2 = '</s>'
>>> print(split_string(sentences))
['<s>', 'I', ' ', 'l', 'i', 'k', 'e', ' ', 'd', 'o', 'g', 's',
'.', '</s>', '<s>', 'I', 't', "'", 's', ' ', 'M', 'o', 'n', 'd',
'a', 'y', ' ', 't', 'o', 'd', 'a', 'y', '.', '</s>']
如您所见,除了列出的子字符串外,字符串被拆分为多个字符。我如何在 Python 中执行此操作?
最佳答案
你可以使用 re.findall
为了这。 :)
import re
sentences = '<s>I like dogs.</s><s>It\'s Monday today.</s>'
print(re.findall(r'<\/?s>|.',sentences))
输出
['<s>', 'I', ' ', 'l', 'i', 'k', 'e', ' ', 'd', 'o', 'g', 's', '.', '</s>', '<s>', 'I', 't', "'", 's', ' ', 'M', 'o', 'n', 'd', 'a', 'y', ' ', 't', 'o', 'd', 'a', 'y', '.', '</s>']
关于Python - 将字符串拆分为字符,同时排除某个子字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57442763/