我的输入是“我喜欢打篮球”。 我正在寻找的输出是“我喜欢”,“喜欢”,“玩”,“打篮球”。 我已经使用了 Nltk word tokenize,但它只给出了单个标记。 我在一个巨大的数据库中有这些类型的语句,并且这种成对标记化将在整个列上运行。
最佳答案
您可以使用列表理解来实现:
>>> a = "I like to play basketball"
>>> b = a.split()
>>> c = [" ".join([b[i],b[i+1]]) for i in range(len(b)-1)]
>>> c
['I like', 'like to', 'to play', 'play basketball']
关于python - 如何使用 python 对连续对中的字符串进行标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69465433/