python - 如何使用 python 对连续对中的字符串进行标记?

标签 python dataframe nltk

我的输入是“我喜欢打篮球”。 我正在寻找的输出是“我喜欢”,“喜欢”,“玩”,“打篮球”。 我已经使用了 Nltk word tokenize,但它只给出了单个标记。 我在一个巨大的数据库中有这些类型的语句,并且这种成对标记化将在整个列上运行。

最佳答案

您可以使用列表理解来实现:

>>> a =  "I like to play basketball"
>>> b = a.split()
>>> c = [" ".join([b[i],b[i+1]]) for i in range(len(b)-1)]
>>> c
['I like', 'like to', 'to play', 'play basketball']

关于python - 如何使用 python 对连续对中的字符串进行标记?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69465433/

相关文章:

python - 当我在程序末尾定义全局变量时,我可以在代码开头使用它吗?

python - 在 Python 中使用 Paramiko ssh 到 ftp 服务器

r - 在 R 中按 ID 和 DATE 合并两个数据帧列表

python - 分组数据框并获得总和和计数?

python - 如何摆脱警告 "DeprecationWarning generator ' ngrams 引发的 StopIteration"

python - 中世纪字符的 UnicodeDecodeError

python - 从 SQL 表中获取值以及 Python 中的列表形式的列名

python - 如何访问 Pandas 数据框中左上角数据的值?

classification - Windows 上的 NLTK MEGAM Max Ent 算法

python - 让 python 进程回话 SIGUSR1 调用