python - 如何使用 python 对连续对中的字符串进行标记？

我的输入是“我喜欢打篮球”。我正在寻找的输出是“我喜欢”，“喜欢”，“玩”，“打篮球”。我已经使用了 Nltk word tokenize，但它只给出了单个标记。我在一个巨大的数据库中有这些类型的语句，并且这种成对标记化将在整个列上运行。

最佳答案

您可以使用列表理解来实现:

>>> a =  "I like to play basketball"
>>> b = a.split()
>>> c = [" ".join([b[i],b[i+1]]) for i in range(len(b)-1)]
>>> c
['I like', 'like to', 'to play', 'play basketball']

关于python - 如何使用 python 对连续对中的字符串进行标记？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69465433/

上一篇：python - 为什么从不同的文件位置调用时会得到不同的结果？

下一篇：postgresql - Docker 和 Postgres - 服务器在使用 5432 以外的端口时意外关闭连接错误

相关文章：

python - 当我在程序末尾定义全局变量时，我可以在代码开头使用它吗？

python - 在 Python 中使用 Paramiko ssh 到 ftp 服务器

r - 在 R 中按 ID 和 DATE 合并两个数据帧列表

python - 分组数据框并获得总和和计数？

python - 如何摆脱警告 "DeprecationWarning generator ' ngrams 引发的 StopIteration"

python - 中世纪字符的 UnicodeDecodeError

python - 从 SQL 表中获取值以及 Python 中的列表形式的列名

python - 如何访问 Pandas 数据框中左上角数据的值？

classification - Windows 上的 NLTK MEGAM Max Ent 算法

python - 让 python 进程回话 SIGUSR1 调用