python - 使用 Python 从 .txt 文件中获取前 1000 个或定义数量的单词的最简单方法是什么？

标签 python text

这是问题的上下文:我有一个 .txt 文件，其中逐行包含经文。每行包含不同数量的单词。不管怎样，有没有办法把文件的前 1000 个单词，创建一个不同的文件(例如 block 1)并将信息输入该文件，然后用接下来的 1000 个单词创建另一个文件，前 1000 个单词来自被拍了等等，同时也忽略了章节的数量？非常感谢您的回复，因为我正在为一个人员统计项目执行此操作。

最佳答案

这应该有效:

from string import ascii_letters

with open( 'scripture.txt' ) as fin :
    text = fin.read()

valid_characters = ascii_letters + '\n\t '
text = ''.join( t for t in text if t in valid_characters )
text = text.split()

for i in range(len(text)//1000) :
    with open( 'part_%03d.txt' % i, 'w') as fout :
        thousand_words = text[i*1000:min((i+1)*1000,len(text))]
        fout.write( ' '.join( thousand_words ))

关于python - 使用 Python 从 .txt 文件中获取前 1000 个或定义数量的单词的最简单方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59257911/

上一篇：python - python 中的单个 var 赋值和多个 var 赋值之间有什么不同的行为吗？

下一篇：python - 如何检查命令是否已经执行

相关文章：

Python tkinter，使两个文本小部件的滚动同步

Python 单元测试 : make nose show failed assertions values

python - 如何循环遍历列表并取出几个不同的变量？

linux - 如何像这样grep字符串？

python - 将 .txt 文件中的整数读入 numpy 数组

ruby - Ruby 中基于特定文本的存在触发方法的算法

python - 序列化时 Protobuf 默认与 "missing required fields"

python - 如何加快 pyglet 渲染速度？

python - 如何在 Python 单元测试中设置日志记录级别

android - 使用短文本时选取框不会滚动