python - 如何导入文本文件以适合此聚类算法？

标签 python algorithm nltk

我有 900 个 .txt 文件(所有这些都是美国总统的演讲)保存在我的 U:/驱动器上的一个文件夹中。我希望按照此处给出的示例运行一些文档集群:http://brandonrose.org/clustering .在他的示例中，作者使用了来自 nltk 的给定存储库。如何导入我的文本文件以正确运行此算法？

最终，我会尝试根据总统说话的方式对总统进行分组，因此最好有五六个总统集群以及属于这些集群的总统列表。

最佳答案

如果可以使用glob模块获取每一个文件名，然后将它们的内容读入字符串:

import glob

for filename in glob.glob("somefolder/*.txt"):
    with open(filename, 'r') as inputFile:
        filecontent = inputFile.read();

从现在开始，您可以使用变量 filename 和 filecontent 来创建对象列表(很可能是字典)，然后您可以按照您链接的教程进行操作。

关于python - 如何导入文本文件以适合此聚类算法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33634432/

上一篇：algorithm - 嵌套for循环的Big-O : Linear or Quadratic?

下一篇：algorithm - 在数据库中表示阶梯的最佳方式

相关文章：

python - 如何使用 Nltk WordNet 获得给定感觉键的光泽度？

regex - Python 3 中最快的标记化函数是什么？

python - Django 模板 : Passing a variable from an include, 进入点符号路径

python - 将 'int' 转换为 pytorch 'Variable' 会出现问题

python - 在 Python 中使用 Azure AD 下载 Azure 存储数据

algorithm - 求最近点对这七点的解释

ruby - 如何在不使用乘法的情况下对数字进行平方？

python - 如何提取 WordNet 同义词集的偏移量以在 Python NLTK 中提供同义词集？

匹配 char 后跟/前跟相同 char 但大写/小写的 Python RegEx

python - 为什么我的 shuffle 实现不正确？