machine-learning - 文件路径名或 URL 分析

标签 machine-learning

我正在寻找有关文件路径名分析的工具、方法和技术的信息。我不是在谈论文件大小、读/写时间或文件类型,而是对路径或 URL 本身的分析。

我只知道基本的词频文本工具或方法,但我想知道是否有更高级的东西可以让人们使用/应用于此来尝试从中挖掘额外的信息。

谢谢!

更新:

这是我想要的最狭隘的例子。好的,所以我有一些完整路径名作为字符串,如下所示:

F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_01_NYS\Models\MapShedMaps\Random_File5.doc

F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File1.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File2.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File3.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File4.doc
F:\Task_Order_Projects\TO_02_NYS\Models\MapShedMaps\Random_File5.doc

我想知道的是 MapShedMaps 文件夹“唯一”出现了 2 次。如果我在琴弦上出现频率,我会出现 10 次。问题是我不知道目录中的哪个级别很重要,因此我希望根据我所描述的内容在目录的每个级别都有一个唯一的计数。

最佳答案

这是一个极其广泛的问题,因此我很难给您一个明确的“答案”,但我会告诉您我对此的第一个想法。

首先

.NET 的正则表达式类对于解析大量信息非常有用。它是如此强大,以至于很容易让不耐烦的人感到困惑,但是一旦掌握了它,就可以在文本编辑器、.NET 和我认为的几乎任何其他受人尊敬的语言中使用。这将允许您搜索字符串并将其分成目录。根据你如何使用它,这可能有点矫枉过正,但它是一个想法。 Here is a favorite link of mine to try out some regular expressions.

第二,

你需要一个数据库,我更喜欢使用 SQL。研究如何连接到数据库并创建数据库。使用此数据库,您可以存储从输入的原始路径中提取的所有字段。如父目录、子目录、访问的常见文件类型等。只需为其中每一个设置一个字段,然后通过查询就可以形成关于冗余的假设。

第三,

我不知道它是否易于访问,但您可能会调查Windows是否存储访问的文件历史记录。似乎对过去打开过哪些文件有一些线索。因此,Windows 中可能有一个资源已经存储了您将存储在数据库中的大部分信息。如果您能找到访问此信息的方法。使用正则表达式解析它并将其重新提交到应用程序的数据库。你可以控制世界! j/k...不过,您可以获得关于用户访问模式的相当好的预测。

第四,

我总是尝试坚持现有的东西。如果 .NET 就在您面前,请努力研究您想要做的事情。如果你到达一堵墙。至少你取得了进步。在当今面向对象编程的趋势中,您通常可以将一个程序收集的数据更改为另一个程序可接受的格式。你只需要挖一点。

哦,顺便说一句,Coursera.com实际上是在做一门关于机器学习和算法的免费类(class)。您可能想查看它或引用它的预测公式。

祝你好运。

关于machine-learning - 文件路径名或 URL 分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12622581/

相关文章:

python - 获取网络的前一个嵌入功能,但不起作用

python - 你如何以编程方式读取 Tensorboard 文件?

python - 在 TensorFlow 中使用验证集和不使用验证集来拟合 DNN 之间的区别

matlab - 具有包装方法的集成分类器

docker - ModuleNotFoundError : No module named 'maskrcnn_benchmark'

numpy - 使用 scikit 执行优化时内核死掉

python - 属性错误: module 'pandas.compat' has no attribute 'iteritems'

c# - 机器学习识别拼写错误

python - NDCG(归一化贴现 yield )有缺陷吗?我已经计算了一些替代的排名质量衡量标准,但我无法确定它的正面或反面

scala - xgboost Scala API `predictContrib` 是什么?