python - 文本分类与推荐

关闭。这个问题需要多问focused 。目前不接受答案。

想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post .

已关闭 4 年前。

我正在尝试创建一种机器学习算法，用于农村(村庄)地区的地址分类或类似地址分类。我有一个历史数据，其中包括地址列表(自变量)、村庄名称(自变量)密码(自变量)、客户手机号码和路线编号(因变量)。路线号是送货车的路线，这将帮助他们覆盖该地区最大数量的送货目的地。

挑战 -

“地址”可能会拼写错误。
“村庄名称”可以为空。
“PIN 码”可能是错误的。

好事 -

并非所有自变量都可以同时为错误/空值。

现在创建此算法的目的是根据“地址”、“村庄”、“密码”和历史数据(在其中我们手动选择递送路线)来选择最佳路线编号购物车)。

我是初学者，我很困惑如何做到这一点，使用哪个过程。

任务我已经完成了。

地址清理 - 删除短词、删除大词、删除停用词。

现在尝试使用词向量来做到这一点，但我无法做到这一点。

最佳答案

首先，您必须先构建一个数据集 - 包含尽可能多的村庄的名称!因为许多村庄都有相似的名称，所以识别拼写错误非常困难且危险!有一两个字母的差异。因此，数据集越大越好。然后，尝试使用 TF-IDF村庄名称和 PIN 码( this link may be helpful for Indian data )的组合，或者您可以采用模糊逻辑。希望能帮助到你!快乐编码!

关于python - 文本分类与推荐，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55662305/

上一篇：matlab - 使用 Octave\MatLab 进行 ML 梯度下降成本函数的简单演算到底是如何工作的？

下一篇：python - 如何使用torch.nn.CrossEntropyLoss作为自动编码器的重建损失？

python - BertForSequenceClassification 与用于句子多类分类的 BertForMultipleChoice

python - keras 的 Model.train_on_batch 和 tensorflow 的 Session.run([train_optimizer]) 有什么区别？

tensorflow - tf.Dataset.from_tensor_slices性能问题

python - 查看 UrlGatewayLogin 未返回 HttpResponse 对象。它返回 None 相反

c++ - 使用 OpenCV 随机森林进行回归

python - 多字 discord 斜杠命令 (PyCord)

python - 在保存到数据库之前在 session 中使用实例

python - SQLite实现的open/close函数