python - 文本分类与推荐

标签 python machine-learning

我正在尝试创建一种机器学习算法,用于农村(村庄)地区的地址分类或类似地址分类。我有一个历史数据,其中包括地址列表(自变量)、村庄名称(自变量)密码(自变量)、客户手机号码和路线编号(因变量)。路线号是送货车的路线,这将帮助他们覆盖该地区最大数量的送货目的地。

挑战 -

  1. “地址”可能会拼写错误。
  2. “村庄名称”可以为空。
  3. “PIN 码”可能是错误的。

好事 -

并非所有自变量都可以同时为错误/空值。

现在创建此算法的目的是根据“地址”、“村庄”、“密码”和历史数据(在其中我们手动选择递送路线)来选择最佳路线编号购物车)。

我是初学者,我很困惑如何做到这一点,使用哪个过程。

任务我已经完成了。

地址清理 - 删除短词、删除大词、删除停用词。

现在尝试使用词向量来做到这一点,但我无法做到这一点。

最佳答案

首先,您必须先构建一个数据集 - 包含尽可能多的村庄的名称!因为许多村庄都有相似的名称,所以识别拼写错误非常困难且危险!有一两个字母的差异。因此,数据集越大越好。 然后,尝试使用 TF-IDF村庄名称和 PIN 码( this link may be helpful for Indian data )的组合,或者您可以采用模糊逻辑。 希望能帮助到你!快乐编码!

关于python - 文本分类与推荐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55662305/

相关文章:

python - 谷歌应用引擎 : Automatically re-deploy once a day to update machine learning model?

python - BertForSequenceClassification 与用于句子多类分类的 BertForMultipleChoice

python - 推荐使用 [python-lifter] 进行查询的嵌套数据结构

python - keras 的 Model.train_on_batch 和 tensorflow 的 Session.run([train_optimizer]) 有什么区别?

tensorflow - tf.Dataset.from_tensor_slices性能问题

python - 查看 UrlGatewayLogin 未返回 HttpResponse 对象。它返回 None 相反

c++ - 使用 OpenCV 随机森林进行回归

python - 多字 discord 斜杠命令 (PyCord)

python - 在保存到数据库之前在 session 中使用实例

python - SQLite实现的open/close函数