我正在尝试创建一种机器学习算法,用于农村(村庄)地区的地址分类或类似地址分类。我有一个历史数据,其中包括地址列表(自变量)、村庄名称(自变量)密码(自变量)、客户手机号码和路线编号(因变量)。路线号是送货车的路线,这将帮助他们覆盖该地区最大数量的送货目的地。
挑战 -
- “地址”可能会拼写错误。
- “村庄名称”可以为空。
- “PIN 码”可能是错误的。
好事 -
并非所有自变量都可以同时为错误/空值。
现在创建此算法的目的是根据“地址”、“村庄”、“密码”和历史数据(在其中我们手动选择递送路线)来选择最佳路线编号购物车)。
我是初学者,我很困惑如何做到这一点,使用哪个过程。
任务我已经完成了。
地址清理 - 删除短词、删除大词、删除停用词。
现在尝试使用词向量来做到这一点,但我无法做到这一点。
最佳答案
首先,您必须先构建一个数据集 - 包含尽可能多的村庄的名称!因为许多村庄都有相似的名称,所以识别拼写错误非常困难且危险!有一两个字母的差异。因此,数据集越大越好。 然后,尝试使用 TF-IDF村庄名称和 PIN 码( this link may be helpful for Indian data )的组合,或者您可以采用模糊逻辑。 希望能帮助到你!快乐编码!
关于python - 文本分类与推荐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55662305/