我正在研究分类算法,我得到了具有某种模式的不同字符串代码。
|:-----------|------------:|:------------:|
| Column 1 | Column 2 | Column 3 |
|:-----------|------------:|:------------:|
| MN009 | JIK9PO | LEFTu |
| MN010 | JIK9POS | LEFTu |
| MN011 | JIK9POKI | LEFTu |
| MN012 | KIJU | LEFTu |
| MN013 | RANDOM | LEFTu |
| MN014 | FT | LEFTu |
|:-----------|------------:|:------------:|
对于第 1 列和第 3 列,特征集可以是长度为 5 的向量。
但我不知道如何创建也可以容纳第 2 列的功能集。
注意事项:
- 创建一个大小等于最长字符串大小的特征向量 值,对于较小的字符串添加一些填充符。
- 将字符串截断为固定长度(例如此处的 5)并忽略多余的长度 字符。
希望我能清楚地回答这个问题。谢谢:)
最佳答案
有两种解决方案:
关于machine-learning - 如何将可变长度字符串转换为向量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49553880/