Python-正则表达式 "Machine Learning"

标签 python regex machine-learning nlp

我有数千行文本需要在其中找到货币表示,例如:

Lorem ipsum dolor sit amet, 100.000,00 USD sadipscing elitr, sed diam nonumy eirmod 
GBP 400 ut labore et dolore magna aliquyam erat, sed diam voluptua. At USD 20 eos et 
accusam et justo duo dolores et 100,000.00 USD  ea rebum. Stet 3,-- USD gubergren, no 

Python 脚本应返回转换为美元的金额。 (例如 100000 美元、400 英镑 -> 美元等)

到目前为止,我所做的是手动创建数字-货币组合的正则表达式以检索值,然后将货币与数据库进行比较并计算汇率。

然而,这既不高效也不适合 future (例如,如果添加另一种货币) 所以我想知道是否有一种有效的机器学习算法,我可以用一些例子来“训练”它,然后它会尝试找到这样的“值(value) - 货币”组合?

最佳答案

如果一个首字母缩略词是一种货币,人类甚至可以知道吗?如果出现一种新货币,那么它如何与任何其他任意首字母缩写词区分开来?假设您遇到“1000 CPU”之类的东西,如果您不知道 CPU 是什么,您怎么知道它是(或不是)货币?

您可以使用自然语言处理来查看相关数字的上下文,但这需要更多的处理,而且您永远无法确定。

我的观点是:对于这个问题,机器学习是矫枉过正的,如果它适用的话。

为什么用另一种方法更容易、更准确地做某事却要用困难的方法?

关于Python-正则表达式 "Machine Learning",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15183685/

相关文章:

python - Django 没有名为 "compressor"的模块

python - 在 Python 中,我如何体素化 3D 网格

javascript - 使用 python + selenium 单击按钮

python - keras 无法多次调用 model.predict_classes

python - 卷积神经网络中的形状误差

python - 使用 python-ldap 在 AD 中搜索已删除的用户/组

java - 使用 java 和 Tika 的正则表达式将字符串拆分为数组

Ruby 正则表达式搜索

java - 通过正则表达式捕获多个组

Python Pandas 回归