我有数千行文本需要在其中找到货币表示,例如:
Lorem ipsum dolor sit amet, 100.000,00 USD sadipscing elitr, sed diam nonumy eirmod
GBP 400 ut labore et dolore magna aliquyam erat, sed diam voluptua. At USD 20 eos et
accusam et justo duo dolores et 100,000.00 USD ea rebum. Stet 3,-- USD gubergren, no
Python 脚本应返回转换为美元的金额。 (例如 100000 美元、400 英镑 -> 美元等)
到目前为止,我所做的是手动创建数字-货币组合的正则表达式以检索值,然后将货币与数据库进行比较并计算汇率。
然而,这既不高效也不适合 future (例如,如果添加另一种货币) 所以我想知道是否有一种有效的机器学习算法,我可以用一些例子来“训练”它,然后它会尝试找到这样的“值(value) - 货币”组合?
最佳答案
如果一个首字母缩略词是一种货币,人类甚至可以知道吗?如果出现一种新货币,那么它如何与任何其他任意首字母缩写词区分开来?假设您遇到“1000 CPU”之类的东西,如果您不知道 CPU 是什么,您怎么知道它是(或不是)货币?
您可以使用自然语言处理来查看相关数字的上下文,但这需要更多的处理,而且您永远无法确定。
我的观点是:对于这个问题,机器学习是矫枉过正的,如果它适用的话。
为什么用另一种方法更容易、更准确地做某事却要用困难的方法?
关于Python-正则表达式 "Machine Learning",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15183685/