language-agnostic - 您使用哪些工具来分析文本？

我需要一些灵感。对于一个业余爱好项目，我正在研究内容分析。我基本上是在尝试分析输入以将其与主题图相匹配。

例如:

“伊拉克之路”> 历史、中东
“Halloumni” > 中东美食
“宝马”> 德国，汽车
“奥巴马”> 美国
“Impala”> 美国，汽车
“柏林墙”> 历史，德国
“香肠”> 食品，德国
“芝士汉堡”> 食品，美国
...

我读了很多有关分类学的文章，最后，无论我读到什么，都得出结论:所有人的标签都不同，因此该系统注定会失败。

我考虑过标记化输入和停用词列表，但它们当然需要大量的工作来提出和构建。在单词和主题之间建立相关链接似乎很费力，而且永无止境，因为无论您处理什么语言，它都非常丰富，而且大多数语言也严重依赖上下文。更不用说维护它了。

我想我需要想出一些一些聪明的东西，并用我希望它能够猜测的主题来训练它。有点像Eliza bot .

无论如何，我不相信有什么东西可以开箱即用，但是有人有任何线索或技术示例可以用来分析输入以提取含义？

最佳答案

嗨。我首先查看OpenCalais用于查找文本或输入中的实体。这太棒了，我自己也用过很多次(来自路透社的人)。

之后，您可以进一步分析文本，在实体和单词之间创建关联。我可能会用 WordNet 之类的方式查找它们并尝试对它们进行典型化，甚至自动生成一些与您尝试映射的域相匹配的本体。

至于如何将它们整合在一起，您可以做很多事情；上面的或者两遍或三遍模型试图弄清楚单词是什么和意味着什么。或者，如果您控制输入，请组成一个更易于解析的格式，或者沿着 murky path of NLP (这很有趣)。

或者您可以查看类似 Jena 的内容用于解析任意 RDF 片段，尽管我自己不喜欢 RDF 前提(我是主题映射器)。我写过一些东西，可以在维基百科中查找单词、短语或名称，并根据维基百科页面中找到的语义来评估它们的命中率(如果需要，我可以告诉你更多详细信息，但工作起来不是更有趣吗？)自己想出一些比我更好的东西？:)，即。链接数量、SeeAlso 数量、文本量、讨论页面有多大等。

这些年来我写了很多东西(甚至是用 PHP 和 Perl 编写的；查看 Robert Barta's Topic Maps stuff on CPAN ，特别是一些强大的东西的 TM 模块)，从引擎到解析器，再到中间的一些奇怪的东西。关联数组将单词和短语分开，创建累积直方图以对其组件进行排序等等。这都是有趣的东西，但至于收缩包装工具，我不太确定。每个人的目标和需求似乎都不同。这取决于您想要变得多么复杂和成熟。

无论如何，希望这对您有所帮助。干杯! :)

关于language-agnostic - 您使用哪些工具来分析文本？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/923597/

language-agnostic - 您使用哪些工具来分析文本？

上一篇：sql - 在包中找不到 SSIS 连接

下一篇：macos - 如何从 Mac OS X 10.9 取消 Command-Control-Space 键绑定(bind)？