language-agnostic - 您使用哪些工具来分析文本?

标签 language-agnostic analysis taxonomy

我需要一些灵感。对于一个业余爱好项目,我正在研究内容分析。我基本上是在尝试分析输入以将其与主题图相匹配。

例如:

  • “伊拉克之路”> 历史、中东
  • “Halloumni” > 中东美食
  • “宝马”> 德国,汽车
  • “奥巴马”> 美国
  • “Impala”> 美国,汽车
  • “柏林墙”> 历史,德国
  • “香肠”> 食品,德国
  • “芝士汉堡”> 食品,美国
  • ...

我读了很多有关分类学的文章,最后,无论我读到什么,都得出结论:所有人的标签都不同,因此该系统注定会失败。

我考虑过标记化输入和停用词列表,但它们当然需要大量的工作来提出和构建。在单词和主题之间建立相关链接似乎很费力,而且永无止境,因为无论您处理什么语言,它都非常丰富,而且大多数语言也严重依赖上下文。更不用说维护它了。

我想我需要想出一些一些聪明的东西,并用我希望它能够猜测的主题来训练它。有点像Eliza bot .

无论如何,我不相信有什么东西可以开箱即用,但是有人有任何线索或技术示例可以用来分析输入以提取含义

最佳答案

嗨。我首先查看OpenCalais用于查找文本或输入中的实体。这太棒了,我自己也用过很多次(来自路透社的人)。

之后,您可以进一步分析文本,在实体和单词之间创建关联。我可能会用 WordNet 之类的方式查找它们并尝试对它们进行典型化,甚至自动生成一些与您尝试映射的域相匹配的本体。

至于如何将它们整合在一起,您可以做很多事情;上面的或者两遍或三遍模型试图弄清楚单词是什么和意味着什么。或者,如果您控制输入,请组成一个更易于解析的格式,或者沿着 murky path of NLP (这很有趣)。

或者您可以查看类似 Jena 的内容用于解析任意 RDF 片段,尽管我自己不喜欢 RDF 前提(我是主题映射器)。我写过一些东西,可以在维基百科中查找单词、短语或名称,并根据维基百科页面中找到的语义来评估它们的命中率(如果需要,我可以告诉你更多详细信息,但工作起来不是更有趣吗?)自己想出一些比我更好的东西?:),即。链接数量、SeeAlso 数量、文本量、讨论页面有多大等。

这些年来我写了很多东西(甚至是用 PHP 和 Perl 编写的;查看 Robert Barta's Topic Maps stuff on CPAN ,特别是一些强大的东西的 TM 模块),从引擎到解析器,再到中间的一些奇怪的东西。关联数组将单词和短语分开,创建累积直方图以对其组件进行排序等等。这都是有趣的东西,但至于收缩包装工具,我不太确定。每个人的目标和需求似乎都不同。这取决于您想要变得多么复杂和成熟。

无论如何,希望这对您有所帮助。干杯! :)

关于language-agnostic - 您使用哪些工具来分析文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/923597/

相关文章:

language-agnostic - 详尽描述 cpu 体系结构以编写可重定向编译器的文件

mysql - 跟踪用户事件最具扩展性的方法是什么?

python - 使用 Python (GAE) 读取图像的颜色

algorithm - 什么是 "complexity of operation in the worst case"Big-Oh 或 Big-Omega

multithreading - 对自旋锁感到困惑

language-agnostic - 您的 "generic"Web 应用程序测试计划是什么?

algorithm - 通过使用 Select 算法中的枢轴重复出现

php - 如何输出用于 WP 帖子的分类术语?

terminology - 在Web开发中,什么是 "term"、 "taxonomy terms"和 "vocabulary"?

php - 以编程方式将子帖子插入 Wordpress