所以我知道这是一个很大的主题,但我需要接受一大块文本,并从中提取最有趣的关键字。文本来自电视字幕,因此主题范围可以从新闻到体育再到流行文化引用。可以提供文本来源的节目类型。
我有一个想法,将文本与我知道有趣的术语词典进行匹配。
哪些 Haskell 库可以帮助我解决这个问题?
假设我确实有一本有趣术语的字典,以及一个用于存储它们的数据库,您是否建议使用某种特定方法来匹配文本中的关键字?
有没有我没有想到的明显方法?
最佳答案
我会提取词 block 中的单词,然后搜索字典中的所有术语 只有两个随机库:
茎http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html
搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html
关于haskell - 如何从 Haskell 中的文本 block 中提取关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8107896/