java - 有没有可以用JAVA运行的城市词典或者俚语词典?

标签 java nlp shared-libraries

我正在创建一个噪声消除程序,主要检测 - 拼写错误的单词 -缩写 -非标准字符 以及不规范的词语。

我在前三个方面取得了进展,但对于最后一个,是否有任何好的库可以检测俚语或非标准单词。例如,它可以检测像 gr8 这样的单词,而不是“great”,以及“gudnight”来表示晚安。

最佳答案

我不知道有任何公开可用的库或已构建的语料库。您可以尝试从urbandictionary.com 上抓取它。我的建议是:

  1. 使用 Twitter API 并使用 lang=English 收集数千条消息

  2. 对单词进行标记。

  3. 消除那些非 ASCII 字符 - 表情符号、不同语言的单词等将会下降

  4. 应用您已有的 gr8、l8 等翻译规则。

  5. 访问project gutenberg并拿一些英语经典著作。对它们进行标记并构建 propah 英语单词的同义词库 (:))

  6. 从 Twitter 上收集的语料库中减去同义词库

  7. 开始检查剩余的列表 - 我保证您会发现许多其他规则可以添加到第 4 点。返回第 4 点并重复循环几次。

之后剩下的内容将俚语足够密集,使手动选择术语变得更加容易。
对于相当大的俚语语料库,整个过程将需要大约 1 周到 10 天的时间- (可选)与urbandictionary.com 进行交叉检查。

上次对我来说是一次有趣的经历。 (你知道吗,“我恨你”的推文数量大约是“我爱你”的 6 倍?也许这说明了推特用户的精神,我不知道)。

关于java - 有没有可以用JAVA运行的城市词典或者俚语词典?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39700994/

相关文章:

Java zip 文件已创建但无法打开,提示文件意外结束

java - 创建c linux库的问题

c++ - 是否可以从代码中获取依赖库的位置

c++ - 我可以使用错误的签名调用使用 dlsym() 导入的函数,为什么?

JavaFX widthProperty 不刷新

java - 单独线程中的实时消息处理方法体

Java 每隔几秒从循环中执行一次方法

php - 提出的用于文本标记的 nlp 算法

python - 将稀疏的 NER 实体标签移至顶部或底部

nlp - 当输入句子没有标点符号时使用的句子分割工具(已标准化)