javascript - CoffeeScript 或 JavaScript 中的基本 NLP——Punkt 标记化,简单训练的贝叶斯模型——从哪里开始?

标签 javascript nlp coffeescript user-experience tokenize

关闭。这个问题需要更多 focused .它目前不接受答案。












想改进这个问题?更新问题,使其仅关注一个问题 editing this post .


3年前关闭。







Improve this question




我当前的网络应用项目需要一点 NLP:

  • 通过 Punkt 等将文本标记为句子;
  • 用从句分解较长的句子(通常用逗号,除非不是)
  • 贝叶斯模型适合于感觉均匀的分段段落,没有孤儿或寡妇,并且最小的尴尬 split (也许)

  • ...如果您有 NLTK,其中大部分是一项幼稚的简单任务— 我这样做了,有点:应用程序后端是 Tornado 上的 Django;你会认为做这些事情不是问题。

    但是,我必须以交互方式提供需要标记器的用户反馈,因此我需要对数据客户端进行标记。

    现在我实际上正在使用 NLTK,通过 REST API 调用包装了 NLTK 函数的 Tornado 进程,几乎没有其他内容。目前,对于这种临时服务,延迟和并发性之类的东西显然不是最理想的,礼貌地说。我认为,如果不自己重新实现它,我应该做的是获得此功能的 Coffee/Java 版本。

    但是从我所看到的情况来看,JavaScript 还没有被认为很酷,以至于没有足够长的时间来积累可以在 C 或 Python(甚至是 Erlang)中找到的不仅仅是 Web 特定的通用库 schmorgasbörd。从任何人的 Angular 来看,NLTK 当然是一个出色的项目,但我只需要它包装的百分之几。

    但现在我正处于十字路口——我必须加倍努力:
  • “学习科学的 JavaScript 技术适合重新实现算法,我充其量是 Facebook 的 friend ”计划,或:
  • 不太有趣但更确定可行的“解决了通过网络进行标记化,但过度补偿了速度和编程趣味性的缺乏——通过将函数调用提升为 Web 规模服务架构的强大性能典范,确保了无沙滩球的用户体验,使Facebook 看起来像 Google+”选项。

  • 或者完全是别的东西。我应该怎么办?喜欢开始做事。这是我的问题。我对涉及非典型方法的解决方案持开放态度——只要您的建议不令人反感(例如“使用 Silverlight”)和/或时间漩涡(例如“获得计算语言学博士学位,你是 troglodyte”)我就是游戏。先感谢您。

    最佳答案

    我认为,正如您在评论中所写,运行有效算法所需的数据量最终会阻止您在客户端执行操作。即使是基本处理也需要大量数据,例如二元/三元频率等。另一方面,符号方法也需要大量数据(语法规则、字典等)。根据我的经验,如果没有至少 3MB 到 5MB 的数据,你就无法运行一个好的 NLP 流程,我认为这对于今天的客户来说太大了。

    所以我会通过网络做事。为此,我建议使用异步/推送方法,也许使用 Faye还是 Socket.io ?只要用户在客户端等待服务器处理文本时没有卡住,我相信你可以实现完美流畅的用户体验。

    关于javascript - CoffeeScript 或 JavaScript 中的基本 NLP——Punkt 标记化,简单训练的贝叶斯模型——从哪里开始?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9721173/

    相关文章:

    javascript - 哪些 jQuery 方法可用于 jQuery 创建元素调用的对象参数?

    python - 计算两个文档之间的对称 Kullback-Leibler 散度

    python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?

    arrays - 如何在coffeescript中将参数转换为数组?

    javascript - Typescript 设置 w/Meteor 1.5 - 找不到模块 Meteor/meteor

    javascript - 如何在 javascript 中进行整数除法(在 int 中获取除法答案而不是 float)?

    javascript - 加载页面然后执行javascript

    java - 从文本中提取信息

    node.js - Sublime Cofee-Script 插件错误 : EACCES, 权限被拒绝 '/.DocumentRevisions-V100'

    javascript - 在 Coffeescript 中强制迭代 for 循环