php - 短语解析和趋势

标签 php javascript mysql regex

<分区>

因此,我正处于工作项目(软件支持)的“设计”阶段,希望在深入研究之前收集社区的意见、想法等。最终,我正在构建一个与 Twitter 的趋势页面非常相似的网页。以下是我将如何使用它的高级概述:

我们的支持代表将在客户来电时为其创建工单,工单的文本是实时捕获的并发送到另一台服务器,我将其称为“Hoss”。一旦 Hoss 收到数据,我们就开始解析文本。这里的主要兴趣是一个文本区域,支持代表在其中键入客户遇到的问题的简短摘要。我想获取此信息,对其进行解析并将其显示在列出“热门”主题的网页上,以便管理人员可以实时了解客户的来电内容。

现在是有趣的东西,我想从哪里得到一些指导......对于这个例子。假设摘要文本区域包含以下内容:

"Customer is getting an error when trying to install updates, "error in update.exe"

既然 Hoss 服务器有了这个文本,它就可以开始解析它了。我有兴趣为趋势提要捕获关键字。在这个例子中,“error”、“install”、“update.exe”。但是,捕获/跟踪一起出现的关键字也很重要。意思是,我可以很容易地捕捉到“错误”和“安装”,并且基本上可以计算出这些词在任何给定时间内出现了多少次,但它们单独提供的洞察力不如它们一起提供的那么多。

同样,我处于这个项目的早期阶段,这就是为什么我没有附上代码示例等的原因。在这一点上没有什么是禁止的!先感谢您!在花了很多时间阅读帖子后,我了解到这个社区的力量,它是一个非常宝贵的资源!!!

最佳答案

这是进入自然语言处理,这本身就是一个很大的研究领域。

应该让您朝着正确方向前进的一些想法。

  1. 定义非索引字表。这些词将被忽略。它们应该包括没有意义的词(is、of、a、when)。以及意义不大的词,因为它们很可能出现在很多工单中(客户)。

  2. 定义同义词,不同的词表示相同的事物。对字符串进行分词时,您可以用根词替换匹配词以减少差异。

  3. 在 1-3 个关键词短语中索引关键词。然后总结并记录这些事件。

随着更多数据可用,您可能会不断调整这一点。

关于php - 短语解析和趋势,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15342132/

相关文章:

javascript - 在 rails 中使用 ajax 请求更新数据库

javascript - 使用 Axios 在 Microsoft Teams 中发布消息

javascript - js中的变量

mysql - 将 mysql 与 rails 一起使用 - 我该如何设置?

php - 从数据库中旋转图像并保存到数据库 blob 类型

javascript - 无法让我的 Javascript 函数在 PHP foreach 循环中运行多次

php - jQuery自动保存运行成功功能,但不更新MySQL

php - laravel 5.4 varchar 字段迁移

更新前的 MySQL 触发器 - 从字符串设置日期格式

mysql - UNION 会导致 MyIsam 上的表锁定吗?