ibm-cloud - Watson 特殊字符、重复帖子和 url 处理

在使用 Watson Personal Insights API 时，我已经注意到一些奇怪的趋势，包括许多维度的平均值得分(例如，许多人的宜人性在 0.27 左右)，这让我觉得它归因于某些东西。

经过审查，我注意到一个语言错位问题(即，如果它认为是英语，那么如果是西类牙语，你可能会得到奇怪的结果)，这导致我提出问题，但找不到答案:

沃森如何处理: 1) 消息中的 url(例如，许多 Twitter 帖子都有 url) 2)重复发帖(很多 channel 多次重复发帖) 3)特殊字符(许多帖子都有大量随机特殊字符)

我的目标是确定需要进行多少预处理才能使 Watson 最有效。

最佳答案

您是对的，如果语言未对齐，您将得到不正确的结果。

Pi API 首先根据内容语言 header 确定语言。如果缺少，那么如果内容类型是 json，那么它会查看 json 内容中的语言，选择出现次数最多的语言，最后，如果缺少，它将默认为默认语言，即英语。

简而言之，建议(将来的更新中将要求这样做)是始终发送内容语言 header 。

其次，针对你对内容的疑问: - URL:服务将尝试删除它们。我不能保证它会删除所有可能的选项，因为 url 规范有一些非常深奥的选项，但我们将删除常见的格式。 - 重复发帖:如果您在同一个帖子中发了两次，则将被算两次。我们不会对发送到服务的文本进行重复数据删除。 - 特殊字符;我假设您在这里指的是表情符号。这些都包含在我们的处理中，因为底层模型是根据包含它们的数据进行训练的，因此它们是服务使用的众多信号之一。

关于ibm-cloud - Watson 特殊字符、重复帖子和 url 处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43104756/

ibm-cloud - Watson 特殊字符、重复帖子和 url 处理

上一篇：SciPy.optimize.least_squares() 目标函数问题

下一篇：Python Pandas 迭代行并计算一对唯一的列显示的次数