ibm-cloud - Watson 特殊字符、重复帖子和 url 处理

标签 ibm-cloud ibm-watson personality-insights

在使用 Watson Personal Insights API 时,我已经注意到一些奇怪的趋势,包括许多维度的平均值得分(例如,许多人的宜人性在 0.27 左右),这让我觉得它归因于某些东西。

经过审查,我注意到一个语言错位问题(即,如果它认为是英语,那么如果是西类牙语,你可能会得到奇怪的结果),这导致我提出问题,但找不到答案:

沃森如何处理: 1) 消息中的 url(例如,许多 Twitter 帖子都有 url) 2)重复发帖(很多 channel 多次重复发帖) 3)特殊字符(许多帖子都有大量随机特殊字符)

我的目标是确定需要进行多少预处理才能使 Watson 最有效。

最佳答案

您是对的,如果语言未对齐,您将得到不正确的结果。

Pi API 首先根据内容语言 header 确定语言。如果缺少,那么如果内容类型是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少,它将默认为默认语言,即英语。

简而言之,建议(将来的更新中将要求这样做)是始终发送内容语言 header 。

其次,针对你对内容的疑问: - URL:服务将尝试删除它们。我不能保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们将删除常见的格式。 - 重复发帖:如果您在同一个帖子中发了两次,则将被算两次。我们不会对发送到服务的文本进行重复数据删除。 - 特殊字符;我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为底层模型是根据包含它们的数据进行训练的,因此它们是服务使用的众多信号之一。

关于ibm-cloud - Watson 特殊字符、重复帖子和 url 处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43104756/

相关文章:

python - 个性洞察 - 分析不同用户的评论

azure - 将文件从 IBM Cloud 对象存储传输到 Azure blob

docker - 无法通过Registry.ng.bluemix.net上的IBM Containers注册表进行身份验证

r - 从 R 调用 Watson API

node.js - Atlasboard打包和部署

.net - 如何从 .net core 调用 ibm watson api

android - 为 android 使用 api 识别视觉

artificial-intelligence - 在 IBM Watson 中训练自然语言分类器