在使用 Watson Personal Insights API 时,我已经注意到一些奇怪的趋势,包括许多维度的平均值得分(例如,许多人的宜人性在 0.27 左右),这让我觉得它归因于某些东西。
经过审查,我注意到一个语言错位问题(即,如果它认为是英语,那么如果是西类牙语,你可能会得到奇怪的结果),这导致我提出问题,但找不到答案:
沃森如何处理: 1) 消息中的 url(例如,许多 Twitter 帖子都有 url) 2)重复发帖(很多 channel 多次重复发帖) 3)特殊字符(许多帖子都有大量随机特殊字符)
我的目标是确定需要进行多少预处理才能使 Watson 最有效。
最佳答案
您是对的,如果语言未对齐,您将得到不正确的结果。
Pi API 首先根据内容语言 header 确定语言。如果缺少,那么如果内容类型是 json,那么它会查看 json 内容中的语言,选择出现次数最多的语言,最后,如果缺少,它将默认为默认语言,即英语。
简而言之,建议(将来的更新中将要求这样做)是始终发送内容语言 header 。
其次,针对你对内容的疑问: - URL:服务将尝试删除它们。我不能保证它会删除所有可能的选项,因为 url 规范有一些非常深奥的选项,但我们将删除常见的格式。 - 重复发帖:如果您在同一个帖子中发了两次,则将被算两次。我们不会对发送到服务的文本进行重复数据删除。 - 特殊字符;我假设您在这里指的是表情符号。这些都包含在我们的处理中,因为底层模型是根据包含它们的数据进行训练的,因此它们是服务使用的众多信号之一。
关于ibm-cloud - Watson 特殊字符、重复帖子和 url 处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43104756/