有没有一种简单的方法可以使用 twitter4j 删除推文中提到的主题标签、用户名和 URL? 我知道使用 getHashtagEntities()、getUserMentionEntities() 和 getURLEntities() 我可以检索这些实体及其在字符串中的位置,但如何使用它们来“清理”推文?
我正在考虑使用 ReplaceAll(entity, "") 方法将推文中的所有实体替换为 "",但这并不总是给出正确的结果(例如,它会从“_#ht ”推文中删除 #ht,尽管它不应该这样做)。
最佳答案
我最终使用了lookbehind "(?<!\w)"
与 replaceAll()
每个实体的方法,我想这解决了我的问题。然而我被告知正则表达式和 replaceAll()
方法可能会很慢,所以如果有人有任何其他建议,我很乐意阅读。
关于java - 使用 Twitter4j 从推文中删除主题标签、用户名和 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26448829/