twitter - 按性别对 Twitter 文本进行分类

标签 twitter machine-learning classification

我有几百条推文可供使用,我希望通过获取真实姓名并查看至少 2 条推文,将每个 Twitter 用户分类为男性和女性。我已经编写了从每个人的个人资料中获取真实姓名的程序,现在我正在对他们的推文文本进行分类,以尝试对用户是 M 还是 F 做出更有力的确认。我在网上查看并搜索了文本示例分类但不太确定从哪里开始。我还在这个链接Twitter Text With Gender Download.找到了一些非常有用的数据。 任何关于如何将推文文本分类为男性或女性撰写的建议将不胜感激!我有点碰壁了。

最佳答案

你需要一个训练集,这是一个显而易见的说法。没有其他办法。正如您在上一个问题 Using Naive Bayes Classification to Identity a Twitter User's Gender 中已经指出的那样您可以手动创建它们,也可以以半监督的方式创建它们,其中您使用外部规则(例如那些真实姓名)创建训练集。

最简单的方法是使用现有的推文数据来训练带有性别标签的分类器,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/

其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar

关于twitter - 按性别对 Twitter 文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18422325/

相关文章:

Twitter oauth 请求 token 响应代码 401

css - 是否可以像 jquery 一样在 google 中托管 twitter bootstrap.css?

iOS 和 Twitter 集成 - 获取多个用户的状态

tensorflow - 聊天机器人的 Seq2Seq 模型

.net - 数千个类的机器学习多类分类

machine-learning - F1 分数不是精确率和召回率的调和平均值的原因可能是什么

apache-spark - Spark ML 随机森林和梯度增强树用于回归

machine-learning - 为什么根据(或作为函数)鲑鱼的年龄和重量来预测鲑鱼的长度是一个回归问题?

java - 如何使用 Twitter Fabric Android 获取关注者列表?

matlab - 为什么我的神经网络在 MNIST 数据集上训练后无法正确预测 7 和 9?