我有几百条推文可供使用,我希望通过获取真实姓名并查看至少 2 条推文,将每个 Twitter 用户分类为男性和女性。我已经编写了从每个人的个人资料中获取真实姓名的程序,现在我正在对他们的推文文本进行分类,以尝试对用户是 M 还是 F 做出更有力的确认。我在网上查看并搜索了文本示例分类但不太确定从哪里开始。我还在这个链接Twitter Text With Gender Download.找到了一些非常有用的数据。 任何关于如何将推文文本分类为男性或女性撰写的建议将不胜感激!我有点碰壁了。
最佳答案
你需要一个训练集,这是一个显而易见的说法。没有其他办法。正如您在上一个问题 Using Naive Bayes Classification to Identity a Twitter User's Gender 中已经指出的那样您可以手动创建它们,也可以以半监督的方式创建它们,其中您使用外部规则(例如那些真实姓名)创建训练集。
最简单的方法是使用现有的推文数据来训练带有性别标签的分类器,我建议: http://clic.cimec.unitn.it/amac/twitter_ngram/
其他资源: 博客性别:http://www.cs.uic.edu/~liub/FBS/blog-gender-dataset.rar
关于twitter - 按性别对 Twitter 文本进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18422325/