任何人都可以建议一个好的名称来源,我可以用它来帮助分析网页上的一些表格。
我正在抓取的表格的第一列只有名称、名称和标题或只有标题。
名字可以多种多样,从约翰·史密斯到维克拉姆·萨克塞纳。
我一直在寻找可以在专有名称中找到的已编译单词列表。
已编辑,我已经尝试了人口普查中设置的名称,但其中有太多垃圾,不值得使用。
最佳答案
它的数据文件夹包含姓名表(给定/中间/姓氏/等)。您可能需要根据自己的需要修改数据。
对于姓氏,您可以查看美国人口普查数据。我现在没有链接,但我知道我以前使用过该来源的常见美国姓氏。
关于python - 网络抓取中使用的名称来源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2706786/