python - 网络抓取中使用的名称来源

任何人都可以建议一个好的名称来源，我可以用它来帮助分析网页上的一些表格。

我正在抓取的表格的第一列只有名称、名称和标题或只有标题。

名字可以多种多样，从约翰·史密斯到维克拉姆·萨克塞纳。
我一直在寻找可以在专有名称中找到的已编译单词列表。

已编辑，我已经尝试了人口普查中设置的名称，但其中有太多垃圾，不值得使用。

最佳答案

下载Febrl project source code .

它的数据文件夹包含姓名表(给定/中间/姓氏/等)。您可能需要根据自己的需要修改数据。

对于姓氏，您可以查看美国人口普查数据。我现在没有链接，但我知道我以前使用过该来源的常见美国姓氏。

关于python - 网络抓取中使用的名称来源，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2706786/

相关文章：

java - htmlUnit - 是否可以只执行特定的 JS 函数？