python - 网络抓取中使用的名称来源

标签 python web-scraping

任何人都可以建议一个好的名称来源,我可以用它来帮助分析网页上的一些表格。

我正在抓取的表格的第一列只有名称、名称和标题或只有标题。

名字可以多种多样,从约翰·史密斯到维克拉姆·萨克塞纳。
我一直在寻找可以在专有名称中找到的已编译单词列表。

已编辑,我已经尝试了人口普查中设置的名称,但其中有太多垃圾,不值得使用。

最佳答案

下载Febrl project source code .

它的数据文件夹包含姓名表(给定/中间/姓氏/等)。您可能需要根据自己的需要修改数据。

对于姓氏,您可以查看美国人口普查数据。我现在没有链接,但我知道我以前使用过该来源的常见美国姓氏。

关于python - 网络抓取中使用的名称来源,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2706786/

相关文章:

java - htmlUnit - 是否可以只执行特定的 JS 函数?

python - 尝试使用 Scrapy 抓取表格

python - Bokeh:如何单击并拖动以显示点之间的位移

python - Pytest E DeprecationWarning : defusedxml. lxml 不再受支持,将在未来版本中删除

Python 2.7 BeautifulSoup Img Src 提取

python - 使用opencv检测矩形

python - 与 BeautifulSoup.find 混淆?

node.js - 抓取谷歌翻译

python - 如何按位置对 Pandas 数据框进行切片?

python - 忽略美丽汤中 find_all 中字符串的一部分