screen-scraping - 类似于 Mathematics Genealogy Project 的网站

标签 screen-scraping web-crawler genealogy

我正在研究数学系谱项目的数据。我收集有关学生和顾问的所有信息,并对这些数据进行一些查询处理。准确地说,我从数学系谱项目的根 URL http://www.genealogy.ams.org/ 爬取了所有 HTML 页面。并收集我需要的所有信息并对此进行查询。出于实验目的,我需要更多类似格式的网络数据。
任何人都可以建议我可以抓取一些有趣信息的好网站。家谱以外的任何数据也是受欢迎的,但它至少应该有一些层次结构。
感谢您的所有建议。

最佳答案

http://en.wikipedia.org/wiki/Academic_genealogy 上有此类站点的列表。 .例如,http://academictree.org/ .

关于screen-scraping - 类似于 Mathematics Genealogy Project 的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4349673/

相关文章:

c# - 有没有一种方法可以使用我的 C# 代码编译 Javascript?

mysql - 谱系树算法

python - 如何使用 BeautifulSoup 从页面中抓取数据

html - 如何解析网页内容?

python - 初学者学习 Python 屏幕抓取的最佳方式

database - 从哪里获得具有相应网页数据集的网页图

mysql - 子女- parent 系谱 - 另一方 parent 表

.net - 在深度优先搜索期间检测系谱图中的循环

python - 用户在使用 Flask 构建的网站上第二次提交表单后,无法成功执行 python 网页抓取脚本

java - 我应该能够同时打开多少个 Java HttpURLConnection?