我正在研究数学系谱项目的数据。我收集有关学生和顾问的所有信息,并对这些数据进行一些查询处理。准确地说,我从数学系谱项目的根 URL http://www.genealogy.ams.org/ 爬取了所有 HTML 页面。并收集我需要的所有信息并对此进行查询。出于实验目的,我需要更多类似格式的网络数据。
任何人都可以建议我可以抓取一些有趣信息的好网站。家谱以外的任何数据也是受欢迎的,但它至少应该有一些层次结构。
感谢您的所有建议。
最佳答案
在 http://en.wikipedia.org/wiki/Academic_genealogy 上有此类站点的列表。 .例如,http://academictree.org/ .
关于screen-scraping - 类似于 Mathematics Genealogy Project 的网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4349673/