php - 如何提取和导入维基百科页面?

标签 php xml extract mysql wikipedia

我正在构建一个搜索引擎,为了很好地测试它,它需要更多的文章。它们的最佳来源是维基百科。

我搜索了一些转储,但有些是 XML(我在导入时遇到了麻烦),有些没有内容。

那么,如何获取转储,最好是 MySQL 形式。它必须是非英语语言。

有什么想法吗?

最佳答案

Here是一个解释如何将 Wikipedia 导入 Solr 的页面。

Here是将 Wikipedia 转储加载到 Mysql 以运行本地克隆的分步说明。

关于php - 如何提取和导入维基百科页面?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4771153/

相关文章:

php - 使用 Twitter OAuth API 进行身份验证

php - 未定义的函数/方法 - Intelephense(1013) - Laravel Homestead + VScode

android - "ArrayAdapter requires the resource ID to be a TextView"XML问题

xml - 如何使用 gokogiri (libxml2) 解析带有命名空间的 xml?

java - 如何从<div>标签java中提取内容

php - 使用 PHP 和 xPath 从 HTML 中提取数据

r - 查找数据帧中连续零后的第一个数字

php - php中的POST radio 类型值

python - 如何删除 etree 元素的属性?

php - Paypal 直接支付API