我正在尝试获取一篇文章的摘要并将其作为字符串下载。这对于某些文章非常有效,但维基百科网站不一致。因此 NSScanner 经常失败,而它对于其他文章却工作得很好。
这是我的 NSScanner 实现:
NSString *separatorString = @"<table id=\"toc\" class=\"toc\">";
NSScanner *aScanner = nil;
NSString *container = nil;
NSString *muString = [NSString stringWithString:@"</table>"];
aScanner = [NSScanner scannerWithString:string];
[aScanner setScanLocation:0];
[aScanner scanUpToString:muString intoString:nil];
[aScanner scanString:muString intoString:nil];
[aScanner scanUpToString:separatorString intoString:&container];
如何改进?或者还有其他方法可以得到这个吗?
为了可视化我想要文章的哪一部分,下面是一个示例:
http://en.wikipedia.org/wiki/Indigo
从此我想要从“靛蓝是电磁波谱上的颜色”到“英语是在 1289 年”的所有内容。
谢谢!
最佳答案
您可以使用WebKit's DOM API去了解实际的结构,而不是试图盲目地解析文本。
关于cocoa - 使用 NSScanner 获取维基百科文章摘要问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3772414/