使用 strtok
可以单独获取 para 中的每个标记。
我想单独捕获页面中的所有句子,以便单独处理它们。
一个解决方案是我保持 for 循环并检查每个字符,如果它是 .
那么我认为句子已完成,因此存储在一些数据结构中。 我不知道哪种数据结构最适合存储这个
。数组还是 vector ?
是否有任何其他更好的方法或一些 c++ 类可用于执行此操作?
更新
稍后我想对句子中的否定进行操作。表示考虑not
、no
、nope
这样的关键词。如果 not
+ negative word
然后将其作为 +ve word.
最佳答案
由于您使用的是 C++,因此存储字符串的最佳数据结构是 std::string
类(class)。将多个字符串存储在 std::vector<std::string>
中.顺便说一下,不要使用 strtok
, 使用 std::getline
相反。
但是当你在进行文本操作,也许是国际文本操作时,你应该看看 ICU图书馆。在这种情况下 icu::BreakIterator::createSentenceInstance
特别是。
关于c++ - 从段落中提取句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20309569/