c++ - 如何用 Unicode 处理 PCRE?

标签 c++ regex visual-c++ unicode pcre

我正在使用 VisualStudio2010 通过 PCRE 进行一些正则表达式匹配。 假设我在 std::wstring 中给出了一个模式和一个主题,如下所示:

std::wstring subject = L"サービス内容";
std::wstring pattern = L"ス内";

如您所见,我尝试定位日语字符串,因此我需要采用 PCRE 的 unicode 变体,例如具有函数 pcre16_execpcre32_exec 的 pcre16 或 pcre32等

不幸的是,它不起作用。我的问题似乎是从 wstring 到 unsigned short 或 unsigned int 的转换(取决于 pcre16 或 pcre32)。我尝试了很多函数(wcstombs_s、使用 QString 进行字符串转换等)但没有成功。 exec 函数的结果永远不会包含我期望的正确值。我不太确定出了什么问题 - 使用简单的 pcre 函数与 ansi 字符串进行模式匹配工作正常。这是一个片段:

pcre16 *re;
const char *error;
int erroffset;
int ovector[30]; //The reult of the matching
int subject_length;
int rc;

std::wstring subjectstr = L"サービス内容";
std::wstring patternstr = L"ス内";
subject_length = 6;

const unsigned short pattern = ....// string conversion from patternstr
const insigned short subject = ....// string conversion from subjectstr

re = pcre16_compile(&pattern, PCRE_UTF16, &error, &erroffset, NULL);
rc = pcre16_exec(re, NULL, &subject, subject_length, 0, 0, ovector, 30);

有人可以给我一个关于如何使用 PCRE 检测 unicode 模式的工作示例或解释哪里出了问题吗?我对自己很生气。

最佳答案

我找到了解决方案 here .

关键是从 wchar 到 const unsigned short (PCRE_SPTR16) 的非常简单的转换。我的想法总是试图使用更复杂的转换.... 简而言之,这是任何人都可能感兴趣的工作示例。模式匹配的结果可以在subStrVec中找到:

pcre16 *reCompiled;
int pcreExecRet;
int subStrVec[30];
const char *pcreErrorStr;
int pcreErrorOffset;  

std::wstring pattern = L"容内容";
std::wstring subject = L"容容容内容容容";

const wchar_t* aStrRegex = pattern.c_str();
const wchar_t* line = subject.c_str();

reCompiled = pcre16_compile((PCRE_SPTR16)aStrRegex, PCRE_UTF8, &pcreErrorStr, &pcreErrorOffset, NULL);
pcreExecRet = pcre16_exec(reCompiled, NULL, (PCRE_SPTR16)line, wcslen(line), 0, 0, subStrVec, 30);

关于c++ - 如何用 Unicode 处理 PCRE?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18873872/

相关文章:

c++ - 在大数据上使用 boostfiltering_streambuf

C++ 链接问题,好像我不能链接到标准 C++ 东西

c++ - 当窗口关闭时,我的析构函数会被调用吗?

javascript - 字符串中允许有空格,但不能在第一个或最后一个位置

c++ - regex_search C++ 不匹配子字符串

regex - 匹配合法移动生成器

c++ - 使用 Assert 和 NULL 指针验证哪个更好用

c++ - 通过脚本将项目添加到 Visual Studio C++ 解决方案

c++ - 文件输入/输出 C++

c++ - 如何将 ASCII 字符串转换为十六进制?