我正在使用 VisualStudio2010 通过 PCRE 进行一些正则表达式匹配。
假设我在 std::wstring
中给出了一个模式和一个主题,如下所示:
std::wstring subject = L"サービス内容";
std::wstring pattern = L"ス内";
如您所见,我尝试定位日语字符串,因此我需要采用 PCRE 的 unicode 变体,例如具有函数 pcre16_exec
或 pcre32_exec
的 pcre16 或 pcre32等
不幸的是,它不起作用。我的问题似乎是从 wstring
到 unsigned short 或 unsigned int 的转换(取决于 pcre16 或 pcre32)。我尝试了很多函数(wcstombs_s、使用 QString 进行字符串转换等)但没有成功。 exec 函数的结果永远不会包含我期望的正确值。我不太确定出了什么问题 - 使用简单的 pcre 函数与 ansi 字符串进行模式匹配工作正常。这是一个片段:
pcre16 *re;
const char *error;
int erroffset;
int ovector[30]; //The reult of the matching
int subject_length;
int rc;
std::wstring subjectstr = L"サービス内容";
std::wstring patternstr = L"ス内";
subject_length = 6;
const unsigned short pattern = ....// string conversion from patternstr
const insigned short subject = ....// string conversion from subjectstr
re = pcre16_compile(&pattern, PCRE_UTF16, &error, &erroffset, NULL);
rc = pcre16_exec(re, NULL, &subject, subject_length, 0, 0, ovector, 30);
有人可以给我一个关于如何使用 PCRE 检测 unicode 模式的工作示例或解释哪里出了问题吗?我对自己很生气。
最佳答案
我找到了解决方案 here .
关键是从 wchar 到 const unsigned short (PCRE_SPTR16) 的非常简单的转换。我的想法总是试图使用更复杂的转换.... 简而言之,这是任何人都可能感兴趣的工作示例。模式匹配的结果可以在subStrVec中找到:
pcre16 *reCompiled;
int pcreExecRet;
int subStrVec[30];
const char *pcreErrorStr;
int pcreErrorOffset;
std::wstring pattern = L"容内容";
std::wstring subject = L"容容容内容容容";
const wchar_t* aStrRegex = pattern.c_str();
const wchar_t* line = subject.c_str();
reCompiled = pcre16_compile((PCRE_SPTR16)aStrRegex, PCRE_UTF8, &pcreErrorStr, &pcreErrorOffset, NULL);
pcreExecRet = pcre16_exec(reCompiled, NULL, (PCRE_SPTR16)line, wcslen(line), 0, 0, subStrVec, 30);
关于c++ - 如何用 Unicode 处理 PCRE?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18873872/