c++ - 将 URL 编码转换为可打印字符

标签 c++ c++11 uri url-encoding urldecode

我必须处理包含 URL 编码(如“%C3%A7”)的字符串,并且我需要将这些序列转换为相应的可打印字符。因此我写了一个函数。它有效,但看起来很尴尬。我是一个绝对的 C/C++ 初学者。也许有人可以给我指出一个更优雅的解决方案。

#include <iostream> 

using namespace std;

static inline void substitute_specials(string &str) {
    const struct {string from,to;} substitutions[] { { "20"," " },{ "24","$" },{ "40","@" },{ "26","&" },{ "2C","," },{ "C3%A1","á" },{ "C3%A7","ç" },{ "C3%A9","é" } };
    size_t start_pos = 0;
    while ((start_pos = str.find("%", start_pos)) != string::npos) {
        start_pos++;
        for (int i=0; i< extent < decltype(substitutions) > ::value; i++) {
            if (str.compare(start_pos,substitutions[i].from.length(),substitutions[i].from)  == 0) {
                    str.replace(start_pos-1, substitutions[i].from.length()+1, substitutions[i].to);
                    start_pos += substitutions[i].to.length()-1;
                break; 
            }
        }
    }
}

int main() {
    string testString = "This%20is %C3%A1 test %24tring %C5ith %40 lot of spe%C3%A7ial%20charact%C3%A9rs%2C %26 worth many %24%24%24";
    substitute_specials(testString);
    cout << testString << "\n";
    return 0;
}

编辑 26.12.2016: 我仍然坚持这个问题。我找到了一些关于库和一些手写函数的建议,但如果运行的话,它们只会解码 %xx(字符串中的 2 字节十六进制代码),如 %20 = 空格。我还没有找到任何可以执行 4 字节代码的代码,例如 %C3%84 = Ä,而且我无法修改任何代码。 curl_easy_unescape library() 也要求 2 字节代码。我发现我需要的正是在javascript中可用,对应的函数是encodeURI()/decodeURI(),见http://www.w3schools.com/tags/ref_urlencode.asp decodeURI() 的 C/C++ 源代码可能会解决我的问题。 https://dxr.mozilla.org/mozilla-central/source/js/src/jsstr.cpp 中的第 3829 行看起来像是它的一个实现,但我无法提取我需要的东西。从我发现的其他示例中:许多使用 sscanf 将 2 字节十六进制代码转换为使用 %x 十六进制格式的 int,然后使用 static_castint 检索正确的字符。我如何修改 4 字节序列?我的功能的当前状态是

wstring url_decode2(char* SRC) {

wstring ret;
wchar_t ch;
int i, ii;
char sub[5];

for (i=0; i<strlen(SRC); i++) {
    if (SRC[i]=='%') {
        if ((SRC[i+3]=='%') && (SRC[i+1]>='A')) {
            sub[0]=SRC[i+4]; 
            sub[1]=SRC[i+5]; // ( also tried lsb/msb )
            sub[2]=SRC[i+1]; // skip +3, it's %
            sub[3]=SRC[i+2]; // 
            sub[4]='\0';
            i=i+5;
        } else {
            sub[0]=SRC[i+1];
            sub[1]=SRC[i+2];
            sub[2]='\0';
            i=i+2;
        }
        sscanf(&sub[0], "%x", &ii);
        ch=static_cast<wchar_t>(ii);
        ret+=ch;
    } else 
        ret+=SRC[i];

}
return ret;

有人能帮帮我吗?

最佳答案

我自己的问题的答案是这个 unescape/undecode URI 例程,它也处理 2 和 3 字节序列:https://stackoverflow.com/a/41434414/4335480

关于c++ - 将 URL 编码转换为可打印字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41126224/

相关文章:

java - 单击网络链接应用程序将打开

android - 为什么我的代码显示此错误(URI 未注册(设置|项目设置||模式和 DTD)?

c++ - 在自动化测试后安全清理阻塞的 std::thread

c++ - map 操作(找到出现次数最多的元素)

c++ - 将 boost 套接字放入 std::map

java - REST通过id和昵称获取用户

c++ - Boost signals2 自动连接管理和改变信号的互斥类型

c++ - 如何重新定义 glm 矩阵变量或删除其变换?

c++ - C++ 11 中 Mersenne Twister 的最佳常量种子

c++ - 在封闭类的公共(public)接口(interface)中使用私有(private)嵌套类