我正在尝试用 c++ 编写一个简单的 irc 机器人(我以前用 python 做过这个,但我正在努力使用 c++ 处理字符串,尤其是 unicode 字符串。)
到目前为止,我可以连接到 IRC 服务器并读取缓冲区,但是缓冲区可以包含多行,并且还包含很多空数据。也有可能出现宽字符或单个消息行溢出缓冲区。
我想读取缓冲区,然后逐行处理每个以 '\n' 终止的行的字符串。
#include "stdafx.h"
#include <stdio.h>
#include <string>
#include <iostream>
#ifdef _WIN32
#include <winsock2.h>
#include <ws2tcpip.h>
#pragma comment(lib,"ws2_32.lib")
#else
#include <unistd.h>
#include <sys/types.h>
#include <sys/socket.h>
#include <netdb.h>
#endif
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
const char \
*pass = "pass",
*bot_owner = "name",
*nick = "name",
*serv = "irc.twitch.tv",
*chan = "#name";
using namespace std;
int main()
{
int ret;
char buf[512] = "";
#ifdef _WIN32
SOCKET sock;
struct WSAData* wd = (struct WSAData*)malloc(sizeof(struct WSAData));
ret = WSAStartup(MAKEWORD(2, 0), wd);
free(wd);
if (ret) { puts("Error loading Windows Socket API"); return 1; }
#else
int sock;
#endif
struct addrinfo hints, *ai;
memset(&hints, 0, sizeof(struct addrinfo));
hints.ai_family = AF_UNSPEC;
hints.ai_socktype = SOCK_STREAM;
hints.ai_protocol = IPPROTO_TCP;
if (ret = getaddrinfo(serv, "6667", &hints, &ai)) {
//puts(gai_strerror(ret)); // this doesn't compile
return 1;
}
sock = socket(ai->ai_family, ai->ai_socktype, ai->ai_protocol);
if (ret = connect(sock, ai->ai_addr, ai->ai_addrlen)) {
//puts(gai_strerror(ret)); // this doens't compile
return 1;
}
freeaddrinfo(ai);
sprintf_s(buf, "PASS %s\r\n", pass);
send(sock, buf, strlen(buf), 0);
sprintf_s(buf, "USER %s\r\n", nick);
send(sock, buf, strlen(buf), 0);
sprintf_s(buf, "NICK %s\r\n", nick);
send(sock, buf, strlen(buf), 0);
int bytesRecieved;
while ((bytesRecieved = recv(sock, buf, 512, 0)) > 0) {
std:cout << "\nbytesRecieved : " << bytesRecieved << "\n";
std::cout << "DATA : " << buf;
if (!strncmp(buf, "PING ", 5)) {
const char * pong = "PONG ";
send(sock, pong, strlen(pong), 0);
}
if (buf[0] != ':') continue;
if (!strncmp(strchr(buf, ' ') + 1, "001", 3)) {
sprintf_s(buf, "JOIN %s\r\n", chan);
send(sock, buf, strlen(buf), 0);
}
}
#ifdef _WIN32
closesocket(sock);
WSACleanup();
#else
close(sock);
#endif
return 0;
}
如果 recv buf 包含许多由 '/n' 分隔的字符串,最好的方法是什么?并遍历它们?我如何处理在缓冲区末尾和下一个缓冲区开头拆分的潜在字符串?还有我如何处理 utf-8 字符?因为 twitch irc bot 接受许多不同的语言字符?
非常感谢,我的 C++ 技能非常基础,我主要尝试将这个机器人从我用 python 编写的一个简单的机器人转换过来,它有很多处理字符串的简单方法。如果您能像对待白痴一样解释事情,我将不胜感激。
----编辑----
我想我需要做类似的事情:
for (int i = 0; i > bytesRecieved; i++) {
string stringbuilder;
stringbuilder.push_back(buf[i]);
}
遍历 char 缓冲区并通过读取它们来构建单独的字符串,直到 '/n' char 然后执行下一个并将它们放入字符串 vector (?)中?然后对该 vector 进行交互,我不知道如何在 c 中执行此操作,但有什么想法吗?我试过下面的 boost 库,但这总是在最后创建一个字符串,其中包含很多无意义的字符。
最佳答案
我会查看 boost::tokenizer用于将字符串拆分为多个子字符串以根据定界符进行迭代。您需要将字符串存储在 std::string
中以将其传递给 Tokenizer。示例:
using sep = boost::char_separator<char>;
using tokenizer = boost::tokenizer<sep>;
constexpr auto separators = "\n";
const auto socket_string = std::string(/*values from socket go here*/);
const auto tokens = tokenizer(socket_string, sep(separators));
for(const token : tokens)
/*
* this loop will iterate over all the lines received from the socket,
* one line at a time
*/
{
/* token represents a single line of input */
}
当谈到字符串被拆分到多个缓冲区时......你必须有一些方法来检测它。在我工作的地方,当我们通过套接字发送消息时,我们在消息前加上一个表示消息中字节数的整数,这样我们就可以检查接收到的字符串的大小,以了解我们是否完成了。如果没有这样的 API,您将不得不决定采用某种方式来解析字符串并确定您是否已收到所有内容。或者让它变得愚蠢和简单,并将每个缓冲区解析为一个新字符串。在您的情况下,也许如果您从缓冲区中读取的字符串没有以 '\n'
结尾,那么它还没有完成吗?这可能是我要检查的内容,但我不知道您的所有限制条件。
您如何处理 UTF-8 字符将取决于您的平台。在 *nix 机器上,我相信 std::string
默认是 UTF-8 编码的。在 Windows 上,您可能需要使用 std::wstring
。
此外,我建议 reading up on idiomatic C++ .您的代码大约 90% 是纯 C。
关于c++处理irc bot的recv函数中的多个字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35437969/