linux - 在基于 SMP 的 linux 系统中访问另一个 cpu 的 "current_task"指针

标签 linux multithreading kernel driver smp

我正在编写一些内核驱动程序,我需要在其中检查哪个线程在另一个内核的特定点上运行。我的驱动程序在每个内核上运行一个内核线程,我需要时不时地同步一些线程来完成某些任务。我从调试日志中观察到的是,有时一个线程过多地等待其他线程。我做了一些补丁,将 __preempt_count 存储在其他内核上,以检查是否有任何 softirq/hardirq 或抢占禁用延迟了我的线程。 我还使用 FTRACE 检查 irqsoff 和 preemptirqsoff 的 IRQ 关闭和抢占禁用的最长持续时间。

直到现在我才能够发现 kerneloops 线程,它禁用长达 20 毫秒的中断,我发现这太长了。 systemctl disable kerneloops 是否解决了这个问题。

现在我似乎要处理一些禁用抢占的窗口。为了将来对该驱动程序进行分析,我需要一种方法来确定在特定时间点在其他内核上正在执行哪些线程。我尝试将 FTRACE 主要用于 IRQ 进入/退出事件,我还使用 trace_printk 将一些调试日志推送到 ftrace 缓冲区中,以便将所有内容都放在一个日志中,等等。

但是,我想做的一件事是访问其他内核的 current_task 结构(current ptr)并打印 comm 字段,它给出了任务的名称(或 pid 值)。 但我很难完成这项工作。

对于 __preempt_count 我没有问题:

int *p = per_cpu_ptr(&__preempt_count,cpu);
pr_info("Preempt count of cpu%u is 0x%08x\n",cpu,*p);

到目前为止,我在声明或访问 per cpu 变量方面没有遇到任何问题,但由于某些原因,current_task 指针在尝试访问它时会触发页面错误。

char buf[10];
struct task_struct *task = per_cpu_ptr(current_task,cpu);
snprintf(buf,8,"%s",task->comm);
pr_info("Task name: %s",buf);

上面的代码总是触发页面错误,NULL ptr bla bla。 直到现在我都找不到原因。我尝试打印 task 的指针值,我遇到了同样的页面错误。

可能是因为其他核心无法访问该地址?在内核空间中不应该是这种情况。到目前为止,我对每个核心变量也没有任何问题,并且我经常使用它。

底线:访问其他内核的 current_task 并打印 comm/pid 字段的正确方法是什么?

非常感谢,

丹尼尔

最佳答案

我终于知道哪里出了问题。 __preempt_countcurrent_task 的区别在于第一个被定义为一个整型变量,而第二个被定义为一个指向结构体的指针。换句话说,第一个被定义为变量,第二个被定义为指针。

现在,深入了解每个 cpu 变量,它们只是编译器在单独的内存位置分配的变量,如数组。当调用变量 Foo 的 per_cpu_ptr 时,宏会计算类似于 Foo[cpu] 的内容,但这意味着 per_cpu_ptr 需要实际的基数变量的地址,意思是&,这样它就可以从这里开始计算相对地址值。

声明时:foo = per_cpu_ptr(&__preempt_count,cpu),这个地址已经给定了=&__preempt_count

声明时:bar = per_cpu_ptr(current_task,cpu),这个地址没有给出,因为这里缺少&。 current_task是一个指针,不是current_task数组的基地址。

在上述两种情况下,per_cpu_ptr 的参数都是一个指针,但这里我的理解是错误的,我不清楚我需要传递的变量的指针实际上是什么,现在是清楚:我必须传递变量的基地址(var 或指针无关紧要)以便宏可以计算该 cpu 的相对地址。

因此,正确的方法是:

bar = per_cpu(current_task,cpu) 转换为 *per_cpu_var(¤t_task,cpu)

直接

bar = *per_cpu_var(¤t_task,cpu);

关于linux - 在基于 SMP 的 linux 系统中访问另一个 cpu 的 "current_task"指针,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46612874/

相关文章:

linux - 压缩 Web Root : Why didn't nice reduce CPU load?

linux - 从右边提取两个/之间的字符串

c - Linux 共享库 : replace symbol runtime

linux - 用变量个性化 mutt 的主题

java - 卡在 wait() 等待线程执行返回

系统调用与函数调用之间的性能差异

java - 使用Firebase进行Android开发是否需要自己处理线程?

java - 数组阻塞队列 : why signal conditions in InterruptedException blocks?

c++ - 在同一个 fd(socket) 上连续 2 次 SELECT 系统调用,一个需要时间,而第二个立即返回,为什么?

linux - 为什么 kprobes 禁用抢占以及何时可以安全地重新启用它?