我终于搞懂了：操作系统要我做什么

可以，下面我给你改成更像个人博客的叙事版。这版会更像“我这几天做实验时，真实是怎么从懵到慢慢想明白的”，更适合发博客。

最近在做操作系统实验 系统调用 Profiler (sperf)，说实话，我前面有一段时间是真的没搞懂。

题目一上来就说：

实现一个命令行工具
启动另一个程序
统计各个系统调用的占用时间
短程序可以一次性输出
长程序要每秒大约输出 10 次
只能使用 execve

我当时看到这些要求，脑子里就一个问题：

这到底是在让我干什么？

我一开始甚至怀疑，是不是要我自己实现一个类似 strace 的东西，或者要我去研究 gdb、ptrace、系统调用跟踪机制这些比较底层的内容。后来我才慢慢明白，这个实验并没有我刚开始想得那么吓人，它真正要做的事情，其实非常具体。实验文档已经把实现路线写得很直白了：用 fork 启动子进程，子进程里用 execve 跑 strace COMMAND ARG...，父进程不断读取 strace 的输出，再做统计。

一开始我最大的误区：以为自己要“发明一个工具”

现在回头看，我一开始最大的问题，不是不会写代码，而是理解错了题目。

我当时下意识地觉得，题目里提到“系统调用 Profiler”，是不是意味着我要从零写一个很复杂的分析工具，自己去追踪程序的所有系统调用，自己统计时间，自己做底层控制。

但后来我发现，不是这样的。

这个实验实际上是在让我写一个基于 strace 的包装器。也就是说，我不是去重新发明 strace，而是写一个自己的小工具，自动去调用 strace -T，然后把它输出的内容拿回来做汇总。实验说明里其实已经暗示得很明确：我们“只需要解析 strace 的输出就能完成这个实验”，而且指南专门建议用 pipe + fork + execve 去把 strace 拉起来。

当我意识到这一点的时候，整个实验一下子就变得具体起来了。

真正要写的，不是被分析程序，而是一个“分析器”

后来我终于想明白：

这个实验要我写的，不是 ls、不是 find、不是 sleep，而是一个叫 sperf 的工具。

它的用法大概是这样：

./sperf ls
./sperf find /
./sperf sleep 1

这里最容易混淆的地方在于：

sperf 是我自己写的程序
ls、find /、sleep 1 才是被分析的程序

也就是说，我写的 sperf 本质上不是“主角”，它更像是一个站在旁边观察和记账的人。

比如我运行：

./sperf ls

背后真正发生的事情其实像这样：

sperf 启动 strace
strace 再去运行 ls
strace 在运行过程中把 ls 的系统调用打印出来
sperf 把这些输出读回来
sperf 再统计：到底是 openat 花时间多，还是 read 花时间多，还是 close 花时间多
最后把耗时最多的几个 syscall 打印出来

当我能用这几句话把整个流程讲出来的时候，我才觉得自己算是真的入门了。

这个实验本质上是在干嘛

如果现在再让我用一句话概括，我会这样说：

这个实验就是让我写一个小工具，它帮我运行 strace -T 某个命令，然后把 strace 输出的 syscall 耗时结果做统计和展示。

这里最关键的是 -T。

因为普通的 strace 只是告诉你“调用了什么系统调用”，但 strace -T 会把每次系统调用花了多少时间也打印出来。实验文档里举的例子就很典型，输出行的最后会有一个时间片段，比如：

mmap2(...) = 0xb76d1000 <0.000011>

而我要做的事情，就是从这种输出里提取出：

syscall 名字
syscall 耗时

然后把所有同类 syscall 的时间加起来。

我后来才明白，这个实验其实很“工程”

一开始我总把它想成一个“概念题”，但真正理解之后，我反而觉得这个实验非常工程化。

因为它考的不是抽象定义，而是你能不能把一整条链路接起来。

这条链路其实很清楚：

sperf 启动目标命令
→ 用 strace -T 观察它
→ 读出 strace 的输出
→ 解析每一行
→ 做时间统计
→ 定期输出 top 5

看起来简单，但实际上这里面把很多操作系统和系统编程里的知识点都串到一起了：

fork
execve
pipe
dup2
文件描述符
标准输入输出
缓冲区
字符串解析
周期性输出控制

所以这个实验真正锻炼人的地方，不在于“概念新不新”，而在于它逼着你把这些零散知识真正拼成一条能跑通的流水线。

题目里那个“只能用 execve”，一开始我也没懂

这个要求我一开始也觉得很奇怪。

平时如果我要执行一个命令，比如 ls，我很自然会想到：

execvp("ls", ...)
execlp("ls", ...)

因为这些函数会自动帮我去 PATH 里找可执行文件。

但这次实验明确限制：

只能使用 execve。

后来我才反应过来，这个限制其实是老师故意设置的。

因为 execve 最底层，也最原始。它不会帮你做 PATH 搜索，也不会帮你自动处理那些更方便的封装逻辑。所以如果我要运行：

./sperf ls

那我自己就得先去 PATH 环境变量里把 ls 真正的位置找出来，比如 /bin/ls，然后再把这个绝对路径传给 execve。

也就是说，这个实验其实不是单纯让我“跑个命令”，而是在逼着我真正理解：

为什么终端里直接输入 ls 能执行
PATH 到底在干什么
execve 和 execvp 到底有什么区别

这个点以前我只是背，现在算是第一次在代码里真正碰到了。

让我真正开始清醒的一个瞬间：我终于知道自己要写哪几个函数了

老师给的 sperf.c 是一个空骨架，一开始看着也挺让人发怵。但真正想通以后，会发现它其实已经把任务拆好了。

最核心的就四件事。

第一件事：解析 `strace` 的一行输出

比如遇到这样一行：

openat(AT_FDCWD, "/etc/passwd", O_RDONLY) = 3 <0.000024>

我要能从这一行里拿到：

syscall 名字：openat
syscall 时间：0.000024

这就是 parse_strace_line 在做的事情。

第二件事：把同名 syscall 的时间加起来

比如：

看到一次 read，耗时 0.00001
又看到一次 read，耗时 0.00003

那最后应该累计成：

read -> 0.00004

这就是 add_syscall 的意义。

说白了，它就是一个“记账函数”。

第三件事：输出当前最耗时的前 5 个 syscall

实验要求输出 top 5，格式类似：

read (35%)
openat (20%)
close (10%)

而且每轮输出后还要补 80 个 \0 作为分隔，并且一定要 fflush(stdout)，因为 Online Judge 环境下 stdout 很可能是 fully buffered。这个细节实验说明里专门提醒了。

这件事本质上其实就是一个简单的 top N 统计。

第四件事：把整个流程串起来

这一步就是 main 的工作。

main 不是用来做复杂计算的，它的职责更像是“调度总管”：

先检查命令行参数
再去找用户输入命令的真实路径
再去找 strace 的路径
创建管道
fork 子进程
子进程里 execve(strace, ...)
父进程里 read() 管道
不断解析输出
定时打印 top 5
子进程退出后，最后再打印一次结果

当我把整个实验还原成这几件具体的事情之后，之前那种“我不知道老师到底想让我干嘛”的感觉，才真正消失了。

这个实验最让我有感触的一点：程序不是“自己跑”的

我觉得这次实验最重要的收获，不只是会不会写 sperf，而是我第一次更具体地感受到：

一个程序并不是神奇地自己运行起来的，它其实是在不断通过系统调用和操作系统交互。

以前我当然也知道“程序会调用 syscall”，但那个理解其实很抽象，像背概念。

而这次实验不一样。因为你真的会看到 strace 打出来的一行一行输出，会真的看到：

它在 openat
它在 read
它在 close
它在 mmap
它在 brk

你会突然意识到，原来一个看起来很普通的命令，比如 ls，它背后和内核之间其实有这么多来回。

这也是为什么老师在实验背景里会提到 gdb、strace、trace 工具、profiler 这些东西。因为它们真正锻炼的，都是一种能力：

不只是会写程序，而是会观察程序到底是怎么跑起来的。

我现在对这个实验的理解，终于变得非常直白了

如果现在有人再问我：

你这个 M3 实验到底是在干嘛？

我会直接说：

我在写一个叫 sperf 的命令行工具。它会帮我执行 strace -T 某个命令，然后从 strace 的输出里提取出每种系统调用的耗时，累计统计，再定期打印出最耗时的前 5 个 syscall。

再说得更口语一点：

我写的其实不是“业务程序”，而是一个站在旁边看别人跑程序、顺便帮它做 syscall 时间统计的小分析器。

当我终于能这样描述的时候，我知道自己真的不再是“瞎做实验”了。

现在回头看，我觉得这次实验最值钱的不是代码，而是思维

代码当然重要，但我现在觉得，这次实验最值钱的地方其实是它帮我建立了一个新的视角：

以前我的视角是：

我要写一个程序，让它完成功能。

现在多了一个视角：

我要学会观察程序运行的过程，知道它和操作系统到底发生了什么交互。

这个视角一旦建立起来，后面你再去看：

gdb
strace
perf
flame graph
profiling
tracing

我觉得，这可能才是这个实验最想让我学到的东西。

一开始我最大的误区：以为自己要“发明一个工具”#

真正要写的，不是被分析程序，而是一个“分析器”#

这个实验本质上是在干嘛#

我后来才明白，这个实验其实很“工程”#

题目里那个“只能用 execve”，一开始我也没懂#

让我真正开始清醒的一个瞬间：我终于知道自己要写哪几个函数了#

第一件事：解析 strace 的一行输出#

第二件事：把同名 syscall 的时间加起来#

第三件事：输出当前最耗时的前 5 个 syscall#

第四件事：把整个流程串起来#

这个实验最让我有感触的一点：程序不是“自己跑”的#

我现在对这个实验的理解，终于变得非常直白了#

现在回头看，我觉得这次实验最值钱的不是代码，而是思维#