18 进程的创建：如何发起一个新项目？

前面我们学习了如何使用fork创建进程，也学习了进程管理和调度的相关数据结构。这一节，我们就来看一看，创建进程这个动作在内核里都做了什么事情。

fork是一个系统调用，根据咱们讲过的系统调用的流程，流程的最后会在sys_call_table中找到相应的系统调用sys_fork。

sys_fork是如何定义的呢？根据SYSCALL_DEFINE0这个宏的定义，下面这段代码就定义了sys_fork。

SYSCALL_DEFINE0(fork)
{
......
    return _do_fork(SIGCHLD, 0, 0, NULL, NULL, 0);
}

sys_fork会调用_do_fork。

long _do_fork(unsigned long clone_flags,
          unsigned long stack_start,
          unsigned long stack_size,
          int __user *parent_tidptr,
          int __user *child_tidptr,
          unsigned long tls)
{
    struct task_struct *p;
    int trace = 0;
    long nr;


......
    p = copy_process(clone_flags, stack_start, stack_size,
             child_tidptr, NULL, trace, tls, NUMA_NO_NODE);
......
    if (!IS_ERR(p)) {
        struct pid *pid;
        pid = get_task_pid(p, PIDTYPE_PID);
        nr = pid_vnr(pid);


        if (clone_flags & CLONE_PARENT_SETTID)
            put_user(nr, parent_tidptr);


......
        wake_up_new_task(p);
......
        put_pid(pid);
    } 
......

fork的第一件大事：复制结构

_do_fork里面做的第一件大事就是copy_process，咱们前面讲过这个思想。如果所有数据结构都从头创建一份太麻烦了，还不如使用惯用“伎俩”，Ctrl C + Ctrl V。

这里我们再把task_struct的结构图拿出来，对比着看如何一个个复制。

static __latent_entropy struct task_struct *copy_process(
                    unsigned long clone_flags,
                    unsigned long stack_start,
                    unsigned long stack_size,
                    int __user *child_tidptr,
                    struct pid *pid,
                    int trace,
                    unsigned long tls,
                    int node)
{
    int retval;
    struct task_struct *p;
......
    p = dup_task_struct(current, node);

dup_task_struct主要做了下面几件事情：

调用alloc_task_struct_node分配一个task_struct结构；
调用alloc_thread_stack_node来创建内核栈，这里面调用__vmalloc_node_range分配一个连续的THREAD_SIZE的内存空间，赋值给task_struct的void *stack成员变量；
调用arch_dup_task_struct(struct task_struct *dst, struct task_struct *src)，将task_struct进行复制，其实就是调用memcpy；
调用setup_thread_stack设置thread_info。

到这里，整个task_struct复制了一份，而且内核栈也创建好了。

我们再接着看copy_process。

retval = copy_creds(p, clone_flags);

轮到权限相关了，copy_creds主要做了下面几件事情：

调用prepare_creds，准备一个新的struct cred *new。如何准备呢？其实还是从内存中分配一个新的struct cred结构，然后调用memcpy复制一份父进程的cred；
接着p->cred = p->real_cred = get_cred(new)，将新进程的“我能操作谁”和“谁能操作我”两个权限都指向新的cred。

接下来，copy_process重新设置进程运行的统计量。

p->utime = p->stime = p->gtime = 0;
p->start_time = ktime_get_ns();
p->real_start_time = ktime_get_boot_ns();

接下来，copy_process开始设置调度相关的变量。

retval = sched_fork(clone_flags, p);

sched_fork主要做了下面几件事情：

调用__sched_fork，在这里面将on_rq设为0，初始化sched_entity，将里面的exec_start、sum_exec_runtime、prev_sum_exec_runtime、vruntime都设为0。你还记得吗，这几个变量涉及进程的实际运行时间和虚拟运行时间。是否到时间应该被调度了，就靠它们几个；
设置进程的状态p->state = TASK_NEW；
初始化优先级prio、normal_prio、static_prio；
设置调度类，如果是普通进程，就设置为p->sched_class = &fair_sched_class；
调用调度类的task_fork函数，对于CFS来讲，就是调用task_fork_fair。在这个函数里，先调用update_curr，对于当前的进程进行统计量更新，然后把子进程和父进程的vruntime设成一样，最后调用place_entity，初始化sched_entity。这里有一个变量sysctl_sched_child_runs_first，可以设置父进程和子进程谁先运行。如果设置了子进程先运行，即便两个进程的vruntime一样，也要把子进程的sched_entity放在前面，然后调用resched_curr，标记当前运行的进程TIF_NEED_RESCHED，也就是说，把父进程设置为应该被调度，这样下次调度的时候，父进程会被子进程抢占。

接下来，copy_process开始初始化与文件和文件系统相关的变量。

retval = copy_files(clone_flags, p);
retval = copy_fs(clone_flags, p);

copy_files主要用于复制一个进程打开的文件信息。这些信息用一个结构files_struct来维护，每个打开的文件都有一个文件描述符。在copy_files函数里面调用dup_fd，在这里面会创建一个新的files_struct，然后将所有的文件描述符数组fdtable拷贝一份。

copy_fs主要用于复制一个进程的目录信息。这些信息用一个结构fs_struct来维护。一个进程有自己的根目录和根文件系统root，也有当前目录pwd和当前目录的文件系统，都在fs_struct里面维护。copy_fs函数里面调用copy_fs_struct，创建一个新的fs_struct，并复制原来进程的fs_struct。

接下来，copy_process开始初始化与信号相关的变量。

init_sigpending(&p->pending);
retval = copy_sighand(clone_flags, p);
retval = copy_signal(clone_flags, p);

copy_sighand会分配一个新的sighand_struct。这里最主要的是维护信号处理函数，在copy_sighand里面会调用memcpy，将信号处理函数sighand->action从父进程复制到子进程。

init_sigpending和copy_signal用于初始化，并且复制用于维护发给这个进程的信号的数据结构。copy_signal函数会分配一个新的signal_struct，并进行初始化。

接下来，copy_process开始复制进程内存空间。

retval = copy_mm(clone_flags, p);

进程都有自己的内存空间，用mm_struct结构来表示。copy_mm函数中调用dup_mm，分配一个新的mm_struct结构，调用memcpy复制这个结构。dup_mmap用于复制内存空间中内存映射的部分。前面讲系统调用的时候，我们说过，mmap可以分配大块的内存，其实mmap也可以将一个文件映射到内存中，方便可以像读写内存一样读写文件，这个在内存管理那节我们讲。

接下来，copy_process开始分配pid，设置tid，group_leader，并且建立进程之间的亲缘关系。

    INIT_LIST_HEAD(&p->children);
    INIT_LIST_HEAD(&p->sibling);
......
    p->pid = pid_nr(pid);
    if (clone_flags & CLONE_THREAD) {
        p->exit_signal = -1;
        p->group_leader = current->group_leader;
        p->tgid = current->tgid;
    } else {
        if (clone_flags & CLONE_PARENT)
            p->exit_signal = current->group_leader->exit_signal;
        else
            p->exit_signal = (clone_flags & CSIGNAL);
        p->group_leader = p;
        p->tgid = p->pid;
    }
......
    if (clone_flags & (CLONE_PARENT|CLONE_THREAD)) {
        p->real_parent = current->real_parent;
        p->parent_exec_id = current->parent_exec_id;
    } else {
        p->real_parent = current;
        p->parent_exec_id = current->self_exec_id;
    }

好了，copy_process要结束了，上面图中的组件也初始化的差不多了。

fork的第二件大事：唤醒新进程

_do_fork做的第二件大事是wake_up_new_task。新任务刚刚建立，有没有机会抢占别人，获得CPU呢？

void wake_up_new_task(struct task_struct *p)
{
    struct rq_flags rf;
    struct rq *rq;
......
    p->state = TASK_RUNNING;
......
    activate_task(rq, p, ENQUEUE_NOCLOCK);
    p->on_rq = TASK_ON_RQ_QUEUED;
    trace_sched_wakeup_new(p);
    check_preempt_curr(rq, p, WF_FORK);
......
}

首先，我们需要将进程的状态设置为TASK_RUNNING。

activate_task函数中会调用enqueue_task。

static inline void enqueue_task(struct rq *rq, struct task_struct *p, int flags)
{
.....
    p->sched_class->enqueue_task(rq, p, flags);
}

如果是CFS的调度类，则执行相应的enqueue_task_fair。

static void
enqueue_task_fair(struct rq *rq, struct task_struct *p, int flags)
{
    struct cfs_rq *cfs_rq;
    struct sched_entity *se = &p->se;
......
    cfs_rq = cfs_rq_of(se);
    enqueue_entity(cfs_rq, se, flags);
......
    cfs_rq->h_nr_running++;
......
}

在enqueue_task_fair中取出的队列就是cfs_rq，然后调用enqueue_entity。

在enqueue_entity函数里面，会调用update_curr，更新运行的统计量，然后调用__enqueue_entity，将sched_entity加入到红黑树里面，然后将se->on_rq = 1设置在队列上。

回到enqueue_task_fair后，将这个队列上运行的进程数目加一。然后，wake_up_new_task会调用check_preempt_curr，看是否能够抢占当前进程。

在check_preempt_curr中，会调用相应的调度类的rq->curr->sched_class->check_preempt_curr(rq, p, flags)。对于CFS调度类来讲，调用的是check_preempt_wakeup。

static void check_preempt_wakeup(struct rq *rq, struct task_struct *p, int wake_flags)
{
    struct task_struct *curr = rq->curr;
    struct sched_entity *se = &curr->se, *pse = &p->se;
    struct cfs_rq *cfs_rq = task_cfs_rq(curr);
......
    if (test_tsk_need_resched(curr))
        return;
......
    find_matching_se(&se, &pse);
    update_curr(cfs_rq_of(se));
    if (wakeup_preempt_entity(se, pse) == 1) {
        goto preempt;
    }
    return;
preempt:
    resched_curr(rq);
......
}

在check_preempt_wakeup函数中，前面调用task_fork_fair的时候，设置sysctl_sched_child_runs_first了，已经将当前父进程的TIF_NEED_RESCHED设置了，则直接返回。

否则，check_preempt_wakeup还是会调用update_curr更新一次统计量，然后wakeup_preempt_entity将父进程和子进程PK一次，看是不是要抢占，如果要则调用resched_curr标记父进程为TIF_NEED_RESCHED。

如果新创建的进程应该抢占父进程，在什么时间抢占呢？别忘了fork是一个系统调用，从系统调用返回的时候，是抢占的一个好时机，如果父进程判断自己已经被设置为TIF_NEED_RESCHED，就让子进程先跑，抢占自己。

总结时刻

好了，fork系统调用的过程咱们就解析完了。它包含两个重要的事件，一个是将task_struct结构复制一份并且初始化，另一个是试图唤醒新创建的子进程。

这个过程我画了一张图，你可以对照着这张图回顾进程创建的过程。

这个图的上半部分是复制task_struct结构，你可以对照着右面的task_struct结构图，看这里面的成员是如何一部分一部分地被复制的。图的下半部分是唤醒新创建的子进程，如果条件满足，就会将当前进程设置应该被调度的标识位，就等着当前进程执行__schedule了。

课堂练习

你可以试着设置sysctl_sched_child_runs_first参数，然后使用系统调用写程序创建进程，看看执行结果。

欢迎留言和我分享你的疑惑和见解，也欢迎你收藏本节内容，反复研读。你也可以把今天的内容分享给你的朋友，和他一起学习、进步。

精选留言（15）

刘強 👍（45） 💬（1）
文章中出现了SYSCALL_DEFINE0宏定义，不明白，就网上查了一下，一看吓一跳，宏定义里面又有一堆宏定义，其实就是一个函数调用，为什么弄得这么复杂呢？原来是为了修复一个bug。这让我意识到linux内核代码的复杂性。linux是一个集大成者，为了适应各种硬件架构平台，修复各种意想不到的bug，里面充斥着各种兼容性代码，修复补丁等等。而且里面的代码也是世界各路大神，黑客写出来的，为了保证内核的安全性，健壮性，扩展性，考虑的东西非常之多，充斥着各种奇技淫巧，不是我等普通人短时间能够理解。每一行代码，甚至一个宏定义，都是要花时间研究的。从这个角度上来说，linux就像是一个迷宫，如果没有一个向导，进去后估计就出不来了。也许这个专栏的作用就是充当一个向导，欣赏沿途风景的同时，带领我们穿越迷宫，找到出口...
2019-05-08

刘強 👍（20） 💬（3）
有个问题：在数据库中，有个事务的概念，也就是保证一连串操作的原子性，如果其中任何一步错误，整个操作回滚，回到原来的状态，好像什么也没发生。但是在文章中我看到，在创建进程的过程中，步骤太多了。每一步都要申请空间，复制数据。如果其中一步发生了错误，怎么保证释放这些空间，回到原来状态？
2019-05-08

Milittle 👍（18） 💬（2）
老师，要是能把对应代码路径给出就好了，有时候自己找不见，谢谢老师~
2019-05-10

zhengfan 👍（8） 💬（1）
刘老师：遇到一个问题。您在上面两个章节提到过“进程调度第一定律”，是说任何被调度的task（无论是获得还是交出运行权一方）都是在调用__schedule方法，并因此在进程实际切换完成后不需修改指令指针寄存器。以此来思考本节介绍的创建进程过程。父进程在交出运行权的时候没什么特殊的，一定是在执行__schedule方法。然而当子进程获得运行权的时候，因为之前它没运行过，不是通过__schedule方法交出运行权的，当前的指令指针寄存器和子进程运行状态的上下文（dup_task_struct中？）不相符吧？这样不会出问题吗？
2020-04-17

尚墨 👍（7） 💬（1）
反复研读都已经高亮了。我几乎每篇都要听，读三次以上，才能懵懵懂懂。
2019-05-11

注意力$ 👍（6） 💬（1）
超哥，Oracle 这种多进程的数据库，和mysql 这种单进程多线程的数据库，在进程管理上有什么优势呢？看见创建进程这么复杂，资源消耗也多
2020-05-30

一苇渡江 👍（5） 💬（1）
老师写的太棒了，特别是这个图，肯定是花了不少时间，把这个图手抄了一遍，时不时拿出来看看
2019-05-08

蚂蚁内推+v 👍（2） 💬（3）
内核态的内核进程和用户态的用户进程创建过程有区别吗？
2019-05-24

安排 👍（1） 💬（2）
调度类是全局的吗？还是每个cpu核有自己的调度类集合？
2019-05-08

周平 👍（0） 💬（1）
讲得好的细节，与前面的内容可以无缝连接，不至于管中窥豹，让学习者越学越乱，谢谢老师
2019-05-17

blentle 👍（0） 💬（1）
子进程是如何抢占父进程的呢？
2019-05-08

why 👍（38） 💬（1）
- fork -> sys_call_table 转换为 sys_fork()->`_do_fork` - 创建进程做两件事: 复制初始化 task_struct; 唤醒新进程 - 复制并初始化 task_struct, copy_process() - dup_task_struct: 分配 task_struct 结构体; 创建内核栈, 赋给`* stack`; 复制 task_struct, 设置 thread_info; - copy_creds: 分配 cred 结构体并复制, p->cred = p->real_cred = get_cred(new) - 初始化运行时统计量 - sched_fork 调度相关结构体: 分配并初始化 sched_entity; state = TASK_NEW; 设置优先级和调度类; task_fork_fair()->update_curr 更新当前进程运行统计量, 将当前进程 vruntime 赋给子进程, 通过 sysctl_sched_child_runs_first 设置是否让子进程抢占, 若是则将其 sched_entity 放前头, 并调用 resched_curr 做被抢占标记. - 初始化文件和文件系统变量 - copy_files: 复制进程打开的文件信息, 用 files_struct 维护; - copy_fs: 复制进程目录信息, 包括根目录/根文件系统; pwd 等, 用 fs_struct 维护 - 初始化信号相关内容: 复制信号和处理函数 - 复制内存空间: 分配并复制 mm_struct; 复制内存映射信息 - 分配 pid - 唤醒新进程 wake_up_new_task() - state = TASK_RUNNING; activate 用调度类将当前子进程入队列 - 其中 enqueue_entiry 中会调用 update_curr 更新运行统计量, 再加入队列 - 调用 check_preempt_curr 看是否能抢占, 若 task_fork_fair 中已设置 sysctl_sched_child_runs_first, 直接返回, 否则进一步比较并调用 resched_curr 做抢占标记 - 若父进程被标记会被抢占, 则系统调用 fork 返回过程会调度子进程
2019-05-10

免费的人 👍（9） 💬（0）
我是来收图的。
2019-05-09

garlic 👍（7） 💬（0）
先前一些版本中人们讨论child first run主要为了减少COW对子进程造成影响，CFS调度器在2.6.23 版本引入后 2.6.32 将child first run关闭默认，父进程运行，理由是尤其引发的一些bash bug 和更好的利用TLB和cache，学习笔记https://garlicspace.com/2019/09/07/linux内核参数sysctl_sched_child_runs_first/
2019-09-07

neohope 👍（5） 💬（2）
老师您好，记得fork时，一些大的内存对象，会有copy on write的机制，这个是在何时起作用的呢？是copy_mm这里吗？感谢！
2019-12-09