接前一篇文章:中移(苏州)软件技术有限公司面试问题与解答(1)—— 可信计算国密标准

本文参考以下文章:

启动期间的内存管理之初始化过程概述—-Linux内存管理(九)

Linux初始化

特此致谢!

本文对于中移(苏州)软件技术有限公司面试问题中的“(8)Linux内核内存初始化的完整流程。”进行解答与解析。

实际上早有此心,把Linux内核尤其是进程管理、内存管理和文件系统的代码都筛一遍。但是一直由于种种原因没有花大力气真正干。正好借着这个机会,开始做这个事情。先从面试中问到的内存管理开始。

1. Linux系统启动过程中的内存初始化概述

在Linux系统初始化过程中,必须建立内存管理的数据结构以及很多事务。因为Linux内核在内存管理完全初始化之前就需要使用内存。在系统启动期间,使用了额外的简化的内存管理模块。随后在初始化完成后,将旧的模块丢弃掉。

可以把Linux内核的内存管理分三个阶段:

阶段起点终点过程描述
第一阶段系统启动bootmem或者memblock初始化完成前此阶段只能使用memblock_reserve函数分配内存,早期内核中使用init_bootmem_done=1标识此阶段结束
第二阶段bootmem或者memblock初始化完成buddy初始化完成前引导内存分配器bootmem或者memblock接受内存的管理工作,早期内核中使用mem_init_done=1标记此阶段的结束
第三阶段buddy初始化完成系统停止运行可以用cache和buddy分配内存

2. start_kernel函数中的内存管理相关内容

首先我们来看看start_kernel()是如何初始化系统的。start_kerne函数在init/main.c中,代码如下(笔者使用的内核源码版本为6.7,在这个时间点上是比较新的版本):

asmlinkage __visible __init __no_sanitize_address __noreturn __no_stack_protectorvoid start_kernel(void){char *command_line;char *after_dashes;set_task_stack_end_magic(&init_task);smp_setup_processor_id();debug_objects_early_init();init_vmlinux_build_id();cgroup_init_early();local_irq_disable();early_boot_irqs_disabled = true;/* * Interrupts are still disabled. Do necessary setups, then * enable them. */boot_cpu_init();page_address_init();pr_notice("%s", linux_banner);early_security_init();setup_arch(&command_line);setup_boot_config();setup_command_line(command_line);setup_nr_cpu_ids();setup_per_cpu_areas();smp_prepare_boot_cpu();/* arch-specific boot-cpu hooks */boot_cpu_hotplug_init();pr_notice("Kernel command line: %s\n", saved_command_line);/* parameters may set static keys */jump_label_init();parse_early_param();after_dashes = parse_args("Booting kernel",static_command_line, __start___param,__stop___param - __start___param,-1, -1, NULL, &unknown_bootoption);print_unknown_bootoptions();if (!IS_ERR_OR_NULL(after_dashes))parse_args("Setting init args", after_dashes, NULL, 0, -1, -1, NULL, set_init_arg);if (extra_init_args)parse_args("Setting extra init args", extra_init_args, NULL, 0, -1, -1, NULL, set_init_arg);/* Architectural and non-timekeeping rng init, before allocator init */random_init_early(command_line);/* * These use large bootmem allocations and must precede * initalization of page allocator */setup_log_buf(0);vfs_caches_init_early();sort_main_extable();trap_init();mm_core_init();poking_init();ftrace_init();/* trace_printk can be enabled here */early_trace_init();/* * Set up the scheduler prior starting any interrupts (such as the * timer interrupt). Full topology setup happens at smp_init() * time - but meanwhile we still have a functioning scheduler. */sched_init();if (WARN(!irqs_disabled(), "Interrupts were enabled *very* early, fixing it\n"))local_irq_disable();radix_tree_init();maple_tree_init();/* * Set up housekeeping before setting up workqueues to allow the unbound * workqueue to take non-housekeeping into account. */housekeeping_init();/* * Allow workqueue creation and work item queueing/cancelling * early.Work item execution depends on kthreads and starts after * workqueue_init(). */workqueue_init_early();rcu_init();/* Trace events are available after this */trace_init();if (initcall_debug)initcall_debug_enable();context_tracking_init();/* init some links before init_ISA_irqs() */early_irq_init();init_IRQ();tick_init();rcu_init_nohz();init_timers();srcu_init();hrtimers_init();softirq_init();timekeeping_init();time_init();/* This must be after timekeeping is initialized */random_init();/* These make use of the fully initialized rng */kfence_init();boot_init_stack_canary();perf_event_init();profile_init();call_function_init();WARN(!irqs_disabled(), "Interrupts were enabled early\n");early_boot_irqs_disabled = false;local_irq_enable();kmem_cache_init_late();/* * HACK ALERT! This is early. We're enabling the console before * we've done PCI setups etc, and console_init() must be aware of * this. But we do want output early, in case something goes wrong. */console_init();if (panic_later)panic("Too many boot %s vars at `%s'", panic_later,panic_param);lockdep_init();/* * Need to run this when irqs are enabled, because it wants * to self-test [hard/soft]-irqs on/off lock inversion bugs * too: */locking_selftest();#ifdef CONFIG_BLK_DEV_INITRDif (initrd_start && !initrd_below_start_ok &&page_to_pfn(virt_to_page((void *)initrd_start)) < min_low_pfn) {pr_crit("initrd overwritten (0x%08lx < 0x%08lx) - disabling it.\n",page_to_pfn(virt_to_page((void *)initrd_start)),min_low_pfn);initrd_start = 0;}#endifsetup_per_cpu_pageset();numa_policy_init();acpi_early_init();if (late_time_init)late_time_init();sched_clock_init();calibrate_delay();arch_cpu_finalize_init();pid_idr_init();anon_vma_init();#ifdef CONFIG_X86if (efi_enabled(EFI_RUNTIME_SERVICES))efi_enter_virtual_mode();#endifthread_stack_cache_init();cred_init();fork_init();proc_caches_init();uts_ns_init();key_init();security_init();dbg_late_init();net_ns_init();vfs_caches_init();pagecache_init();signals_init();seq_file_init();proc_root_init();nsfs_init();cpuset_init();cgroup_init();taskstats_init_early();delayacct_init();acpi_subsystem_init();arch_post_acpi_subsys_init();kcsan_init();/* Do the rest non-__init'ed, we're now alive */arch_call_rest_init();/* * Avoid stack canaries in callers of boot_init_stack_canary for gcc-10 * and older. */#if !__has_attribute(__no_stack_protector__)prevent_tail_call_optimization();#endif}

可以看到,start_kernel函数代码很长,有200行。在此只截取出其中与内存管理初始化相关的部分,如下所示:

asmlinkage __visible __init __no_sanitize_address __noreturn __no_stack_protectorvoid start_kernel(void){……setup_arch(&command_line);……setup_per_cpu_areas();……mm_core_init();……kmem_cache_init_late();……setup_per_cpu_pageset();numa_policy_init();……anon_vma_init();……pagecache_init();……/* Do the rest non-__init'ed, we're now alive */arch_call_rest_init();}
函数功能备注

page_address_init

初始化内核用于查找物理页面地址的数据结构
setup_arch是一个特定于体系结构的设置函数,其中的一项任务是负责初始化自举分配器
setup_per_cpu_areas给每个CPU分配内存,并拷贝.data.percpu段的数据
build_all_zonelists建立并初始化结点和内存域的数据结构已移至mm_core_init函数中
mm_core_init建立了内核的内存分配器。其中通过mem_init函数停用bootmem分配器并迁移到实际的内存管理器(比如伙伴系统),
然后调用kmem_cache_init函数初始化内核内部用于小块内存区的分配器
kmem_cache_init_late在kmem_cache_init函数之后,完善分配器的缓存机制,当前3个可用的内核内存分配器slab、slob、slub都会定义此函数

kmemleak_init

提供了一种可选的内核泄漏检测,其方法类似于跟踪内存收集器。当独立的对象没有被释放时,其报告记录在/sys/kernel/debug/kmemleak中,kmemcheck()能够帮助定位大多数内存错误的上下文已移至mm_core_init函数中
setup_per_cpu_pageset初始化CPU高速缓存行,为pagesets的第一个数组元素分配内存,换句话说,其实就是第一个系统处理器分配
numa_policy_init初始化NUMA策略
anon_vma_init匿名虚拟内存域初始化,创建anon_vma的slab缓存
pagecache_init页高速缓存的初始化
arch_call_rest_init用于在系统引导时调用平台特定的初始化函数

3. 内存初始化过程概述

在操作系统初始化的初期,操作系统只是获取到了内存的基本信息,内存管理的数据结构都没有建立。而这些数据结构创建的过程本身就是一个内存分配的过程。那么问题就来了:内存管理数据结构需要分配到相应的内存,才能完成做后续工作;但是它所做的工作本身就是为了内存能够分配。此时还没有一个内存管理器去负责分配和回收内存,而又不可能将所有的内存信息都静态地创建并初始化,那么怎么分配内存管理器所需要的内存呢?这就是一个典型的“鸡生蛋、蛋生鸡”的问题。不过甭管是先有鸡还是先有蛋,总归要先有二者之一,才能有后续的循环。

类比于鸡和蛋问题,我们先要实现一个满足要求的但是可能效率不高的笨家伙(内存管理器),用它来负责系统初始化初期的内存管理,最重要地,用它来初始化我们内存的数据结构,直到我们真正的内存管理器被初始化完成并能投入使用。之后就可以将旧的内存管理器丢掉。

因此在系统启动过程期间,内核使用了一个额外的简化形式的内存管理模块早期的引导内存分配器(boot memory allocator–bootmem分配器)或者memblock,用于在启动阶段早期分配内存。而在系统初始化完成后,该分配器被内核抛弃,然后初始化了一套新的更加完善的内存分配器。

系统启动

|—- 第一阶段

bootmem或者memblock初始化完成

|—- 第二阶段

伙伴系统以及slab cache初始化完成

|—- 第三阶段

系统终止运行

从下一回开始对start_kernel()中的内存管理相关函数进行详细解析。