docker之username space

usernamespace在docker中的用法:

  1. docker 中可以通过dockerd的 –userns-remap=$username 选项来指定用户映射,从文档上来看,该选项只能使用一次,也就是说,只能指定一个用户
  2. docker 参考的用户映射关系文件为 /etc/subuid  和 /etc/subgid ,文件格式大约为:

    其中:
    bozo: 是–userns-remap 指定的用户名
    100000:65536   以为着该用户可以映射到的容器外部的uid的范围为 100000 ~ (100000 + 65536)
  3. 目前来看,不同容器中相同用户映射到容器外面的uid是相同的
  4. docker文档 要求需要映射的用户必须在容器外面是真实存在的,至少在 /etc/passwd 中是需要存在的; 从uid映射来看,/etc/passwd 中定义的uid基本是被无视的
  5. 通过–userns-remap伪造的容器内部的root用户,虽然在容器外部就是个普通用户,但是在容器内部确实是有很大的特权的
  6. docker create的 –user选项和usernamespace没有关系,只是说用哪个用户启动容器内部的进程而已
  7. 参考: https://github.com/docker/labs/tree/master/security/userns

从上面分析来看,userns-remap使用起来是比较麻烦的、且功能太有限; 我们期望不需要太多配置的情况下,不同容器中所有进程、子进程的用户都能自动映射到外部单独的uid,可能实现这个确实比较麻烦(参考下面原理部分)

 

username space原理:

  1. User Namespace是Linux 3.8新增的一种namespace
  2. clone系统调用CLONE_NEWUSER
  3. /proc/$pid/uid_map  (对于支持user namespace的内核,都存在该文件,不明确设置就为空)
  4. 当我们通过CLONE_NEWUSER去clone一个进程(或线程)的话,进程的后续行为都会参考 /proc/$pid/uid_map 来决定用户的身份,那么该uid_map 文件必然要在clone之后才能写入了;为了避免我们clone出来的那个进程很快执行到用户代码而实现提权,则往往在clone后执行的是可控的代码,在准备工作完成后在execv()去执行用户的进程(注意: execv并不改变进程号,或者说不产生新的进程,而是在当前进程空间来执行用户的代码),用户代码中很可能会继续clone,那么后续的clone如果没有CLONE_NEWUSER的话,能否参考到上面的/proc/$pid/uid_map 呢?或者说,只参考该pid namespace中init进程下面的uid_map ? (稍后继续研究)
  5. http://man7.org/linux/man-pages/man7/user_namespaces.7.html

看个例子:

 

实际问题:

在没有使用–userns-map的情况下,很多容器都使用相同的镜像(所以,相同用户名的uid基本都一样),每个容器都可以通过容器中的sshd进行登录,sshd登录后都会有相应的limits限制,以单个用户最大进程数量为例,一般来讲,root都是没有限制的,其他用户都是有限制的,对于mysql用户,通常会产生很多线程,从容器的角度来看,该用户名下的进程数量确实不多,甚至整个容器都没有几个进程,这时候,启动mysql时却是失败的;原因在于:

  1. 启动进程这事儿归根结底还是内核干的
  2. ulimit资源限制最终是从进程属性上生效的,而不是直接从配置文件上生效的
  3. 容器外部和容器内部看到的uid是相同的
  4. 其他容器已经在没有ulimit限制(或者配额足够)的情况下启动了很多mysql进程(或线程)了
  5. 最后,在ulimit限制比较小的情况下启动mysql进程(或线程)自然就会失败的
  6. 所以,从用户级别的资源限制方面来讲,容器之间的相互影响是比较难以控制的
  7. docker本来不是让作为虚拟机使用的,所以,类似问题是不会被docker官方在意(和觉察)的,docker中的–userns-map 仅仅考虑了通常情况下单个容器中只有单个(被docker-containerd启动)的进程的场景
  8. 解决办法: 给用户足够的资源
  9. 我们可以限制单个容器的进程数量:
    1. https://segmentfault.com/a/1190000007468509   https://www.kernel.org/doc/Documentation/cgroup-v1/pids.txt
    2. 通过docker create 的 –pids-limit 选项进行配置
  10. dockerd 启动选项 –default-ulimit 可以设置默认的ulimit
  11. 目前,我们生产环境使用的docker容器都是通过docker exec 启动进程的,docker exec 进去后,ulimit如下:

     

问题:

  1. 如何从容器级别限制进程数量?

参考资料:

留下评论

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据