10月 202017
 

功能: 创建新的名字空间,并使得进程处于sleep状态,可以随时nsenter进来

测试 mnt 时发现,似乎并没有实现mount的隔离; 测试方法:

./new-namespace -m &

然后使用nsenter,分别在名字空间内外查看 /proc/self/mountinfo 的内容,发现如何操作,内外都是一致的。

注意: 需要和pid名字空间一起使用

 

参考: https://www.toptal.com/linux/separation-anxiety-isolating-your-system-with-linux-namespaces

 Posted by at 下午 12:08
10月 122017
 

现象:

乍一看, /proc/self/exe 文件找不见?

一般来讲,文件找不见并不奇怪,怪就怪在是 /proc/self/exe 找不见就不太应该了;

因为docker exec 最终是由libcontainerd进程来出来的,strace跟进发现,是chdir到 /root/data1/docker/devicemapper/mnt/4723e8178992b32b7284aa48c1c62f4011a6b785aca0c54e18d7ce5cc23b22dc/rootfs 时,找不到目标目录导致的,于是我就迅速地看了一下,该目录确实不存在,但是对于正常的能够exec的容器来讲,相应的rootfs目录也是不存在的

思考中。。。

docker玩的就是名字空间和cgroup,所以不能不想到这些;libcontainerd也有自己的(mnt)名字空间,我们进入libcontainerd进程的文件系统就可以查看到上面目录的存在了,而且,正常的容器存在相应的目录,异常的容器不存在相应的目录;

通过mount命令可以发现mount的规律,从容器的config.json (/var/run/docker/libcontainerd/c6176f37c4b67b03d4187edef6d1131cd44ab80bd0f0c20b24a7a20056967652/config.json) 中查看到对应的mount的位置,通过nsenter进入libcontainerd的mnt名字空间手动mount上去就好了,如下:

那么该mount点是如何丢掉的呢?重启dockerd能否自动修复该问题呢?稍后再研究

 Posted by at 下午 6:34

cgroup 审计策略

 docker, Linux & Unix  cgroup 审计策略已关闭评论
9月 072017
 

内存子系统

场景:

当你把一个已经占用了1GB内存的进程转移到一个新的cgroup后,新的cgroup看到的该进程使用的内存大小会是多少呢?

memory.max_usage_in_bytes  和 memory.usage_in_bytes 都不会将这1GB计算在内的,只有该进程继续申请内存才会计算新申请的内存。

同样,如果把一个占用内存很多的进程从cgroup中移出来,memory.max_usage_in_bytes  和 memory.usage_in_bytes 应该也不会被更新

Process Number Controller

  1.  pids.current 可以大于 pids.max
    1. 当cgroup中进程数量达到最大时,cgroup并不“阻止”从其它cgroup中移动一个进程到该cgroup中;只是说不允许在该cgroup中fork、clone新的进程或线程
  2. pids.current包含所有子孙cgroup中的进程(和线程)
  3. 当cgroup对进程数量不限制时,pids.max 不是0(零)也不是-1,而是字符串max😓
 Posted by at 下午 6:33

docker之username space

 docker, Linux & Unix  docker之username space已关闭评论
9月 062017
 

usernamespace在docker中的用法:

  1. docker 中可以通过dockerd的 –userns-remap=$username 选项来指定用户映射,从文档上来看,该选项只能使用一次,也就是说,只能指定一个用户
  2. docker 参考的用户映射关系文件为 /etc/subuid  和 /etc/subgid ,文件格式大约为:

    其中:
    bozo: 是–userns-remap 指定的用户名
    100000:65536   以为着该用户可以映射到的容器外部的uid的范围为 100000 ~ (100000 + 65536)
  3. 目前来看,不同容器中相同用户映射到容器外面的uid是相同的
  4. docker文档 要求需要映射的用户必须在容器外面是真实存在的,至少在 /etc/passwd 中是需要存在的; 从uid映射来看,/etc/passwd 中定义的uid基本是被无视的
  5. 通过–userns-remap伪造的容器内部的root用户,虽然在容器外部就是个普通用户,但是在容器内部确实是有很大的特权的
  6. docker create的 –user选项和usernamespace没有关系,只是说用哪个用户启动容器内部的进程而已
  7. 参考: https://github.com/docker/labs/tree/master/security/userns

从上面分析来看,userns-remap使用起来是比较麻烦的、且功能太有限; 我们期望不需要太多配置的情况下,不同容器中所有进程、子进程的用户都能自动映射到外部单独的uid,可能实现这个确实比较麻烦(参考下面原理部分)

 

username space原理:

  1. User Namespace是Linux 3.8新增的一种namespace
  2. clone系统调用CLONE_NEWUSER
  3. /proc/$pid/uid_map  (对于支持user namespace的内核,都存在该文件,不明确设置就为空)
  4. 当我们通过CLONE_NEWUSER去clone一个进程(或线程)的话,进程的后续行为都会参考 /proc/$pid/uid_map 来决定用户的身份,那么该uid_map 文件必然要在clone之后才能写入了;为了避免我们clone出来的那个进程很快执行到用户代码而实现提权,则往往在clone后执行的是可控的代码,在准备工作完成后在execv()去执行用户的进程(注意: execv并不改变进程号,或者说不产生新的进程,而是在当前进程空间来执行用户的代码),用户代码中很可能会继续clone,那么后续的clone如果没有CLONE_NEWUSER的话,能否参考到上面的/proc/$pid/uid_map 呢?或者说,只参考该pid namespace中init进程下面的uid_map ? (稍后继续研究)
  5. http://man7.org/linux/man-pages/man7/user_namespaces.7.html

看个例子:

 

实际问题:

在没有使用–userns-map的情况下,很多容器都使用相同的镜像(所以,相同用户名的uid基本都一样),每个容器都可以通过容器中的sshd进行登录,sshd登录后都会有相应的limits限制,以单个用户最大进程数量为例,一般来讲,root都是没有限制的,其他用户都是有限制的,对于mysql用户,通常会产生很多线程,从容器的角度来看,该用户名下的进程数量确实不多,甚至整个容器都没有几个进程,这时候,启动mysql时却是失败的;原因在于:

  1. 启动进程这事儿归根结底还是内核干的
  2. ulimit资源限制最终是从进程属性上生效的,而不是直接从配置文件上生效的
  3. 容器外部和容器内部看到的uid是相同的
  4. 其他容器已经在没有ulimit限制(或者配额足够)的情况下启动了很多mysql进程(或线程)了
  5. 最后,在ulimit限制比较小的情况下启动mysql进程(或线程)自然就会失败的
  6. 所以,从用户级别的资源限制方面来讲,容器之间的相互影响是比较难以控制的
  7. docker本来不是让作为虚拟机使用的,所以,类似问题是不会被docker官方在意(和觉察)的,docker中的–userns-map 仅仅考虑了通常情况下单个容器中只有单个(被docker-containerd启动)的进程的场景
  8. 解决办法: 给用户足够的资源
  9. 我们可以限制单个容器的进程数量:
    1. https://segmentfault.com/a/1190000007468509   https://www.kernel.org/doc/Documentation/cgroup-v1/pids.txt
    2. 通过docker create 的 –pids-limit 选项进行配置
  10. dockerd 启动选项 –default-ulimit 可以设置默认的ulimit
  11. 目前,我们生产环境使用的docker容器都是通过docker exec 启动进程的,docker exec 进去后,ulimit如下:

     

问题:

  1. 如何从容器级别限制进程数量?

参考资料:

 Posted by at 上午 10:52

关于容器oom

 docker  关于容器oom已关闭评论
9月 052017
 

缘起:

偶尔有同学反应容器很慢,查看容器状态发现内存没用完了;问题是,oom命名是开启的,为什么不杀进程呢?

其实,我忽略了一个问题,为了不必要的内存浪费,我给每个容器都配备了相当多的swap,oom是发生在连swap都被用完的情况下的;上面的情况是:内存用完了,但是swap还足够,开始大量使用swap,于是乎,反应就很慢;不仅如此,swap引发的设备IO,是不受单个容器的IO配额限制的,在没有控制的情况下疯狂使用swap会导致其他容器也会变慢

结论:

容器之间的资源隔离是相对的,总是会有某些情况下,容器之间会相互影响的;有些场景下,这些问题都无所谓,有些情况下就是致命的

 Posted by at 上午 10:40

docker & cache

 docker  docker & cache已关闭评论
8月 052017
 

缘起:

dubbo-monitor容器swap使用率超过 20% ,而且在不断上升,为什么呢?

 

下面是容器dubbo-monitor在drop-caches前后的对比:

 

drop-cache后,容器的swap使用率没有变化

 

结论:

  1. docker stats 显示的内存使用是包含cache的
  2. 该容器的部分cache信息会被swap出内存
    1. cache和swap之间存在一些不默契;cache认为内存够多,还可以cache更多信息;swap机制为,经内存充裕,只要是不常被访问的内存数据,尽量swap出来; 于是乎,就形成了一个恶性循环,导致swap占用越来越大
    2. 解决办法: 定期drop一下cache
  3. 系统不会傻到把cache内容换出到swap中的,swap确实为进程使用的(虚拟)内存的一部分
  4. 一个允许最大使用2g内存的java进程,swap出来500m或1g不足为奇,如果给他的swap大小为2g的话,占用50%的swap都有可能
 Posted by at 下午 2:47

docker swarm 模式下证书过期后daemon无法启动

 docker  docker swarm 模式下证书过期后daemon无法启动已关闭评论
7月 212017
 

报错信息:

相关文章: https://github.com/moby/moby/issues/24132

解决办法:  把 Docker Root Dir (通过docker info查看)下的swarm目录删掉就好了

 

 Posted by at 下午 4:44

关于nsenter

 docker  关于nsenter已关闭评论
5月 292017
 

从 help 来看,只要使用了 -p 选项,就可以进入目标进程的pid名字空间,换言之,就可以只看到目标进程所在的名字空间的进程,用法如下:

事实上,

看到的却是nsenter当前所在名字空间(严格来讲,这样描述也不太准确)的所有进程,为什么呢?

因为top参考的是 /proc 文件系统,所以,进入相应的mount空间也很重要,所以,正确的写法为:

 Posted by at 上午 3:25