前言:
Swarm 是使用Docker 引擎内置的集群管理和编排工具。Swarm集群的框架与Hadoop集群或其他分布式系统类似,它也是由节点构成,每一个节点就是一台主机或者虚拟机。工作的机制也是主从模式(master/slaver),节点分为两种,一种是负责管理的Manager另一种是具体干活的Worker。
在使用 docker swarm 之前,先准备两台机器(虚拟机就行)
ip规划:
Manager: 10.6.1.147
Worker01: 10.6.1.188
1 、manager节点初始化swarm
docker swarm init --advertise-addr 10.6.1.147
输出:
2 、运行docker info以查看管理节点的当前状态:
root@ip-10-6-1-147:/home/ubuntu# docker info
Client:
Version: 24.0.5
Context: default
Debug Mode: false
Server:
Containers: 0
Running: 0
Paused: 0
Stopped: 0
Images: 0
Server Version: 24.0.5
Storage Driver: overlay2
Backing Filesystem: extfs
Supports d_type: true
Using metacopy: false
Native Overlay Diff: true
userxattr: false
Logging Driver: json-file
Cgroup Driver: systemd
Cgroup Version: 2
Plugins:
Volume: local
Network: bridge host ipvlan macvlan null overlay
Log: awslogs fluentd gcplogs gelf journald json-file local logentries splunk syslog
Swarm: active
NodeID: tqjh95zzihdofa61fo95pregw
Is Manager: true
ClusterID: tfbbeeimwopx6ctp47n2e02b6
Managers: 1
Nodes: 2
Default Address Pool: 10.0.0.0/8
SubnetSize: 24
Data Path Port: 4789
Orchestration:
Task History Retention Limit: 5
Raft:
Snapshot Interval: 10000
Number of Old Snapshots to Retain: 0
Heartbeat Tick: 1
Election Tick: 10
Dispatcher:
Heartbeat Period: 5 seconds
CA Configuration:
Expiry Duration: 3 months
Force Rotate: 0
Autolock Managers: false
Root Rotation In Progress: false
Node Address: 10.6.1.147
Manager Addresses:
10.6.1.147:2377
Runtimes: runc io.containerd.runc.v2
Default Runtime: runc
Init Binary: docker-init
containerd version:
runc version:
init version:
Security Options:
apparmor
seccomp
Profile: builtin
cgroupns
Kernel Version: 6.2.0-1017-aws
Operating System: Ubuntu 22.04.3 LTS
OSType: linux
Architecture: x86_64
CPUs: 2
Total Memory: 3.757GiB
Name: ip-10-6-1-147
ID: 7ef3d280-fba4-4203-81bf-46219f7c849f
Docker Root Dir: /var/lib/docker
Debug Mode: false
Experimental: false
Insecure Registries:
127.0.0.0/8
Live Restore Enabled: false
3 、查看节点状态
将节点添加到swarm集群中
root@ip-10-6-1-188:/home/ubuntu# docker swarm join --token SWMTKN-1-472x49yvhbzgz7b4zvbfuoyijzw9v2khgclmcixtay1hujfe5k-8d4icqimzoepw4jru9wqz6y2e 10.6.1.147:2377
This node joined a swarm as a worker.
如果忘记了命令, 则可以在 manager 节点执行以下命令来查看相关命令:
root@ip-10-6-1-147:/home/ubuntu# docker swarm join-token worker
To add a worker to this swarm, run the following command:
docker swarm join --token SWMTKN-1-472x49yvhbzgz7b4zvbfuoyijzw9v2khgclmcixtay1hujfe5k-8d4icqimzoepw4jru9wqz6y2e 10.6.1.147:2377
最后在manager节点运行的机器,并运行docker node ls命令以查看工作节点:
4.将服务部署到swarm中
创建蜂群后,可以将服务部署到蜂群中。但这不是部署服务的要求。
1.后面的操作都需要在manager的管理机器上操作了。
2.运行以下命令:
docker service create --replicas 1 --name helloworld alpine ping docker.com
docker service create --replicas 1 --name helloworl alpine ping docker.com
- docker service create命令创建服务。
- –name标志为helloworld服务命名。
- –replicas标志指定了1个运行实例的所需状态。
- 参数alpine ping docker.com将服务定义为执行命令ping docker.com的Alpine Linux容器。
4-1.运行docker service ls以查看正在运行的服务列表:
检查集群上的服务
执行以下命令查看服务的详细信息
docker service inspect --pretty helloworld
4-2.查看服务具体运行在那个节点,我们可以执行以下命令查看:helloworld 为我们要查看的服务名称
docker service ps helloworld
从上图中我们可一看到 服务 helloworld 容器有5个运行在节点 master 和node1 的节点中.
5.扩大集群中服务部署的规模
一旦将服务部署到群中,就可以使用Docker CLI来扩展服务中的容器数量。在服务中运行的容器被称为“任务”。
将 helloworld 服务扩展为 5 个
docker service scale helloworld=5
5-1.执行完成后我们查看服务具体运行在那个节点
docker service ps helloworld
可以看到,swarm 创建了 5 个新的任务,并扩展了总共 5 个的 docker 容器实例, 并分布在不同的节点上。
6.删除集群上运行的服务
如果我们部署的服务不需要了, 那么我们可以从集群中删除对应的服务。
6-1.运行docker service rm helloworld以删除helloworld服务。
执行玩命令后我们在执行 docker service ls 查看服务,服务已经被我们删除了。
6-2.我们可以执行命令 docker service inspect helloworld 来查看服务的信息
从图中执行的命令可以看出服务已经彻底被删除了。
6-3.当删除服务的命令执行完成后,任务容器也需要几秒钟才能清理完成,我们可以在节点上执行 docker ps 查看容器是否存在。
7.服务的滚动更新
在工作中我们需要经常的将我们的应用程序的新版本更新,以替换原有的老的版本的应用程序。在 Docker 的 swarm 中我们如何实现应用程序的滚动更新呢?
7-1.比如我们需要部署新的一个 redis 服务到我们的swarm服务集群中。 并以10秒的更新延迟配置swarm。为了更直观的操作, 我们先部署一个较老版本的redis:6.0-alpine 服务,执行以下命令部署:
docker service create --replicas 3 --name redis --update-delay 10s redis:6.0-alpine
我们看到服务已经部署成功了。我们执行 docker service ls 结果显示已经将服务发布在所有的节点上了。
root@ip-10-6-1-147:/home/ubuntu# docker service ls
ID NAME MODE REPLICAS IMAGE PORTS
n6gvi192nmno redis replicated 3/3 redis:6.0-alpine
使用参数说明:
- –replicas : 表示我们部署的服务数量是几个,–replicas 3 表示部署 3 个
- –update-delay : 表示任务更新的时间延迟,我们可以将时间设置为 Ts,Tm,,Th,比如:5m10s 表示延迟 5 分钟 10 秒。
- –update-parallelism 表示在更新时候的最大任务数量, 默认情况下调度程序一次只更新一个任务。
默认情况下,当单个任务的更新返回RUNNING状态时,调度程序会安排另一个任务进行更新,直到所有任务更新。如果在更新期间的任何时候任务返回FAILED,调度程序将暂停更新。我们可以使用docker service create或docker service update的–update-failure-action标志来控制行为。
7-2.我们查看部署的 redis 服务情况:
docker service inspect --pretty redis
7-3.现在将已经部署好的 redis 服务更新到一个较新的版本 redis:6.0.20-alpine,管理器根据UpdateConfig策略将更新应用于节点:
执行更新命令:docker service update --image redis:6.0.20-alpine redis
root@ip-10-6-1-147:/home/ubuntu# docker service update --image redis:6.0.20-alpine redis
redis
overall progress: 3 out of 3 tasks
1/3: running [==================================================>]
2/3: running [==================================================>]
3/3: running [==================================================>]
verify: Service converged
再查看下服务详细信息:
image 已经变成了 redis:6.0.20-alpine , 已经更新成功.
我们在节点查看容器信息:
同样,容器的镜像已经变成了 redis:6.0.20-alpine
调度程序更新说明:
- 停止第一个任务。
- 为停止的任务安排更新。
- 启动更新任务的容器。
- 如果任务的更新返回RUNNING,请等待指定的延迟期,然后开始下一个任务。
- 如果在更新期间的任何时候,任务返回FAILED,请暂停更新。
7-4. 如果我们需要重启服务,可以执行重启服务的命令:
docker service update redis
root@ip-10-6-1-147:/home/ubuntu# docker service update redis
redis
overall progress: 3 out of 3 tasks
1/3: running [==================================================>]
2/3: running [==================================================>]
3/3: running [==================================================>]
verify: Service converged
7-5.查看更新的信息:docker service ps redis
8.停止Swarm集群上的一个节点
目前我们所有的节点都 ACTIVE 的状态运行的,master可以将任务分配给任何节点,所以所有的节点都可以接收到任务。
很多时候我们需要维护应用的时候,您需要将节点设置为DRAIN可用性。DRAIN状态的节点Maser 阻止此类型的节点接收新任务。这也意味着停止在节点上运行的任务,并在具有ACTIVE可用性的节点上启动副本任务。
注意: 将节点设置为DRAIN不会从该节点中删除独立容器,例如使用docker run、docker-compose up或Docker Engine API创建的容器。节点的状态,包括DRAIN,只影响节点调度群服务工作负载的能力。
8-1.我们在 master 节点的机器上查看集群中节点的可用性:
查看任务分配的信息:
8-2.运行docker node update --availability drain NODE-ID以耗尽已分配任务的节点:
从图中看到node2 的节点状态已经是 Drain 并且分配在 node2 上的服务状态已经是 Shutdown
管理器通过在具有 drain 状态的节点上结束任务,并在Active 状态的节点上创建新的任务来保持所需要的状态。
8-3.启用节点的可用性
docker node update --availability active node2
如图所示, 节点 Node2 的状态 已经更新为 Active。
当节点设置回Active可用性时,它可以接收新任务:
- 在服务更新期间进行扩展
- 在滚动更新期间
- 将另一个节点设置为Drain可用性时
- 当任务在另一个活动节点上失败时
9.使用swarm模式路由网格
Docker Engine集群模式可以轻松发布服务端口,以使其可用于集群之外的资源。所有节点都参与入口路由网格。路由网格使群中的每个节点能够接受群中运行的任何服务在已发布端口上的连接,即使节点上没有运行的任务。路由网格将所有传入的请求路由到可用节点上的已发布端口到活动容器。
要在集群中使用网络,在启用群模式之前,我们需要在群节点之间打开以下端口:
Port 7946 TCP/UDP for container network discovery.
Port 4789 UDP (configurable) for the container ingress network.
在swarm中建立网络时,应特别小心。
我们还必须在集群的节点和任何需要访问端口的外部资源(如外部负载平衡器)之间打开已发布的端口。
10.发布服务端口
创建服务时,使用–publish标识指定要对外发布端口。target用于指定容器内的端口,而published用于指定在路由网格上绑定的端口。如果没有配置published端口,则每个服务任务都会绑定一个随机的高编号端口。
root@ip-10-6-1-147:/home/ubuntu# docker service create --replicas 3 --name redis --publish published=63790,target=6379 --update-delay 5s redis:6.0.20-alpine
fkhch5lgy5cgvbcr5u8sltbkx
overall progress: 3 out of 3 tasks
1/3: running [==================================================>]
2/3: running [==================================================>]
3/3: running [==================================================>]
verify: Service converged
root@ip-10-6-1-147:/home/ubuntu# docker service ls
ID NAME MODE REPLICAS IMAGE PORTS
fkhch5lgy5cg redis replicated 3/3 redis:6.0.20-alpine *:63790->6379/tcp
如图我们已经看到了端口为 *:63790->6379/tcp
PUBLISHED-PORT是swarm提供服务的端口。如果省略它,将绑定一个随机的高编号端口。CONTAINER-PORT是容器侦听的端口。此参数是必需的。
例如,以下命令将nginx容器中的端口80发布到群中任何节点的端口8080:
docker service create \
--name web \
--publish published=8080,target=80 \
--replicas 5 \
nginx
当访问任何节点上的端口8080时,Docker会将请求路由到活动容器。在群节点本身上,端口8080实际上可能没有绑定,但路由网格知道如何路由流量并防止任何端口冲突的发生。
路由网格在已发布的端口上监听分配给节点的任何IP地址。对于外部可路由的IP地址,该端口可从主机外部获得。对于所有其他IP地址,只能从主机内部访问。
部署完成后我们在宿主机上面访问对应的地址和端口:
如果所示,服务正常访问。并且我们访问部署了的服务节点都可以访问到 nginx 服务。
同样对于已经部署的 service,我们也可以重新给他发布端口:
docker service update \
--publish-add published=<PUBLISHED-PORT>,target=<CONTAINER-PORT> \
<SERVICE>
可以使用docker service inspect来查看服务的已发布端口。例如:
docker service inspect --format="{{json .Endpoint.Spec.Ports}}" web
[{"Protocol":"tcp","TargetPort":80,"PublishedPort":8080}]
使用上面的命令我们查看部署的 nginx web 服务:
root@master:~# docker service inspect --format="{{json .Endpoint.Spec.Ports}}" web
[{"Protocol":"tcp","TargetPort":80,"PublishedPort":8080,"PublishMode":"ingress"}]
仅为TCP或仅UDP发布端口
默认情况下,当您发布端口时,它是一个TCP端口。您可以专门发布UDP端口,而不是或除了TCP端口。当您同时发布TCP和UDP端口时,如果您省略协议说明符,该端口将作为TCP端口发布。如果您使用较长的语法(推荐),请将protocol密钥设置为tcp或udp。
仅限TCP
长语法:
docker service create --name dns-cache \
--publish published=53,target=53 \
dns-cache
简短的语法:
docker service create --name dns-cache \
-p 53:53 \
dns-cache
仅限UDP
长语法:
docker service create --name dns-cache \
--publish published=53,target=53,protocol=udp \
dns-cache
简短的语法:
docker service create --name dns-cache \
-p 53:53/udp \
dns-cache
绕过路由网格
我们可以绕过路由网格,这样当访问给定节点上的绑定端口时,我们总是访问该节点上运行的服务实例。这被称为host模式。这种情况下需要注意:
- 如果访问未运行服务任务的节点,则该服务不会监听该端口。有可能什么都没有,或者访问到了一个完全不同的应用程序。
- 如果希望在每个节点上运行多个服务任务(例如,当您有5个节点但运行10个副本时),则无法指定静态目标端口。要么允许Docker分配一个随机的高编号端口(通过关闭published端口),要么通过使用全局服务而不是复制服务,或使用放置约束,确保服务仅在给定节点上运行。
要绕过路由网格,必须使用长–publish服务并将mode设置为host。如果省略mode或将其设置为ingress,则使用路由网格。以下命令使用host模式并绕过路由网格创建全局服务。
docker service create --name dns-cache \
--publish published=53,target=53,protocol=udp,mode=host \
--mode global \
dns-cache
配置外部负载均衡器
我们可以为集群服务配置外部负载平衡器(例如AWS的ALB,NLB的负载均衡器),要么与路由网格结合使用,要么根本不使用路由网格。
评论区