K8s1.20 二进制部署&高可用扩容

MrZ • 2024-03-06 • 云原生, 默认分类 • 80 阅读

1 1 环境说明
- 1.1 1.1 主机规划
- 1.2 1.2 IP规划
2 2 部署流程一 : 3 节点master集群部署
3 3 部署流程二:扩容Worker Nodes节点
- 3.1 3.1 新增Worker Node
- 3.2 3.2 部署CoreDNS
4 4 部署流程三:扩容多Master节点（高可用）
- 4.1 4.1 部署master02
- 4.2 4.2 部署master03
5 5 部署流程四:API-Server高可用
- 5.1 5.1 部署Nginx+Keepalived高可用负载均衡器
  - 5.1.1 Nginx配置文件（3台配置一样）
- 5.2 5.2 修改所有Worker Node连接LB VIP
6 6 生命周期之work node扩容节点脚本（暂未更新）

20230410 创建

20230412 修订：更新了部分images版本兼容问题，增加了重启主机测试cs的步骤，优化了部分sed指令

20230412 修订：修正了keepalived vip地址，修复ha dial tcp失败问题

20230609 修订：删除了nginx conf 80口暴露配置以免nginx ingress controller 配置冲突

20230609 修订: 优化ssh免密脚本，节点改造为3master 5worker，lvs复用master节点

20230619 修订: 优化image离线批量导入，所有节点需要离线导入image

1 环境说明

1.1 主机规划

3主5从，其中master与etcd复用

主机IP	OS	主机名	角色
10.168.1.101	OracleLinux7.9	k8s-master01	kube-apiserver，kube-controller-manager，kube-scheduler，kubelet，kube-proxy，docker，nginx，keepalived，etcd
10.168.1.102	OracleLinux7.9	k8s-master02	kube-apiserver，kube-controller-manager，kube-scheduler，kubelet，kube-proxy，docker，nginx，keepalived，etcd
10.168.1.103	OracleLinux7.9	k8s-master03	kube-apiserver，kube-controller-manager，kube-scheduler，kubelet，kube-proxy，docker，nginx，keepalived，etcd
10.168.1.111	OracleLinux7.9	k8s-node01	kubelet，kube-proxy，docker
10.168.1.112	OracleLinux7.9	k8s-node02	kubelet，kube-proxy，docker
10.168.1.113	OracleLinux7.9	k8s-node03	kubelet，kube-proxy，docker
10.168.1.114	OracleLinux7.9	k8s-node04	kubelet，kube-proxy，docker
10.168.1.115	OracleLinux7.9	k8s-node05	kubelet，kube-proxy，docker
10.168.1.110	OracleLinux7.9	k8s-master-lb	Nginx+Keepalived 不占硬件资源，在3台master上

1.2 IP规划

网络地址范围	角色	说明
10.96.0.0/16	pod 网段	kube-controller-manager中的--cluster-cidr字段
10.244.0.0/16	service 网段	后面搭建apiserver、kube-controller-manager的时候定义
10.244.0.1	ubernetes ClusterIP	集群service的第一个IP，自动分配
10.244.0.2	kube-dns ClusterIP	部署CoreDNS的时候需要把coredns.yaml中clusterIP字段修改成10.244.0.2
3000-32768	service pods ip	pods IP地址的nodeport可用端口范围

部署之前先将deploy.zip的deploy文件夹上传到/opt/下，其中/root/k8s/deploy是tls生成目录，真实应用和ssl都在/opt目录下

2 部署流程一 : 3 节点master集群部署

2.1 master规划

k8s-master01      10.168.1.101     kube-apiserver，kube-controller-manager，kube-scheduler，etcd
k8s-master02      10.168.1.102     kube-apiserver，kube-controller-manager，kube-scheduler，etcd
k8s-master03      10.168.1.103     kube-apiserver，kube-controller-manager，kube-scheduler，etcd

2.2 修改hosts

修改主机名：

hostnamectl set-hostname k8s-master01 && bash  # master01执行
hostnamectl set-hostname k8s-master02 && bash # master02执行
hostnamectl set-hostname k8s-master03 && bash # master03执行
hostnamectl set-hostname k8s-node01  && bash  # node01执行
hostnamectl set-hostname k8s-node02  && bash  # node02执行
hostnamectl set-hostname k8s-node03  && bash  # node03执行
hostnamectl set-hostname k8s-node04  && bash  # node04执行
hostnamectl set-hostname k8s-node05  && bash  # node05执行

添加hosts（所有节点）:

cat >>  /etc/hosts << EOF
10.168.1.101 k8s-master01
10.168.1.102 k8s-master02
10.168.1.103 k8s-master03
10.168.1.110 k8s-master-lb
10.168.1.111 k8s-node01
10.168.1.112 k8s-node02
10.168.1.113 k8s-node03
10.168.1.114 k8s-node04
10.168.1.115 k8s-node05
EOF

2.3 OS优化

NTP

#如果是虚拟机同步主机时间则不需要配置
yum install ntp -y && ntpdate ntpdate ntp1.aliyun.com

systemctl stop firewalld && systemctl disable firewalld
sed -i 's/enforcing/disabled/' /etc/selinux/config
setenforce 0
sed -ri 's/.*swap.*/#&/' /etc/fstab
swapoff -a

开机加载br_netfilter:

modprobe br_netfilter       
cat > /etc/rc.sysinit << EOF
#!/bin/bash
for file in /etc/sysconfig/modules/*.modules ; do
[ -x $file ] && $file
done
EOF
cat > /etc/sysconfig/modules/br_netfilter.modules << EOF
modprobe br_netfilter
EOF
chmod 755 /etc/sysconfig/modules/br_netfilter.modules
lsmod |grep br_netfilter

将桥接的IPv4流量传递到iptables的链

cat > /etc/sysctl.d/k8s.conf << EOF 
net.bridge.bridge-nf-call-ip6tables = 1 
net.bridge.bridge-nf-call-iptables = 1 
EOF
cat >> /etc/sysctl.conf << EOF
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-arptables = 1
net.ipv4.ip_forward = 1
EOF
sysctl --system && sysctl -p

2.4 免密登录

master01上执行

ssh-keygen -t rsa   
for i in k8s-master01 k8s-master02 k8s-master03 k8s-node01 k8s-node02;do ssh-copy-id -i ~/.ssh/id_rsa.pub $i;done
或者
yum install -y sshpass
ssh-keygen -t rsa 
export IP="k8s-master01 k8s-master02 k8s-master03 k8s-node01 k8s-node02 k8s-node03 k8s-node04 k8s-node05"
export SSHPASS=******
for HOST in $IP;do
     sshpass -e ssh-copy-id -o StrictHostKeyChecking=no $HOST
done

2.5 部署ETCD集群

Etcd 是一个分布式键值存储系统，Kubernetes使用Etcd进行数据存储，所以先准备一个Etcd数据库，为解决Etcd单点故障，应采用集群方式部署，这里使用3台组建集群，可容忍1台机器故障，当然，你也可以使用5台组建集群，可容忍2台机器故障。

ETCD数量通常为奇数个

etcd-01	10.168.1.101	k8s-master01
etcd-02	10.168.1.102	k8s-master02
etcd-03	10.168.1.103	k8s-master03

注：为了节省机器，这里与K8s节点机器复用。也可以独立于k8s集群之外部署，只要apiserver能连接到就行。

2.5.1 安装cfssl

cd /opt/deploy/tls/cfssl
chmod +x cfssl_linux-amd64 cfssljson_linux-amd64 cfssl-certinfo_linux-amd64
cp cfssl_linux-amd64 /usr/local/bin/cfssl
cp cfssljson_linux-amd64 /usr/local/bin/cfssljson
cp cfssl-certinfo_linux-amd64 /usr/local/bin/cfssl-certinfo

2.5.2 etcd ssl

mkdir -p /root/k8s/deploy/tls/{etcd,k8s} && cd /root/k8s/deploy/tls/etcd

自签CA

cat > ca-config.json << EOF
{
  "signing": {
    "default": {
      "expiry": "87600h"
    },
    "profiles": {
      "www": {
         "expiry": "87600h",
         "usages": [
            "signing",
            "key encipherment",
            "server auth",
            "client auth"
        ]
      }
    }
  }
}
EOF
cat > ca-csr.json << EOF
{
    "CN": "etcd CA",
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
        {
            "C": "CN",
            "L": "SuZou",
            "ST": "SuZou"
        }
    ]
}
EOF

生成证书：会生成ca.pem和ca-key.pem文件

cfssl gencert -initca ca-csr.json | cfssljson -bare ca -

2.5.3 etcd https ssl

cd /root/k8s/deploy/tls/etcd
cat > server-csr.json << EOF
{
    "CN": "etcd",
    "hosts": [
    "10.168.1.100",
    "10.168.1.101",
    "10.168.1.102",
    "10.168.1.103",
    "10.168.1.104",
    "10.168.1.105",
    "10.168.1.106",
    "10.168.1.107",
    "10.168.1.108",
    "10.168.1.109",
    "10.168.1.110",
    "10.168.1.111",
    "10.168.1.112",
    "10.168.1.113",
    "10.168.1.114",
    "10.168.1.115",
    "10.168.1.116",
    "10.168.1.117",
    "10.168.1.118",
    "10.168.1.119",
    "10.168.1.120"
    ],
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
        {
            "C": "CN",
            "L": "SuZou",
            "ST": "SuZou"
        }
    ]
}
EOF

注：上述文件hosts字段中IP为所有etcd节点的集群内部通信IP，一个都不能少！为了方便后期扩容可以多写几个预留的IP，我把另外两台master节点也加了进去，后面做扩展用。

生成证书，会生成server.pem和server-key.pem文件

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=www server-csr.json | cfssljson -bare server

2.5.4 etcd集群应用部署

master01操作

创建工作目录

cd /opt/deploy/package
mkdir -p /data/etcd/{bin,cfg,ssl}
tar -zxvf etcd-v3.4.9-linux-amd64.tar.gz
mv etcd-v3.4.9-linux-amd64/{etcd,etcdctl} /data/etcd/bin/

创建etcd配置文件

cat > /data/etcd/cfg/etcd.conf << EOF
#[Member]
ETCD_NAME="etcd-01"
ETCD_DATA_DIR="/var/lib/etcd/default.etcd"
ETCD_LISTEN_PEER_URLS="https://10.168.1.101:2380"
ETCD_LISTEN_CLIENT_URLS="https://10.168.1.101:2379"

#[Clustering]
ETCD_INITIAL_ADVERTISE_PEER_URLS="https://10.168.1.101:2380"
ETCD_ADVERTISE_CLIENT_URLS="https://10.168.1.101:2379"
ETCD_INITIAL_CLUSTER="etcd-01=https://10.168.1.101:2380,etcd-02=https://10.168.1.102:2380,etcd-03=https://10.168.1.103:2380"
ETCD_INITIAL_CLUSTER_TOKEN="etcd-cluster"
ETCD_INITIAL_CLUSTER_STATE="new"
EOF

配置文件说明：

ETCD_NAME：节点名称，集群中唯一 
ETCD_DATA_DIR：数据目录 
ETCD_LISTEN_PEER_URLS：集群通信监听地址 
ETCD_LISTEN_CLIENT_URLS：客户端访问监听地址 
ETCD_INITIAL_ADVERTISE_PEERURLS：集群通告地址 
ETCD_ADVERTISE_CLIENT_URLS：客户端通告地址 
ETCD_INITIAL_CLUSTER：集群节点地址 
ETCD_INITIALCLUSTER_TOKEN：集群Token 
ETCD_INITIALCLUSTER_STATE：加入集群的当前状态，new是新集群，existing表示加入已有集群

systemd管理etcd

cat > /usr/lib/systemd/system/etcd.service << EOF
[Unit]
Description=Etcd Server
After=network.target
After=network-online.target
Wants=network-online.target
[Service]
Type=notify
EnvironmentFile=/data/etcd/cfg/etcd.conf
ExecStart=/data/etcd/bin/etcd \
--cert-file=/data/etcd/ssl/server.pem \
--key-file=/data/etcd/ssl/server-key.pem \
--peer-cert-file=/data/etcd/ssl/server.pem \
--peer-key-file=/data/etcd/ssl/server-key.pem \
--trusted-ca-file=/data/etcd/ssl/ca.pem \
--peer-trusted-ca-file=/data/etcd/ssl/ca.pem \
--logger=zap
Restart=on-failure
LimitNOFILE=65536
[Install]
WantedBy=multi-user.target
EOF

拷贝生成的证书至指定位置

cp /root/k8s/deploy/tls/etcd/ca*pem /root/k8s/deploy/tls/etcd/server*pem /data/etcd/ssl/

启动并设置开机启动

systemctl daemon-reload && systemctl start etcd && systemctl enable etcd && systemctl status etcd

注意：此时启动一台etcd会显示hang住，没有处于Running状态，暂时忽略，是因为其他两个节点并没有启动，可以查看日志/var/log/messages

将上面mster节点1所有生成的文件拷贝到master节点2和master节点3 (在此)

ssh  k8s-master02 "mkdir  /data"
scp -r /data/etcd/ k8s-master02:/data/
scp /usr/lib/systemd/system/etcd.service k8s-master02:/usr/lib/systemd/system/

ssh  k8s-master03 "mkdir  /data"
scp -r /data/etcd/ k8s-master03:/data/
scp /usr/lib/systemd/system/etcd.service k8s-master03:/usr/lib/systemd/system/

在master01、master02节点上分别修改 /data/etcd/cfg/etcd.conf 配置文件中的节点名称和当前服务器IP

修改字段：

vim /data/etcd/cfg/etcd.conf        # master01、master02节点操作
ETCD_NAME                           # 修改此处，节点2改为etcd-02，节点3改为etcd-03
ETCD_LISTEN_PEER_URL                # 修改此处为当前服务器IP
ETCD_LISTEN_CLIENT_URLS             # 修改此处为当前服务器IP
ETCD_INITIAL_ADVERTISE_PEER_URLS    # 修改此处为当前服务器IP
ETCD_ADVERTISE_CLIENT_URLS          # 修改此处为当前服务器IP

启动etcd并设置开机启动

在master02和master03节点上操作

systemctl daemon-reload && systemctl start etcd && systemctl enable etcd && systemctl status etcd

再把master01上的etcd-1重启下：

systemctl daemon-reload && systemctl restart etcd && systemctl status etcd

注意etcd的启动顺序是 主1 主2 主3  再重置主1 如果由于配置问题导致主1没起来，可以停止3节点的etcd服务删除所有数据目录再重启，如果已经有数据则可以修改集群状态值来处理数据同步问题。

查看集群状态V3版本

master01操作

ETCDCTL_API=3 /data/etcd/bin/etcdctl --cacert=/data/etcd/ssl/ca.pem --cert=/data/etcd/ssl/server.pem --key=/data/etcd/ssl/server-key.pem --endpoints="https://10.168.1.101:2379,https://10.168.1.102:2379,https://10.168.1.103:2379" endpoint health --write-out=table

+---------------------------+--------+-------------+-------+
|         ENDPOINT          | HEALTH |    TOOK     | ERROR |
+---------------------------+--------+-------------+-------+
| https://10.168.1.101:2379 |   true | 10.503607ms |       |
| https://10.168.1.103:2379 |   true | 10.851736ms |       |
| https://10.168.1.102:2379 |   true | 10.801035ms |       |
+---------------------------+--------+-------------+-------+

2.6 部署docker ce

所有节点,建议部署19版本以后

yum install -y yum-utils device-mapper-persistent-data lvm2
yum install docker-ce -y
cat >> /etc/docker/daemon.json  << EOF  
{
      "insecure-registries":["lzyum.luxsan-ict.com"],
      "bip":"192.168.252.1/24",
      "debug":true,
      "log-opts": {"max-size":"50m", "max-file":"3"},
      "default-address-pools":[
      {
              "base":"192.168.240.0/20",
              "size":24
      }
      ]
}
EOF
systemctl daemon-reload && systemctl restart docker &&  systemctl enable docker   && \
systemctl status docker

2.7 部署Master集群(在此)

2.7.1 ssl布局

在master01上操作

自签证书签发机构（CA）

cd /root/k8s/deploy/tls/k8s
cat > ca-config.json << EOF
{
  "signing": {
    "default": {
      "expiry": "87600h"
    },
    "profiles": {
      "kubernetes": {
         "expiry": "87600h",
         "usages": [
            "signing",
            "key encipherment",
            "server auth",
            "client auth"
        ]
      }
    }
  }
}
EOF
cat > ca-csr.json << EOF
{
    "CN": "kubernetes",
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
        {
            "C": "CN",
            "L": "SuZou",
            "ST": "SuZou",
            "O": "k8s",
            "OU": "System"
        }
    ]
}
EOF

生成证书：生成ca.pem和ca-key.pem文件

cfssl gencert -initca ca-csr.json | cfssljson -bare ca -

使用自签CA签发kube-apiserver HTTPS证书

创建证书请求文件

cat > server-csr.json << EOF
{
    "CN": "kubernetes",
    "hosts": [
      "10.244.0.1",
      "127.0.0.1",
      "10.168.1.100",
      "10.168.1.101",
      "10.168.1.102",
      "10.168.1.103",
      "10.168.1.104",
      "10.168.1.105",
      "10.168.1.106",
      "10.168.1.107",
      "10.168.1.108",
      "10.168.1.109",
      "10.168.1.110",
      "10.168.1.111",
      "10.168.1.112",
      "10.168.1.113",
      "10.168.1.114",
      "10.168.1.115",
      "10.168.1.116",
      "10.168.1.117",
      "10.168.1.118",
      "10.168.1.119",
      "10.168.1.120",
      "kubernetes",
      "kubernetes.default",
      "kubernetes.default.svc",
      "kubernetes.default.svc.cluster",
      "kubernetes.default.svc.cluster.local"
    ],
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
        {
            "C": "CN",
            "L": "SuZou",
            "ST": "SuZou",
            "O": "k8s",
            "OU": "System"
        }
    ]
}
EOF

注意：上述文件hosts字段中IP为所有Master/LB/VIP IP，一个都不能少！为了方便后期扩容可以多写几个预留的IP。

注：如果 hosts 字段不为空则需要指定授权使用该证书的 IP 或域名列表。由于该证书后续被 kubernetes master 集群使用，需要将master节点的IP都填上，同时还需要填写 service 网络的首个IP。(一般是 kube-apiserver 指定的 service-cluster-ip-range 网段的第一个IP，如 10.244.0.1)

      "10.244.0.1",   #servicer IP
      "127.0.0.1",
      "10.168.1.101", #master01
      "10.168.102",   #master02，预留
      "10.168.103",   #master03，预留
      "10.42.221.136",    #vip
      "10.42.221.137",    #预留
      "10.42.221.138",    #预留
      "10.42.221.139",    #预留
      "10.168.110"        #预留

生成证书，生成server.pem和server-key.pem

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes server-csr.json | cfssljson -bare server

2.7.2 部署api-server （V1.20.15）

创建工作空间

cd /opt/deploy/package
mkdir -p /data/kubernetes/{bin,cfg,ssl,logs} && \
tar -zxvf kubernetes-server-linux-amd64.tar.gz && \
cd kubernetes/server/bin && \
cp kube-apiserver kube-scheduler kube-controller-manager kubectl /data/kubernetes/bin && \
cp kubectl /usr/bin/

创建配置文件

注意修改etcd-server IP、apiserver IP、service IP段

cat > /data/kubernetes/cfg/kube-apiserver.conf << EOF
KUBE_APISERVER_OPTS="--logtostderr=false \\
--v=2 \\
--log-dir=/data/kubernetes/logs \\
--etcd-servers=https://10.168.1.101:2379,https://10.168.1.102:2379,https://10.168.1.103:2379 \\
--bind-address=10.168.1.101 \\
--secure-port=6443 \\
--advertise-address=10.168.1.101 \\
--allow-privileged=true \\
--service-cluster-ip-range=10.244.0.0/16 \\
--enable-admission-plugins=NamespaceLifecycle,LimitRanger,ServiceAccount,ResourceQuota,NodeRestriction \\
--authorization-mode=RBAC,Node \\
--enable-bootstrap-token-auth=true \\
--token-auth-file=/data/kubernetes/cfg/token.csv \\
--service-node-port-range=3000-32767 \\
--kubelet-client-certificate=/data/kubernetes/ssl/server.pem \\
--kubelet-client-key=/data/kubernetes/ssl/server-key.pem \\
--tls-cert-file=/data/kubernetes/ssl/server.pem  \\
--tls-private-key-file=/data/kubernetes/ssl/server-key.pem \\
--client-ca-file=/data/kubernetes/ssl/ca.pem \\
--service-account-key-file=/data/kubernetes/ssl/ca-key.pem \\
--service-account-issuer=api \\
--service-account-signing-key-file=/data/kubernetes/ssl/server-key.pem \\
--etcd-cafile=/data/etcd/ssl/ca.pem \\
--etcd-certfile=/data/etcd/ssl/server.pem \\
--etcd-keyfile=/data/etcd/ssl/server-key.pem \\
--requestheader-client-ca-file=/data/kubernetes/ssl/ca.pem \\
--proxy-client-cert-file=/data/kubernetes/ssl/server.pem \\
--proxy-client-key-file=/data/kubernetes/ssl/server-key.pem \\
--requestheader-allowed-names=kubernetes \\
--requestheader-extra-headers-prefix=X-Remote-Extra- \\
--requestheader-group-headers=X-Remote-Group \\
--requestheader-username-headers=X-Remote-User \\
--enable-aggregator-routing=true \\
--audit-log-maxage=30 \\
--audit-log-maxbackup=3 \\
--audit-log-maxsize=100 \\
--audit-log-path=/data/kubernetes/logs/k8s-audit.log"
EOF

注：上面两个\ \ 第一个是转义符，第二个是换行符，使用转义符是为了使用EOF保留换行符。

参数说明：

--logtostderr：启用日志

--v：日志等级

--log-dir：日志目录

--etcd-servers：etcd集群地址

--bind-address：监听地址

--secure-port：https安全端口

--advertise-address：集群通告地址

--allow-privileged：启用授权

--service-cluster-ip-range：Service虚拟IP地址段

--enable-admission-plugins：准入控制模块

--authorization-mode：认证授权，启用RBAC授权和节点自管理

--enable-bootstrap-token-auth：启用TLS bootstrap机制

--token-auth-file：bootstrap token文件

--service-node-port-range：Service nodeport类型默认分配端口范围

--kubelet-client-xxx：apiserver访问kubelet客户端证书

--tls-xxx-file：apiserver https证书

1.20版本必须加的参数：--service-account-issuer，--service-account-signing-key-file

--etcd-xxxfile：连接Etcd集群证书

--audit-log-xxx：审计日志

启动聚合层相关配置：--requestheader-client-ca-file，--proxy-client-cert-file，--proxy-client-key-file，--requestheader-allowed-names，--requestheader-extra-headers-prefix，--requestheader-group-headers，--requestheader-username-headers，--enable-aggregator-routing

拷贝生成的证书

cd /root/k8s/deploy/tls/k8s
cp /root/k8s/deploy/tls/k8s/ca*pem /root/k8s/deploy/tls/k8s/server*pem /data/kubernetes/ssl/

启用 TLS Bootstrapping 机制

TLS Bootstraping：Master apiserver启用TLS认证后，Node节点kubelet和kube-proxy要与kube-apiserver进行通信，必须使用CA签发的有效证书才可以，当Node节点很多时，这种客户端证书颁发需要大量工作，同样也会增加集群扩展复杂度。为了简化流程，Kubernetes引入了TLS bootstraping机制来自动颁发客户端证书，kubelet会以一个低权限用户自动向apiserver申请证书，kubelet的证书由apiserver动态签署。所以强烈建议在Node上使用这种方式，目前主要用于kubelet，kube-proxy还是由我们统一颁发一个证书。

创建token文件

格式：token，用户名，UID，用户组

生成token:

[root@k8s-master01 k8s]# head -c 16 /dev/urandom | od -An -t x | tr -d ' '
f766e563143dd013a2988279c1871831

cat > /data/kubernetes/cfg/token.csv << EOF
f766e563143dd013a2988279c1871831,kubelet-bootstrap,10001,"system:node-bootstrapper"
EOF

systemd管理apiserver

cat > /usr/lib/systemd/system/kube-apiserver.service << EOF
[Unit]
Description=Kubernetes API Server
Documentation=https://github.com/kubernetes/kubernetes
[Service]
EnvironmentFile=/data/kubernetes/cfg/kube-apiserver.conf
ExecStart=/data/kubernetes/bin/kube-apiserver \$KUBE_APISERVER_OPTS
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF

启动并设置开机启动

systemctl daemon-reload && \
systemctl start kube-apiserver && \
systemctl enable kube-apiserver && \
systemctl status kube-apiserver

测试

curl --insecure https://10.168.1.101:6443/

有返回说明启动正常,虽然此时是403但是表明api功能好的。

2.7.3 部署kube-controller-manager

在master01上操作

创建配置文件

cat > /data/kubernetes/cfg/kube-controller-manager.conf << EOF
KUBE_CONTROLLER_MANAGER_OPTS="--logtostderr=false \\
--v=2 \\
--log-dir=/data/kubernetes/logs \\
--leader-elect=true \\
--kubeconfig=/data/kubernetes/cfg/kube-controller-manager.kubeconfig \\
--bind-address=127.0.0.1 \\
--allocate-node-cidrs=true \\
--cluster-cidr=10.96.0.0/16 \\
--service-cluster-ip-range=10.244.0.0/16 \\
--cluster-signing-cert-file=/data/kubernetes/ssl/ca.pem \\
--cluster-signing-key-file=/data/kubernetes/ssl/ca-key.pem  \\
--root-ca-file=/data/kubernetes/ssl/ca.pem \\
--service-account-private-key-file=/data/kubernetes/ssl/ca-key.pem \\
--cluster-signing-duration=87600h0m0s"
EOF

释义：

--cluster-cidr  #pod IP段，掩码需要是16位
--service-cluster-ip-range  #service IP段
--kubeconfig：连接apiserver配置文件
--leader-elect：当该组件启动多个时，自动选举（HA）
--cluster-signing-cert-file/--cluster-signing-key-file：自动为kubelet颁发证书的CA，与apiserver保持一致

生成kubeconfig文件

生成kube-controller-manager证书：

cd /root/k8s/deploy/tls/k8s

创建证书请求文件：

cat > kube-controller-manager-csr.json << EOF
{
    "CN": "system:kube-controller-manager",
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "hosts": [
      "127.0.0.1",
      "10.168.1.100",
      "10.168.1.101",
      "10.168.1.102",
      "10.168.1.103",
      "10.168.1.104",
      "10.168.1.105",
      "10.168.1.106",
      "10.168.1.107",
      "10.168.1.108",
      "10.168.1.109",
      "10.168.1.110",
      "10.168.1.111",
      "10.168.1.112",
      "10.168.1.113",
      "10.168.1.114",
      "10.168.1.115",
      "10.168.1.116",
      "10.168.1.117",
      "10.168.1.118",
      "10.168.1.119",
      "10.168.1.120"
    ],
    "names": [
      {
        "C": "CN",
        "ST": "SuZou",
        "L": "SuZou",
        "O": "system:kube-controller-manager",
        "OU": "system"
      }
    ]
}
EOF

释义：

注：
hosts 列表包含所有 kube-controller-manager 节点 IP；我这里填写3台master的IP，另外的为预留IP

CN 为 system:kube-controller-manager、O 为 system:kube-controller-manager，kubernetes 内置的 ClusterRoleBindings system:kube-controller-manager 赋予 kube-controller-manager 工作所需的权限

生成证书：

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes kube-controller-manager-csr.json | cfssljson -bare kube-controller-manager

生成kubeconfig文件（以下是linux命令，直接全部复制到终端执行）：

cd /root/k8s/deploy/tls/k8s
KUBE_CONFIG="/data/kubernetes/cfg/kube-controller-manager.kubeconfig"
KUBE_APISERVER="https://10.168.1.101:6443"

kubectl config set-cluster kubernetes \
  --certificate-authority=/data/kubernetes/ssl/ca.pem \
  --embed-certs=true \
  --server=${KUBE_APISERVER} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-credentials kube-controller-manager \
  --client-certificate=./kube-controller-manager.pem \
  --client-key=./kube-controller-manager-key.pem \
  --embed-certs=true \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-context default \
  --cluster=kubernetes \
  --user=kube-controller-manager \
  --kubeconfig=${KUBE_CONFIG}
kubectl config use-context default --kubeconfig=${KUBE_CONFIG}

systemd管理controller-manager

cat > /usr/lib/systemd/system/kube-controller-manager.service << EOF
[Unit]
Description=Kubernetes Controller Manager
Documentation=https://github.com/kubernetes/kubernetes
[Service]
EnvironmentFile=/data/kubernetes/cfg/kube-controller-manager.conf
ExecStart=/data/kubernetes/bin/kube-controller-manager \$KUBE_CONTROLLER_MANAGER_OPTS
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload && \
systemctl start kube-controller-manager && \
systemctl enable kube-controller-manager && \
systemctl status kube-controller-manager

2.7.4 部署kube-scheduler和kubectl

master01

创建配置文件

cat > /data/kubernetes/cfg/kube-scheduler.conf << EOF
KUBE_SCHEDULER_OPTS="--logtostderr=false \\
--v=2 \\
--log-dir=/data/kubernetes/logs \\
--leader-elect \\
--kubeconfig=/data/kubernetes/cfg/kube-scheduler.kubeconfig \\
--bind-address=127.0.0.1"
EOF

释义：

--kubeconfig：连接apiserver配置文件
--leader-elect：当该组件启动多个时，自动选举（HA）

生成kubeconfig文件

生成kube-scheduler证书：

cd /root/k8s/deploy/tls/k8s

创建证书请求文件

cat > kube-scheduler-csr.json << EOF
{
    "CN": "system:kube-scheduler",
    "hosts": [
      "127.0.0.1",
      "10.168.1.100",
      "10.168.1.101",
      "10.168.1.102",
      "10.168.1.103",
      "10.168.1.104",
      "10.168.1.105",
      "10.168.1.106",
      "10.168.1.107",
      "10.168.1.108",
      "10.168.1.109",
      "10.168.1.110",
      "10.168.1.111",
      "10.168.1.112",
      "10.168.1.113",
      "10.168.1.114",
      "10.168.1.115",
      "10.168.1.116",
      "10.168.1.117",
      "10.168.1.118",
      "10.168.1.119",
      "10.168.1.120"
    ],
    "key": {
        "algo": "rsa",
        "size": 2048
    },
    "names": [
      {
        "C": "CN",
        "ST": "SuZou",
        "L": "SuZou",
        "O": "system:kube-scheduler",
        "OU": "system"
      }
    ]
}
EOF

注：

hosts 列表包含所有 kube-scheduler 节点 IP；我这里填的3台master IP，顺便预留了一些。

CN 为 system:kube-scheduler、O 为 system:kube-scheduler，kubernetes 内置的 ClusterRoleBindings system:kube-scheduler 将赋予 kube-scheduler 工作所需的权限。

生成证书：

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes kube-scheduler-csr.json | cfssljson -bare kube-scheduler

生成kubeconfig文件（以下是shell命令，直接在终端执行）：

记得修改下KUBE_APISERVER的地址为master01地址

KUBE_CONFIG="/data/kubernetes/cfg/kube-scheduler.kubeconfig"
KUBE_APISERVER="https://10.168.1.101:6443"

kubectl config set-cluster kubernetes \
  --certificate-authority=/data/kubernetes/ssl/ca.pem \
  --embed-certs=true \
  --server=${KUBE_APISERVER} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-credentials kube-scheduler \
  --client-certificate=./kube-scheduler.pem \
  --client-key=./kube-scheduler-key.pem \
  --embed-certs=true \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-context default \
  --cluster=kubernetes \
  --user=kube-scheduler \
  --kubeconfig=${KUBE_CONFIG}
kubectl config use-context default --kubeconfig=${KUBE_CONFIG}

systemd管理scheduler

cat > /usr/lib/systemd/system/kube-scheduler.service << EOF
[Unit]
Description=Kubernetes Scheduler
Documentation=https://github.com/kubernetes/kubernetes
[Service]
EnvironmentFile=/data/kubernetes/cfg/kube-scheduler.conf
ExecStart=/data/kubernetes/bin/kube-scheduler \$KUBE_SCHEDULER_OPTS
Restart=on-failure
[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload && \
systemctl start kube-scheduler && \
systemctl enable kube-scheduler && \
systemctl status kube-scheduler

查看集群状态

生成kubectl连接集群的证书：

cd /root/k8s/deploy/tls/k8s

创建证书请求文件:

cat > admin-csr.json <<EOF
{
  "CN": "admin",
   "hosts": [
      "127.0.0.1",
      "10.168.1.100",
      "10.168.1.101",
      "10.168.1.102",
      "10.168.1.103",
      "10.168.1.104",
      "10.168.1.105",
      "10.168.1.106",
      "10.168.1.107",
      "10.168.1.108",
      "10.168.1.109",
      "10.168.1.110",
      "10.168.1.111",
      "10.168.1.112",
      "10.168.1.113",
      "10.168.1.114",
      "10.168.1.115",
      "10.168.1.116",
      "10.168.1.117",
      "10.168.1.118",
      "10.168.1.119",
      "10.168.1.120"
    ],
  "key": {
    "algo": "rsa",
    "size": 2048
  },
  "names": [
    {
      "C": "CN",
      "L": "SuZou",
      "ST": "SuZou",
      "O": "system:masters",
      "OU": "System"
    }
  ]
}
EOF

#hosts 列表包含所有节点 IP,包括node节点以及预留的IP

10.42.221.150 - 10.42.221.160为 work nodes 节点预留IP

说明：后续 kube-apiserver 使用 RBAC 对客户端(如 kubelet、kube-proxy、Pod)请求进行授权； kube-apiserver 预定义了一些 RBAC 使用的 RoleBindings，如 cluster-admin 将 Group system:masters 与 Role cluster-admin 绑定，该 Role 授予了调用kube-apiserver 的所有 API的权限；

O指定该证书的 Group 为 system:masters，kubelet 使用该证书访问 kube-apiserver 时，由于证书被 CA 签名，所以认证通过，同时由于证书用户组为经过预授权的 system:masters，所以被授予访问所有 API 的权限；

注：这个admin 证书，是将来生成管理员用的kube config 配置文件用的，现在我们一般建议使用RBAC 来对kubernetes 进行角色权限控制， kubernetes 将证书中的CN 字段作为User， O 字段作为 Group； “O”: “system:masters”, 必须是system:masters，否则后面kubectl create clusterrolebinding报错。

创建kubeconfig配置文件 kubeconfig 为 kubectl 的配置文件，包含访问 apiserver 的所有信息，如 apiserver 地址、CA 证书和自身使用的证书。

生成证书：

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes admin-csr.json | cfssljson -bare admin

创建kubeconfig配置文件 kubeconfig 为 kubectl 的配置文件，包含访问 apiserver 的所有信息，如 apiserver 地址、CA 证书和自身使用的证书

生成kubeconfig文件：

mkdir /root/.kube

KUBE_APISERVER IP修改成master01的地址

KUBE_CONFIG="/root/.kube/config"
KUBE_APISERVER="https://10.168.1.101:6443"

kubectl config set-cluster kubernetes \
  --certificate-authority=/data/kubernetes/ssl/ca.pem \
  --embed-certs=true \
  --server=${KUBE_APISERVER} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-credentials cluster-admin \
  --client-certificate=./admin.pem \
  --client-key=./admin-key.pem \
  --embed-certs=true \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-context default \
  --cluster=kubernetes \
  --user=cluster-admin \
  --kubeconfig=${KUBE_CONFIG}
kubectl config use-context default --kubeconfig=${KUBE_CONFIG}

授权kubernetes证书访问kubelet api权限:

kubectl create clusterrolebinding kube-apiserver:kubelet-apis --clusterrole=system:kubelet-api-admin --user kubernetes

测试集群：

kubectl cluster-info    #会获取一些kubernetes信息
Kubernetes control plane is running at https://10.168.1.101:6443
To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.

kubectl get cs  #查看各组件健康状态
Warning: v1 ComponentStatus is deprecated in v1.19+
NAME                 STATUS    MESSAGE             ERROR
scheduler            Healthy   ok                  
controller-manager   Healthy   ok                  
etcd-0               Healthy   {"health":"true"}   
etcd-1               Healthy   {"health":"true"}   
etcd-2               Healthy   {"health":"true"}  

kubectl get all --all-namespaces    #查看集群内所有资源

配置kubectl命令自动补全：

yum install -y bash-completion && \
source /usr/share/bash-completion/bash_completion && \
source <(kubectl completion bash) && \
kubectl completion bash > ~/.kube/completion.bash.inc && \
source '/root/.kube/completion.bash.inc' && \
source $HOME/.bash_profile && \
echo "source <(kubectl completion bash)" >> ~/.bashrc && \
source ~/.bashrc

授权kubelet-bootstrap用户允许请求证书

kubectl create clusterrolebinding kubelet-bootstrap \
--clusterrole=system:node-bootstrapper \
--user=kubelet-bootstrap

查看：

kubectl get clusterrolebinding | grep -i bootstrap

到此，单节点master部署完成，并且已做好了接收node节点注册的准备。

2.8 node角色部署

下面还是在master01节点上操作，即同时作为Worker Node复用。

2.8.1 创建工作目录并拷贝二进制文件

在master01节点拷贝kubernetes-server安装包到/opt/deploy/package目录
ssh k8s-node01 "mkdir -p /opt/deploy/package"; \
ssh k8s-node02 "mkdir -p /opt/deploy/package"; \
ssh k8s-node03 "mkdir -p /opt/deploy/package"; \
ssh k8s-node04 "mkdir -p /opt/deploy/package"; \
ssh k8s-node05 "mkdir -p /opt/deploy/package"

cd /opt/deploy/package && \
scp kubernetes-server-linux-amd64.tar.gz k8s-node01:/opt/deploy/package && \
scp kubernetes-server-linux-amd64.tar.gz k8s-node02:/opt/deploy/package && \
scp kubernetes-server-linux-amd64.tar.gz k8s-node03:/opt/deploy/package && \
scp kubernetes-server-linux-amd64.tar.gz k8s-node04:/opt/deploy/package && \
scp kubernetes-server-linux-amd64.tar.gz k8s-node05:/opt/deploy/package

然后分别到node01-05执行以下操作
mkdir -p /data/kubernetes/{bin,cfg,ssl,logs} && \
cd /opt/deploy/package && \
tar -xzvf  kubernetes-server-linux-amd64.tar.gz && \
cd kubernetes/server/bin && \
cp kubelet kube-proxy /data/kubernetes/bin

2.8.2 部署kubelet

master01操作

先注意导入image pause-amd64:v3.0

cd /opt/deploy/images
for i in `ls ./*`;do docker load <$i;done

创建配置文件

cat > /data/kubernetes/cfg/kubelet.conf << EOF
KUBELET_OPTS="--logtostderr=false \\
--v=2 \\
--log-dir=/data/kubernetes/logs \\
--hostname-override=k8s-master01 \\
--network-plugin=cni \\
--kubeconfig=/data/kubernetes/cfg/kubelet.kubeconfig \\
--bootstrap-kubeconfig=/data/kubernetes/cfg/bootstrap.kubeconfig \\
--config=/data/kubernetes/cfg/kubelet-config.yml \\
--cert-dir=/data/kubernetes/ssl \\
--pod-infra-container-image=pause-amd64:v3.0"
EOF

参数说明：

--hostname-override：显示名称，集群中唯一 
--network-plugin：启用CNI 
--kubeconfig：空路径，会自动生成，后面用于连接apiserver 
--bootstrap-kubeconfig：首次启动向apiserver申请证书 
--config：配置参数文件 
--cert-dir：kubelet证书生成目录 
--pod-infra-container-image：管理Pod网络容器的镜像

配置参数文件

记得修改clusterDNS IP，该IP为service IP段第二个IP

cat > /data/kubernetes/cfg/kubelet-config.yml << EOF
kind: KubeletConfiguration
apiVersion: kubelet.config.k8s.io/v1beta1
address: 0.0.0.0
port: 10250
readOnlyPort: 10255
cgroupDriver: cgroupfs
clusterDNS:
- 10.244.0.2
clusterDomain: cluster.local 
failSwapOn: false
authentication:
  anonymous:
    enabled: false
  webhook:
    cacheTTL: 2m0s
    enabled: true
  x509:
    clientCAFile: /data/kubernetes/ssl/ca.pem 
authorization:
  mode: Webhook
  webhook:
    cacheAuthorizedTTL: 5m0s
    cacheUnauthorizedTTL: 30s
evictionHard:
  imagefs.available: 15%
  memory.available: 100Mi
  nodefs.available: 10%
  nodefs.inodesFree: 5%
maxOpenFiles: 1000000
maxPods: 110
EOF

生成kubelet初次加入集群引导kubeconfig文件

KUBE_APISERVER为master01 IP地址

TOKEN为先前生成的/data/kubernetes/cfg/token.csv #两者一定要相同

KUBE_CONFIG="/data/kubernetes/cfg/bootstrap.kubeconfig"
KUBE_APISERVER="https://10.168.1.101:6443"
TOKEN="f766e563143dd013a2988279c1871831"

kubectl config set-cluster kubernetes \
  --certificate-authority=/data/kubernetes/ssl/ca.pem \
  --embed-certs=true \
  --server=${KUBE_APISERVER} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-credentials "kubelet-bootstrap" \
  --token=${TOKEN} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-context default \
  --cluster=kubernetes \
  --user="kubelet-bootstrap" \
  --kubeconfig=${KUBE_CONFIG}
kubectl config use-context default --kubeconfig=${KUBE_CONFIG}

注意如果这步出错，比如token值拷贝错误会导致csr没有请求，可以删除config重新生成，需要重启kubelet重新发起注册请求。

systemd管理kubelet

先把kubelet执行文件拷贝到/data/kubernetes/bin/

cd /opt/deploy/package && \
cp kubernetes/server/bin/kubelet /data/kubernetes/bin/
cat > /usr/lib/systemd/system/kubelet.service << EOF
[Unit]
Description=Kubernetes Kubelet
After=docker.service
[Service]
EnvironmentFile=/data/kubernetes/cfg/kubelet.conf
ExecStart=/data/kubernetes/bin/kubelet \$KUBELET_OPTS
Restart=on-failure
LimitNOFILE=65536
[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload && \
systemctl start kubelet && \
systemctl enable kubelet && \
systemctl status kubelet

批准kubelet证书申请并加入集群

# 查看kubelet证书请求
[root@k8s-master01 package]# kubectl get csr
NAME                                                   AGE   SIGNERNAME                                    REQUESTOR           CONDITION
node-csr-AWalJ6dniBjNF-_K5wL5JKAWtns-AwI_a8aqEV6pg4g   46s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending

# 批准申请
kubectl certificate approve node-csr-AWalJ6dniBjNF-_K5wL5JKAWtns-AwI_a8aqEV6pg4g

# 查看节点（由于网络插件还没有部署，节点显示准备就绪 NotReady，暂时先忽略。）
kubectl get node   #这里有问题，没有获取到资源,查看日志显示system:kube-controller-manager有权限问题，解决办法：

kubectl create clusterrolebinding  controller-node-clusterrolebing --clusterrole=system:controller:node-controller --user=system:kube-controller-manager
kubectl create clusterrolebinding kube-controller-manager --clusterrole=cluster-admin --user=system:kube-controller-manager

重启所有组件:
systemctl restart etcd.service && \
systemctl status etcd.service && \
systemctl restart kube-apiserver.service && \
systemctl status kube-apiserver.service && \
systemctl restart kube-controller-manager.service && \
systemctl status kube-controller-manager.service && \
systemctl restart kube-scheduler.service && \
systemctl status kube-scheduler.service && \
systemctl restart kubelet.service && \
systemctl status kubelet.service

等待30s左右
[root@k8s-master01 package]# kubectl get  nodes 
NAME           STATUS     ROLES    AGE   VERSION
k8s-master01   NotReady   <none>   15s   v1.20.15

2.8.3 部署kube-proxy

master01操作

创建配置文件

cat > /data/kubernetes/cfg/kube-proxy.conf << EOF
KUBE_PROXY_OPTS="--logtostderr=false \\
--v=2 \\
--log-dir=/data/kubernetes/logs \\
--config=/data/kubernetes/cfg/kube-proxy-config.yml"
EOF

配置参数文件

注意clusterCIDR为pod网段

hostnameOverride为master01节点主机名，别写错了

cat > /data/kubernetes/cfg/kube-proxy-config.yml << EOF
kind: KubeProxyConfiguration
apiVersion: kubeproxy.config.k8s.io/v1alpha1
bindAddress: 0.0.0.0
metricsBindAddress: 0.0.0.0:10249
clientConnection:
  kubeconfig: /data/kubernetes/cfg/kube-proxy.kubeconfig
hostnameOverride: k8s-master01
clusterCIDR: 10.96.0.0/16
EOF

生成kube-proxy.kubeconfig文件

生成kube-proxy证书：

创建证书请求文件：

cd /root/k8s/deploy/tls/k8s
cat > kube-proxy-csr.json << EOF
{
  "CN": "system:kube-proxy",
  "hosts": [
      "127.0.0.1",
      "10.168.1.100",
      "10.168.1.101",
      "10.168.1.102",
      "10.168.1.103",
      "10.168.1.104",
      "10.168.1.105",
      "10.168.1.106",
      "10.168.1.107",
      "10.168.1.108",
      "10.168.1.109",
      "10.168.1.110",
      "10.168.1.111",
      "10.168.1.112",
      "10.168.1.113",
      "10.168.1.114",
      "10.168.1.115",
      "10.168.1.116",
      "10.168.1.117",
      "10.168.1.118",
      "10.168.1.119",
      "10.168.1.120"
  ],
  "key": {
    "algo": "rsa",
    "size": 2048
  },
  "names": [
    {
      "C": "CN",
      "L": "SuZou",
      "ST": "SuZou",
      "O": "k8s",
      "OU": "System"
    }
  ]
}
EOF

生成证书：

cfssl gencert -ca=ca.pem -ca-key=ca-key.pem -config=ca-config.json -profile=kubernetes kube-proxy-csr.json | cfssljson -bare kube-proxy

生成kubeconfig文件：

注意修改KUBE_APISERVER IP地址为master01地址

KUBE_CONFIG="/data/kubernetes/cfg/kube-proxy.kubeconfig"
KUBE_APISERVER="https://10.168.1.101:6443"

kubectl config set-cluster kubernetes \
  --certificate-authority=/data/kubernetes/ssl/ca.pem \
  --embed-certs=true \
  --server=${KUBE_APISERVER} \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-credentials kube-proxy \
  --client-certificate=./kube-proxy.pem \
  --client-key=./kube-proxy-key.pem \
  --embed-certs=true \
  --kubeconfig=${KUBE_CONFIG}
kubectl config set-context default \
  --cluster=kubernetes \
  --user=kube-proxy \
  --kubeconfig=${KUBE_CONFIG}
kubectl config use-context default --kubeconfig=${KUBE_CONFIG}

systemd管理kube-proxy

cp /opt/deploy/package/kubernetes/server/bin/kube-proxy /data/kubernetes/bin
cat > /usr/lib/systemd/system/kube-proxy.service << EOF
[Unit]
Description=Kubernetes Proxy
After=network.target

[Service]
EnvironmentFile=/data/kubernetes/cfg/kube-proxy.conf
ExecStart=/data/kubernetes/bin/kube-proxy \$KUBE_PROXY_OPTS
Restart=on-failure
LimitNOFILE=65536

[Install]
WantedBy=multi-user.target
EOF
systemctl daemon-reload && \
systemctl start kube-proxy && \
systemctl enable kube-proxy && \
systemctl status kube-proxy

2.8.4 部署网络组件Calico

Calico是一个纯三层的数据中心网络方案，是目前Kubernetes主流的网络方案。

官网：https://projectcalico.docs.tigera.io/about/about-calico

部署Calico：

注意：yaml中的images都是本地的，版本如下,具体容器包，在个人阿里云K8S部署-->二进制部署-->V1.20文件夹中

calico/cni	v3.14.2	calico/cni:v3.14.2
calico/pod2daemon-flexvol	v3.14.2	calico/pod2daemon-flexvol:v3.14.2
calico/node	v3.14.2	calico/node:v3.14.2
calico/kube-controllers	v3.14.2	calico/kube-controllers:v3.14.2

cd /opt/deploy/package
kubectl apply -f calico.yaml

查看calico状态：

注意之前的pause pod镜像必须正常运行 否则calico-node pod 会pending
kubectl get po,svc,deploy -A -o wide

NAMESPACE     NAME                                           READY   STATUS    RESTARTS   AGE     IP              NODE           NOMINATED NODE   READINESS GATES
kube-system   pod/calico-kube-controllers-7d8686bbf8-ssc7r   1/1     Running   0          7m29s   172.16.32.129   k8s-master01   <none>           <none>
kube-system   pod/calico-node-s2762                          1/1     Running   0          4m15s   10.168.1.101   k8s-master01   <none>           <none>

2.9 授权apiserver访问kubelet

master01操作

cd /opt/deploy/package
cat > apiserver-to-kubelet-rbac.yaml << EOF
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  annotations:
    rbac.authorization.kubernetes.io/autoupdate: "true"
  labels:
    kubernetes.io/bootstrapping: rbac-defaults
  name: system:kube-apiserver-to-kubelet
rules:
  - apiGroups:
      - ""
    resources:
      - nodes/proxy
      - nodes/stats
      - nodes/log
      - nodes/spec
      - nodes/metrics
      - pods/log
    verbs:
      - "*"
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: system:kube-apiserver
  namespace: ""
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: system:kube-apiserver-to-kubelet
subjects:
  - apiGroup: rbac.authorization.k8s.io
    kind: User
    name: kubernetes
EOF

执行：

kubectl apply -f apiserver-to-kubelet-rbac.yaml

至此，一个单master单work node复用就部署完成了（包含了所有部署功能步骤），之后扩容可以完成cp上面配置文件来实现。

按照之前的规划：

k8s-master01    10.168.1.101     kube-apiserver，kube-controller-manager，kube-scheduler，etcd
k8s-node01      10.168.1.111     kubelet，kube-proxy，docker，etcd
k8s-node02      10.168.1.112     kubelet，kube-proxy，docker，etcd
k8s-node03      10.168.1.113     kubelet，kube-proxy，docker，etcd
k8s-node04      10.168.1.114     kubelet，kube-proxy，docker，etcd
k8s-node05      10.168.1.115     kubelet，kube-proxy，docker，etcd

下面将node01-05加到master01中。

3 部署流程二:扩容Worker Nodes节点

master01

3.1 新增Worker Node

1）拷贝已部署好的Node相关文件到新节点

在master01节点将Worker Node涉及文件拷贝到新节点node1-5

注意如果不是使用公有image则会出现其他node拉取calico node image失败的情况，节点未显示未就绪，需要提前导入所有image（默认calico yaml拉取策略是Never）

 在master01上
scp -r  /opt/deploy/images/ root@k8s-node01:/opt/deploy
scp -r  /opt/deploy/images/ root@k8s-node02:/opt/deploy
scp -r  /opt/deploy/images/ root@k8s-node03:/opt/deploy
scp -r  /opt/deploy/images/ root@k8s-node04:/opt/deploy
scp -r  /opt/deploy/images/ root@k8s-node05:/opt/deploy 
在所有node01-5节点对应的目录下导入c操作
cd /opt/deploy/images/ &&  for i in  `ls ./*`;do docker load <$i;done
此时node节点才会引入calico-node pod成功
[root@k8s-master01 deploy]#  kubectl get pod  -o wide  -nkube-system
NAME                                       READY   STATUS    RESTARTS   AGE   IP              NODE           NOMINATED NODE   READINESS GATES
calico-kube-controllers-54b8449c7d-kfcqk   1/1     Running   0          31m   172.16.32.129   k8s-master01   <none>           <none>
calico-node-nnjlr                          1/1     Running   0          17m   10.168.1.111    k8s-node01     <none>           <none>
calico-node-xqsdb                          1/1     Running   0          31m   10.168.1.101    k8s-master01   <none>           <none>

拷贝到node01-05节点：

scp -r /data/kubernetes root@k8s-node01:/data/ && \
scp -r /usr/lib/systemd/system/{kubelet,kube-proxy}.service root@k8s-node01:/usr/lib/systemd/system && \
scp /data/kubernetes/ssl/ca.pem root@k8s-node01:/data/kubernetes/ssl

scp -r /data/kubernetes root@k8s-node02:/data/ && \
scp -r /usr/lib/systemd/system/{kubelet,kube-proxy}.service root@k8s-node02:/usr/lib/systemd/system && \
scp /data/kubernetes/ssl/ca.pem root@k8s-node02:/data/kubernetes/ssl

scp -r /data/kubernetes root@k8s-node03:/data/ && \
scp -r /usr/lib/systemd/system/{kubelet,kube-proxy}.service root@k8s-node03:/usr/lib/systemd/system && \
scp /data/kubernetes/ssl/ca.pem root@k8s-node03:/data/kubernetes/ssl

scp -r /data/kubernetes root@k8s-node04:/data/ && \
scp -r /usr/lib/systemd/system/{kubelet,kube-proxy}.service root@k8s-node04:/usr/lib/systemd/system && \
scp /data/kubernetes/ssl/ca.pem root@k8s-node04:/data/kubernetes/ssl

scp -r /data/kubernetes root@k8s-node05:/data/ && \
scp -r /usr/lib/systemd/system/{kubelet,kube-proxy}.service root@k8s-node05:/usr/lib/systemd/system && \
scp /data/kubernetes/ssl/ca.pem root@k8s-node05:/data/kubernetes/ssl

删除kubelet证书和kubeconfig文件

因为这几个文件是证书申请审批后自动生成的，每个Node不同，所以必须删除。

在node1-5节点操作

rm -f /data/kubernetes/cfg/kubelet.kubeconfig && \
rm -f /data/kubernetes/ssl/kubelet*

修改配置文件中的主机名

在node1-5节点操作

node01
sed -i 's#k8s-master01#k8s-node01#' /data/kubernetes/cfg/kubelet.conf
sed -i 's#k8s-master01#k8s-node01#' /data/kubernetes/cfg/kube-proxy-config.yml

hostname-override=k8s-node01
hostnameOverride: k8s-node01

node02
sed -i 's#k8s-master01#k8s-node02#' /data/kubernetes/cfg/kubelet.conf
sed -i 's#k8s-master01#k8s-node02#' /data/kubernetes/cfg/kube-proxy-config.yml
node03
sed -i 's#k8s-master01#k8s-node03#' /data/kubernetes/cfg/kubelet.conf
sed -i 's#k8s-master01#k8s-node03#' /data/kubernetes/cfg/kube-proxy-config.yml
node04
sed -i 's#k8s-master01#k8s-node04#' /data/kubernetes/cfg/kubelet.conf
sed -i 's#k8s-master01#k8s-node04#' /data/kubernetes/cfg/kube-proxy-config.yml
node05
sed -i 's#k8s-master01#k8s-node05#' /data/kubernetes/cfg/kubelet.conf
sed -i 's#k8s-master01#k8s-node05#' /data/kubernetes/cfg/kube-proxy-config.yml

启动并设置开机启动

node01-05上操作

systemctl daemon-reload && \
systemctl start kubelet kube-proxy && \
systemctl enable kubelet kube-proxy && \
systemctl status kubelet kube-proxy

在Master上批准所有Node01-05的 kubelet证书申请

在master01上操作

# 查看证书请求
[root@k8s-master01 deploy]# kubectl get csr
NAME                                                   AGE     SIGNERNAME                                    REQUESTOR           CONDITION
node-csr-AbCwM2KlOtGYE2INPtBxQOH207FBmxdDmr-vtVnmCEk   8m22s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending
node-csr-CYGaTHLaDRVcqnJBfnQ2Qd6l0M7kJC4wkJLnD1HYYR4   8m25s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending
node-csr-Dc0tb1P25edvnyCujTbv4wQWiQFhGULVuafdiQooA_g   8m24s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending
。。。

# 同意授权请求
kubectl certificate approve node-csr-所有请求码

查看节点信息,稍等一会等待ready，到此 1主5从已经部署好，下面可以扩容master节点了：

[root@k8s-master01 deploy]# kubectl  get no
NAME           STATUS   ROLES    AGE   VERSION
k8s-master01   Ready    <none>   63m   v1.20.15
k8s-node01     Ready    <none>   34m   v1.20.15
k8s-node02     Ready    <none>   30s   v1.20.15
k8s-node03     Ready    <none>   55s   v1.20.15
k8s-node04     Ready    <none>   54s   v1.20.15
k8s-node05     Ready    <none>   84s   v1.20.15

[root@k8s-master01 ~]# kubectl  get pod -A -o wide
NAMESPACE     NAME                                       READY   STATUS    RESTARTS   AGE     IP              NODE           NOMINATED NODE   READINESS GATES
kube-system   calico-kube-controllers-54b8449c7d-kfcqk   1/1     Running   1          54m     172.16.32.130   k8s-master01   <none>           <none>
kube-system   calico-node-j7qnq                          1/1     Running   1          5m48s   10.168.1.112    k8s-node02     <none>           <none>
kube-system   calico-node-nnjlr                          1/1     Running   1          39m     10.168.1.111    k8s-node01     <none>           <none>
kube-system   calico-node-rvzdd                          1/1     Running   1          6m12s   10.168.1.113    k8s-node03     <none>           <none>
kube-system   calico-node-wvdbz                          1/1     Running   1          6m11s   10.168.1.114    k8s-node04     <none>           <none>
kube-system   calico-node-xmr8j                          1/1     Running   1          6m41s   10.168.1.115    k8s-node05     <none>           <none>
kube-system   calico-node-xqsdb                          1/1     Running   1          54m     10.168.1.101    k8s-master01   <none>           <none>

测试

清除calico一次性启动的exited的docker容器

docker system prune

重启master01、node1-5主机，再次kubectl get nodes查看功能是否正常

3.2 部署CoreDNS

master01

CoreDNS用于集群内部Service名称解析：

coredns.yaml

需要修改下clusterIP字段，把IP修改你自己service网段所在的第二个IP。

注意image使用coredns/coredns:1.2.2版本，测试1.6 、1.8不可兼容k8s1.20。

spec:
  selector:
    k8s-app: kube-dns
  clusterIP: 10.244.0.2
  ports:
  - name: dns

部署：

cd /opt/deploy/package
kubectl apply -f coredns.yaml

查看：

kubectl get po,svc,deploy -A -o wide

[root@k8s-master01 package]# kubectl  get   pods  -n  kube-system
NAME                                       READY   STATUS    RESTARTS   AGE
calico-kube-controllers-54b8449c7d-kfcqk   1/1     Running   1          2d
calico-node-j7qnq                          1/1     Running   1          2d
calico-node-nnjlr                          1/1     Running   1          2d
calico-node-rvzdd                          1/1     Running   1          2d
calico-node-wvdbz                          1/1     Running   1          2d
calico-node-xmr8j                          1/1     Running   1          2d
calico-node-xqsdb                          1/1     Running   1          2d
coredns-6d8f96d957-m7hlr                   1/1     Running   0          106s

[root@k8s-master01 package]# kubectl  get   pods  -n  kube-system
NAME                                       READY   STATUS    RESTARTS   AGE
calico-kube-controllers-54b8449c7d-kfcqk   1/1     Running   1          2d
calico-node-j7qnq                          1/1     Running   1          2d
calico-node-nnjlr                          1/1     Running   1          2d
calico-node-rvzdd                          1/1     Running   1          2d
calico-node-wvdbz                          1/1     Running   1          2d
calico-node-xmr8j                          1/1     Running   1          2d
calico-node-xqsdb                          1/1     Running   1          2d
coredns-6d8f96d957-m7hlr                   1/1     Running   0          106s

至此，一个完整的master可用集群（1主5从）就完成了，下面需要配置api-server的高可用，即多master节点环境。

4 部署流程三:扩容多Master节点（高可用）

4.1 部署master02

部署Master02 节点

master02 IP: 10.168.1.102

Master02 与已部署的Master01所有操作一致。所以我们只需将Master1所有K8s文件拷贝过来，再修改下服务器IP和主机名启动即可。

安装docker

在master02节点操作

在基础环境配置中已安装，这一步忽略。

导入离线镜像包

在master01上
scp -r  /opt/deploy/images/ root@k8s-master02:/opt/deploy && \
scp -r  /opt/deploy/images/ root@k8s-master03:/opt/deploy

在所有master02-03节点对应的目录下导入操作
cd /opt/deploy/images/ &&  for i in `ls ./*`;do docker load <$i;done

创建etcd证书目录

在Master02创建etcd证书目录

mkdir -p /data/etcd/ssl

拷贝master01配置文件到master02

拷贝Master01上所有K8s文件和etcd证书到Master02

在master01节点操作：

scp -r /data/kubernetes k8s-master02:/data && \
scp -r /data/etcd/ssl k8s-master02:/data/etcd && \
scp /usr/lib/systemd/system/kube* k8s-master02:/usr/lib/systemd/system && \
scp /usr/bin/kubectl k8s-master02:/usr/bin && \
scp -r ~/.kube k8s-master02:~

删除证书文件

master02操作

删除kubelet证书和kubeconfig文件，bootstrap自动注册生成的。

rm -f /data/kubernetes/cfg/kubelet.kubeconfig && \
rm -f /data/kubernetes/ssl/kubelet*

修改配置文件IP和主机名

master02操作

修改apiserver、kubelet和kube-proxy配置文件为本地IP

vim /data/kubernetes/cfg/kube-apiserver.conf 
...
--bind-address=10.168.1.102 \
--advertise-address=10.168.1.102 \
...

vim /data/kubernetes/cfg/kubelet.conf
--hostname-override=k8s-master02

vim /opt/kubernetes/cfg/kube-proxy-config.yml
hostnameOverride: k8s-master02

启动并设置开机启动

master02操作

启动kube-apiserver、kube-controller-manage、kube-scheduler、kubelet、kube-proxy

systemctl daemon-reload && \
systemctl start kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy && \
systemctl enable kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy && \
systemctl status kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy

查看集群状态

master02操作，查看本地api-server是否可用

# 修改连接master为本机IP
vim ~/.kube/config
...
server: https://10.168.1.102:6443

[root@k8s-master02 ssl]# kubectl get cs
Warning: v1 ComponentStatus is deprecated in v1.19+
NAME                 STATUS    MESSAGE             ERROR
scheduler            Healthy   ok                  
controller-manager   Healthy   ok                  
etcd-2               Healthy   {"health":"true"}   
etcd-0               Healthy   {"health":"true"}   
etcd-1               Healthy   {"health":"true"}

批准kubelet证书申请

master02操作

# 查看证书请求，这里填写你自己生成的。
[root@k8s-master02 ~]# kubectl get csr
NAME                                                   AGE   SIGNERNAME                                    REQUESTOR           CONDITION
node-csr-S3RaMdAqgH805EJpWII0zgFC3AWpzBxliok3MYOHFpU   68s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending

# 授权请求在master02上
 kubectl certificate approve node-csr-S3RaMdAqgH805EJpWII0zgFC3AWpzBxliok3MYOHFpU

# 查看Node，如果状态为NotReady，稍微等待一会儿就好了。30s,如果not ready可以查看下calico是否running
[root@k8s-master02 images]# kubectl get  no
NAME           STATUS   ROLES    AGE    VERSION
k8s-master01   Ready    <none>   2d1h   v1.20.15
k8s-master02   Ready    <none>   10m    v1.20.15
k8s-node01     Ready    <none>   2d1h   v1.20.15
k8s-node02     Ready    <none>   2d     v1.20.15
k8s-node03     Ready    <none>   2d     v1.20.15
k8s-node04     Ready    <none>   2d     v1.20.15
k8s-node05     Ready    <none>   2d     v1.20.15

kubectl 命令自动补全

master02操作

yum install -y bash-completion && \
source /usr/share/bash-completion/bash_completion && \
source <(kubectl completion bash) && \
kubectl completion bash > ~/.kube/completion.bash.inc && \
source '/root/.kube/completion.bash.inc' && \
source $HOME/.bash_profile && \
echo "source <(kubectl completion bash)" >> ~/.bashrc && \
source ~/.bashrc

4.2 部署master03

部署Master03 节点

master03 IP: 10.168.1.103

Master03 与已部署的Master01所有操作一致。所以我们只需将Master1所有K8s文件拷贝过来，再修改下服务器IP和主机名启动即可。

安装docker

在master03节点操作

在基础环境配置中已安装，这一步忽略。

创建etcd证书目录

在Master03创建etcd证书目录

mkdir -p /opt/etcd/ssl

拷贝master01配置文件到master02

拷贝Master01上所有K8s文件和etcd证书到Master02

在master01节点操作：

scp -r /data/kubernetes k8s-master03:/data && \
scp -r /data/etcd/ssl k8s-master03:/data/etcd && \
scp /usr/lib/systemd/system/kube* k8s-master03:/usr/lib/systemd/system && \
scp /usr/bin/kubectl k8s-master03:/usr/bin && \
scp -r ~/.kube k8s-master03:~

删除证书文件

master03操作

删除kubelet证书和kubeconfig文件

rm -f /data/kubernetes/cfg/kubelet.kubeconfig && \
rm -f /data/kubernetes/ssl/kubelet*

修改配置文件IP和主机名

master03操作

修改apiserver、kubelet和kube-proxy配置文件为本地IP

vim /data/kubernetes/cfg/kube-apiserver.conf 
...
--bind-address=10.168.1.103 \
--advertise-address=10.168.1.103 \
...

vim /data/kubernetes/cfg/kubelet.conf
--hostname-override=k8s-master03

vim /data/kubernetes/cfg/kube-proxy-config.yml
hostnameOverride: k8s-master03

启动并设置开机启动

master03操作

启动kube-apiserver、kube-controller-manage、kube-scheduler、kubelet、kube-proxy

systemctl daemon-reload && \
systemctl start kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy && \
systemctl enable kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy && \
systemctl status kube-apiserver kube-controller-manager kube-scheduler kubelet kube-proxy

查看集群状态

master03操作

# 修改连接master为本机IP
vim ~/.kube/config
...
server: https://10.168.103:6443

[root@k8s-master03 ~]# kubectl get cs
Warning: v1 ComponentStatus is deprecated in v1.19+
NAME                 STATUS    MESSAGE             ERROR
scheduler            Healthy   ok                  
controller-manager   Healthy   ok                  
etcd-0               Healthy   {"health":"true"}   
etcd-2               Healthy   {"health":"true"}   
etcd-1               Healthy   {"health":"true"}

批准kubelet证书申请

master01操作

# 查看证书请求
[root@k8s-master03 images]# kubectl get csr
NAME                                                   AGE   SIGNERNAME                                    REQUESTOR           CONDITION
node-csr-S3RaMdAqgH805EJpWII0zgFC3AWpzBxliok3MYOHFpU   17m   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Approved,Issued
node-csr-nOFJ0egY262TxgZ92mgFgUsHFBC2s60lzLjh4cMiZp0   26s   kubernetes.io/kube-apiserver-client-kubelet   kubelet-bootstrap   Pending

# 授权请求
kubectl certificate approve node-csr-nOFJ0egY262TxgZ92mgFgUsHFBC2s60lzLjh4cMiZp0

# 查看Node，如果状态为NotReady，稍微等待一会儿就好了
[root@k8s-master03 images]#  kubectl  get   node
NAME           STATUS   ROLES    AGE    VERSION
k8s-master01   Ready    <none>   2d1h   v1.20.15
k8s-master02   Ready    <none>   16m    v1.20.15
k8s-master03   Ready    <none>   39s    v1.20.15
k8s-node01     Ready    <none>   2d1h   v1.20.15
k8s-node02     Ready    <none>   2d     v1.20.15
k8s-node03     Ready    <none>   2d     v1.20.15
k8s-node04     Ready    <none>   2d     v1.20.15
k8s-node05     Ready    <none>   2d     v1.20.15

kubectl 命令自动补全

master03操作

yum install -y bash-completion && \
source /usr/share/bash-completion/bash_completion && \
source <(kubectl completion bash) && \
kubectl completion bash > ~/.kube/completion.bash.inc && \
source '/root/.kube/completion.bash.inc' && \
source $HOME/.bash_profile && \
echo "source <(kubectl completion bash)" >> ~/.bashrc && \
source ~/.bashrc

测试

依次重启node与master节点后执行 kubectl get node

至此，多master + 多node k8s集群部署完毕（3主5 从，全work node节点）

5 部署流程四:API-Server高可用

目前是每一台master使用的api-server网关是自己，配置信息从每一个节点写入到etcd集群中，现在要使用lvs将所有的api请求定向到统一api地址

5.1 部署Nginx+Keepalived高可用负载均衡器

在3台master节点安装软件包

注1：为了节省机器，这里与K8s Master节点机器复用。也可以独立于k8s集群之外部署，只要nginx与apiserver能通信就行。

注2：如果你是在公有云上，一般都不支持keepalived，那么你可以直接用它们的负载均衡器产品，直接负载均衡多台Master kube-apiserver，架构与上面一样。

在3台Master节点操作：

yum -y install nginx-all-modules.noarch && yum install nginx keepalived -y

Nginx配置文件（3台配置一样）

cat > /etc/nginx/nginx.conf << "EOF"
user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log;
pid /run/nginx.pid;

include /usr/share/nginx/modules/*.conf;

events {
    worker_connections 1024;
}

# 四层负载均衡，为3台Master apiserver组件提供负载均衡
stream {

    log_format  main  '$remote_addr $upstream_addr - [$time_local] $status $upstream_bytes_sent';

    access_log  /var/log/nginx/k8s-access.log  main;

    upstream k8s-apiserver {
       server 10.168.1.101:6443;    # Master1 APISERVER IP:PORT
       server 10.168.1.102:6443;    # Master2 APISERVER IP:PORT
       server 10.168.1.103:6443;      # Master3 APISERVER IP:PORT
    }

    server {
       listen 16443; # 由于nginx与master节点复用，这个监听端口不能是6443，否则会冲突
       proxy_pass k8s-apiserver;
    }
}

http {
    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                      '$status $body_bytes_sent "$http_referer" '
                      '"$http_user_agent" "$http_x_forwarded_for"';

    access_log  /var/log/nginx/access.log  main;

    sendfile            on;
    tcp_nopush          on;
    tcp_nodelay         on;
    keepalive_timeout   65;
    types_hash_max_size 2048;

    include             /etc/nginx/mime.types;
    default_type        application/octet-stream;
}
EOF

keepalived配置文件（Nginx Master01）

master01上操作：

cat > /etc/keepalived/keepalived.conf << EOF
global_defs { 
    notification_email { 
    acassen@firewall.loc 
    failover@firewall.loc 
    sysadmin@firewall.loc 
} 
   notification_email_from Alexandre.Cassen@firewall.loc  
   smtp_server 127.0.0.1 
   smtp_connect_timeout 30 
   router_id NGINX_MASTER
} 

vrrp_script check_nginx {
    script "/etc/keepalived/check_nginx.sh"
}

vrrp_instance VI_1 { 
    state MASTER 
    interface ens192 # 修改为实际网卡名
    virtual_router_id 49 # VRRP 路由 ID实例，每个实例是唯一的 
    priority 100    # 优先级，备服务器设置 90 
    advert_int 1    # 指定VRRP 心跳包通告间隔时间，默认1秒 
    authentication { 
        auth_type PASS      
        auth_pass 1111 
    }  
    # 虚拟IP
    virtual_ipaddress { 
        10.168.1.110/24
    } 
    track_script {
        check_nginx
    } 
}
EOF

参数说明：

vrrp_script：指定检查nginx工作状态脚本（根据nginx状态判断是否故障转移）

virtual_ipaddress：虚拟IP（VIP）

准备上述配置文件中检查nginx运行状态的脚本：

master01上操作：

cat > /etc/keepalived/check_nginx.sh  << "EOF"
#!/bin/bash
count=$(ss -antp |grep 16443 |egrep -cv "grep|$$")

if [ "$count" -eq 0 ];then
    exit 1
else
    exit 0
fi
EOF
chmod +x /etc/keepalived/check_nginx.sh

注：keepalived根据脚本返回状态码（0为工作正常，非0不正常）判断是否故障转移

keepalived配置文件（Nginx 从节点）

在master02上操作：

cat > /etc/keepalived/keepalived.conf << EOF
global_defs { 
   notification_email { 
     acassen@firewall.loc 
     failover@firewall.loc 
     sysadmin@firewall.loc 
   } 
   notification_email_from Alexandre.Cassen@firewall.loc  
   smtp_server 127.0.0.1 
   smtp_connect_timeout 30 
   router_id NGINX_BACKUP
} 

vrrp_script check_nginx {
    script "/etc/keepalived/check_nginx.sh"
}

vrrp_instance VI_1 { 
    state BACKUP 
    interface ens192
    virtual_router_id 49 # VRRP 路由 ID实例，每个实例是唯一的 
    priority 90
    advert_int 1
    authentication { 
        auth_type PASS      
        auth_pass 1111 
    }  
    virtual_ipaddress { 
        10.168.1.110/24
    } 
    track_script {
        check_nginx
    } 
}
EOF

准备上述配置文件中检查nginx运行状态的脚本：

cat > /etc/keepalived/check_nginx.sh  << "EOF"
#!/bin/bash
count=$(ss -antp |grep 16443 |egrep -cv "grep|$$")

if [ "$count" -eq 0 ];then
    exit 1
else
    exit 0
fi
EOF
chmod +x /etc/keepalived/check_nginx.sh

在master03上操作：

cat > /etc/keepalived/keepalived.conf << EOF
global_defs { 
   notification_email { 
   acassen@firewall.loc 
   failover@firewall.loc 
   sysadmin@firewall.loc 
} 
   notification_email_from Alexandre.Cassen@firewall.loc  
   smtp_server 127.0.0.1 
   smtp_connect_timeout 30 
   router_id NGINX_BACKUP
} 

vrrp_script check_nginx {
    script "/etc/keepalived/check_nginx.sh"
}

vrrp_instance VI_1 { 
    state BACKUP 
    interface ens192
    virtual_router_id 49 # VRRP 路由 ID实例，每个实例是唯一的 
    priority 80
    advert_int 1
    authentication { 
        auth_type PASS      
        auth_pass 1111 
    }  
    virtual_ipaddress { 
        10.168.1.110/24
    } 
    track_script {
        check_nginx
    } 
}
EOF

准备上述配置文件中检查nginx运行状态的脚本：

cat > /etc/keepalived/check_nginx.sh  << "EOF"
#!/bin/bash
count=$(ss -antp |grep 16443 |egrep -cv "grep|$$")

if [ "$count" -eq 0 ];then
    exit 1
else
    exit 0
fi
EOF
chmod +x /etc/keepalived/check_nginx.sh

启动所有节点的keepalived与nginx并设置开机启动

systemctl daemon-reload && \
systemctl start nginx keepalived && \
systemctl enable nginx keepalived && \
systemctl status nginx keepalived

查看keepalived工作状态

在master01节点执行以下命令可以看到网卡多了一个虚拟IP

[root@k8s-master01 ~]# ip a |grep   secondary
    inet 10.42.221.40/24 scope global secondary ens192

Nginx+Keepalived高可用测试

关闭主节点Nginx，测试VIP是否漂移到备节点服务器。

在Nginx Master执行systemctl stop nginx;

在Nginx Backup，ip addr命令查看已成功绑定VIP。

访问负载均衡器测试

找K8s集群中任意一个节点，使用curl查看K8s版本测试，使用VIP访问:

[root@k8s-master01 ~]#  curl -k https://10.168.1.110:16443/version
{
  "major": "1",
  "minor": "20",
  "gitVersion": "v1.20.15",
  "gitCommit": "8f1e5bf0b9729a899b8df86249b56e2c74aebc55",
  "gitTreeState": "clean",
  "buildDate": "2022-01-19T17:23:01Z",
  "goVersion": "go1.15.15",
  "compiler": "gc",
  "platform": "linux/amd64"

可以正确获取到K8s版本信息，说明负载均衡器搭建正常。该请求数据流程：curl -> vip(nginx) -> apiserver

通过查看Nginx日志也可以看到转发apiserver IP,由于VIP漂移到了master02上，所以要看02的nginx请求日志

[root@k8s-master01 ~]#  cat /var/log/nginx/k8s-access.log
10.168.1.101 10.168.1.101:6443 - [19/Jun/2023:00:11:18 +0800] 200 422

还原VIP

开启master01的nginx,此时VIP恢复到了master01主机上。

5.2 修改所有Worker Node连接LB VIP

之前再3台master上部署了VIP负载后端3个api-server，现在要将所有work nodes的api-server地址修改成LB VIP

试想下，虽然我们增加了Master02/03 Node和负载均衡器，但是我们是从单Master架构扩容的，也就是说目前所有的Worker Node组件连接都还是Master01 Node，如果不改为连接VIP走负载均衡器，那么Master还是单点故障。

因此接下来就是要改所有Worker Node（kubectl get node命令查看到的节点）组件配置文件，由原来的10.168.1.101修改为10.168.110（VIP）。

在所有Worker Node(由于master也是work node，因此也要修改ip)执行：

#在所有kubelet kube-proxy （work node角色节点上执行）使work组件与vip api通信
sed -i 's#10.168.1.101:6443#10.168.1.110:16443#' /data/kubernetes/cfg/*
systemctl restart kubelet kube-proxy
#如果需要还原
sed -i 's#10.168.110:16443#10.168.1.101:6443#' /opt/kubernetes/cfg/*

再次重启所有节点，检查节点状态：

[root@k8s-master01 cfg]# kubectl get nodes
NAME           STATUS   ROLES    AGE    VERSION
k8s-master01   Ready    <none>   23h    v1.20.15
k8s-master02   Ready    <none>   141m   v1.20.15
k8s-master03   Ready    <none>   47m    v1.20.15
k8s-node01     Ready    <none>   22h    v1.20.15
k8s-node02     Ready    <none>   22h    v1.20.15

6 生命周期之work node扩容节点脚本（暂未更新）

下面是新增node节点的shell脚本，写脚本的时候用的单master环境，如果是多master，在脚本里把其它master节点的主机名和ip补全即可。

以新增节点node03为例

#!/bin/bash

# 集群节点主机名
master01=k8s-master01
master02=k8s-master02
master03=k8s-master03
node01=k8s-node01
node02=k8s-node02
node03=k8s-node03
lb=k8s-master-lb

# 集群节点IP
master01Ip=10.168.1.101
master02Ip=10.168.102
master03Ip=10.168.103
node01IP=10.168.1.111
node02IP=10.168.1.112
node03IP=10.42.221.137
lbIP=10.168.110

# 计时器
timer() {
    echo 5
    sleep 1
    echo 4
    sleep 1
    echo 3
    sleep 1
    echo 2
    sleep 1
    echo 1
    sleep 1
}

# 执行命令状态码检测
checkStatusCode() {
    if [ $? -eq 0 ]; then
        echo "返回状态码: $?,   Ok !"
    else
        echo "返回状态码: $?,   Fail !"
    fi
}

# 修改主机名
changeHostName() {
    hostnamectl set-hostname $node03
}

# 把集群其他节点hosts信息加入到本节点hosts
addHosts() {
    hostsPath=/etc/hosts
cat >> $hostsPath << EOF
$master01Ip $master01
$master02Ip $master02
$master03Ip $master03
$node01IP $node01
$node02IP $node02
$node03IP $node03
$lbIP $lb
EOF
}

# 把本节点ssh公钥拷贝到集群其他节点
cpSshPub() {
    ssh-keygen
    for i in $master01 $node01 $node02; do
        ssh-copy-id -i ~/.ssh/id_rsa.pub $i  
    done
    checkStatusCode
}

# 把本节点hosts信息拷贝到集群其他节点
sshRemote() {
    ssh $master01 "echo $node03IP $node03 >> $hostsPath"
    checkStatusCode
    ssh $node01 "echo $node03IP $node03 >> $hostsPath"
    checkStatusCode
    ssh $node02 "echo $node03IP $node03 >> $hostsPath"
    checkStatusCode
}

# 修改系统配置
changeSystemCfg() {
    selinuxConfigPath=/etc/selinux/config
    swapConfigPath=/etc/fstab
    # 关闭防火墙
    systemctl stop firewalld && systemctl disable firewalld
    # 临时关闭selinux
    setenforce 0
    # 永久关闭selinux
    sed -i 's/enforcing/disabled/' $selinuxConfigPath
    # 临时关闭swap
    swapoff -a
    # 永久关闭swap
    sed -ri 's/.*swap.*/#&/' $swapConfigPath
}

# ntpdate时间同步
installNtpSvc() {
    # 安装ntp服务
    wlnmpRpm=http://mirrors.wlnmp.com/centos/wlnmp-release-centos.noarch.rpm
    shanghaiTime=/usr/share/zoneinfo/Asia/Shanghai
    localTime=/etc/localtime
    timezone=/etc/timezone
    rpm -ivh $wlnmpRpm && yum install ntpdate -y
    checkStatusCode

    # 同步时间
    ln -sf $shanghaiTime $localTime && \
    echo 'Asia/Shanghai' > $timezone && \
    ntpdate time2.aliyun.com
    checkStatusCode

    # 加入到定时任务
    crontabConfig=/var/spool/cron/root
cat >> $crontabConfig << EOF
*/5 * * * * ntpdate time2.aliyun.com &> /dev/null
30 04 */3 * * yum update -y && yum clean all && yum makecache &> /dev/null
EOF
    # 重启crontab
    systemctl restart crond.service
    crontab -l
}

# 将桥接的IPv4流量传递到iptables的链
k8sIpv4() {
    kubenetesIpv4Config=/etc/sysctl.d/k8s.conf
cat > $kubenetesIpv4Config << EOF 
net.bridge.bridge-nf-call-ip6tables = 1 
net.bridge.bridge-nf-call-iptables = 1 
EOF

    # 重载
    sysctl --system
}

# 开启ipv4转发
ipv4Forward() {
    sysctlConf=/etc/sysctl.conf
cat >> $sysctlConf << EOF
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.bridge.bridge-nf-call-arptables = 1
net.ipv4.ip_forward = 1
EOF

    sysctl -p
}

# 升级指定内核版本：4.19.5
updateKernel() {
    kernelPath=./kernel
    kernelDownloadAddr=http://mirrors.coreix.net/elrepo-archive-archive/kernel/el7/x86_64/RPMS
    kernelRpm1=kernel-ml-4.19.5-1.el7.elrepo.x86_64.rpm
    kernelRpm2=kernel-ml-devel-4.19.5-1.el7.elrepo.x86_64.rpm
    kernelRpm3=kernel-ml-headers-4.19.5-1.el7.elrepo.x86_64.rpm
    if [ ! -d $kernelPath ]; then
        echo "内核rpm包不存在, 开始手动下载:"
        mkdir $kernelPath && cd $kernelPath
        wget $kernelDownloadAddr/$kernelRpm1 && \
        wget $kernelDownloadAddr/$kernelRpm2 && \
        wget $kernelDownloadAddr/$kernelRpm3
        checkStatusCode
    fi
    cd $kernelPath
    rpm -ivh kernel-ml-4.19.5-1.el7.elrepo.x86_64.rpm && \
    rpm -ivh kernel-ml-devel-4.19.5-1.el7.elrepo.x86_64.rpm && \
    rpm -ivh kernel-ml-headers-4.19.5-1.el7.elrepo.x86_64.rpm
    checkStatusCode
    # 修改 GRUB 配置
    grubPath=/etc/default/grub
    sed -i 's/GRUB_DEFAULT=saved/GRUB_DEFAULT=0/g' $grubPath
    # 重建内核配置并重启
    grub2-mkconfig -o /boot/grub2/grub.cfg
    checkStatusCode
    echo "系统初始化配置结束, 系统将在5秒后重启, 重启后请继续执行脚本:"
    timer && reboot
}

updateYum() {
    echo "内核版本:"
    uname -a
    sleep 2
    echo "开始更新yum:"
    yum update -y && yum clean all && yum makecache
    checkStatusCode
    initdPath=/etc/rc.d/init.d
cat >> $initdPath/updateYum.sh << EOF
#!/bin/bash
#chkconfig:2345 80 90
#decription:auto update yum repo
yum update -y && yum clean all && yum makecache
EOF

    chmod +x $initdPath/updateYum.sh
    cd $initdPath
    chkconfig --add updateYum.sh
    chkconfig updateYum.sh on
    chkconfig
    cd -
}

# 安装docker
installDockerEngine() {
    docker ps
    if [ $? -ne 0 ]; then
        echo "Docker不存在, 开始安装..."
        # 一键安装
        curl -fsSL https://get.docker.com/ | sh
        systemctl start docker && systemctl enable docker && systemctl status docker
        # 配置Docker国内镜像加速
cat > /etc/docker/daemon.json << EOF
{"registry-mirrors": ["https://u8n2zdxj.mirror.aliyuncs.com"]}
EOF
        # 重载
        systemctl daemon-reload && systemctl restart docker && systemctl status docker
    else
        echo "Docker已存在"
        echo "版本:"
        docker version
    fi
}

# 初始化配置
initSystem() {
    changeHostName
    addHosts
    cpSshPub
    sshRemote
    changeSystemCfg
    installNtpSvc
    k8sIpv4
    ipv4Forward
    updateKernel
}

# 部署node节点
addNodeWork() {
    # 拷贝已部署好的Node相关文件到新节点
    dataDir=/opt
    sslDir=$dataDir/kubernetes/ssl
    cfgDir=$dataDir/kubernetes/cfg
    logsDir=$dataDir/kubernetes/logs
    kubeSystemSvc=/usr/lib/systemd/system

    scp -r root@$master01:$dataDir/kubernetes $dataDir && \
    scp -r root@$master01:$kubeSystemSvc/{kubelet,kube-proxy}.service $kubeSystemSvc && \
    scp root@$master01:$sslDir/ca.pem $sslDir
    rm $logsDir/* -rf

    # 删除旧的kubelet证书和kubeconfig文件
    rm -f $cfgDir/kubelet.kubeconfig && \
    rm -f $sslDir/kubelet*

    # 修改配置文件中的主机名
    sed -i 's/k8s-master01/k8s-node03/g' $cfgDir/kubelet.conf
    sed -i 's/k8s-master01/k8s-node03/g' $cfgDir/kube-proxy-config.yml

    # 启动并设置开机自启
    systemctl daemon-reload && \
    systemctl start kubelet kube-proxy && \
    systemctl enable kubelet kube-proxy && \
    systemctl status kubelet kube-proxy

    # 把新增的node节点加入到集群中
    ssh master01 "kubectl certificate approve $(kubectl get csr | awk '{if (NR > 1 && NR < 3){print $1}}'); kubectl certificate approve $(kubectl get csr | awk '{if (NR > 2){print $1}}')"
}

echo "输入编号执行对应安装程序:"
echo "1、系统初始化 (内核升级后系统会自动重启)"
echo "2、检查内核是否升级成功并更新yum"
echo "3、安装Docker"
echo "4、新增node节点加入到k8s集群"
echo "请输入数字:"
read num

case $num in
    1)  echo "系统初始化开始..."
        initSystem
    ;;
    2)  echo "检查内核版本, 更新yum..."
        updateYum
    ;;
    3)  echo "开始安装Docker..."
        installDockerEngine
    ;;
    4) echo "开始配置node节点, 请稍等..."
        addNodeWork
    ;;
    *)  echo "请输入对应数字"
        exit
    ;;
esac

至此一个可拥有完整生命周期的k8s集群部署完成了。

转载请注明-MrZ-个人博客

THE END

二维码

海报

K8s1.20 二进制部署&高可用扩容

目录1 1 环境说明1.1 1.1 主机规划1.2 1.2 IP规划2 2 部署流程一 : 3 节点master集群部署2.1 2.1 master规划2.2 2.2 修改hosts2.3 2.3 OS优化2.4 2.4 免密登录2.5 2.5 部署ETCD集群2.5.1 2.5.1 安装cfssl2.5.2 ……

【自动化】使用Jumpserver对Linux主机批量分区

<<上一篇

【自动化】基于ansible部署k8s1.29集群

下一篇>>

K8s1.20 二进制部署&高可用扩容

1 环境说明

1.1 主机规划

1.2 IP规划

2 部署流程一 : 3 节点master集群部署

2.1 master规划

2.2 修改hosts

2.3 OS优化

2.4 免密登录

2.5 部署ETCD集群

2.5.1 安装cfssl

2.5.2 etcd ssl

2.5.3 etcd https ssl

2.5.4 etcd集群应用部署

2.6 部署docker ce

2.7 部署Master集群(在此)

2.7.1 ssl布局

2.7.2 部署api-server （V1.20.15）

2.7.3 部署kube-controller-manager

2.7.4 部署kube-scheduler和kubectl

2.8 node角色部署

2.8.1 创建工作目录并拷贝二进制文件

2.8.2 部署kubelet

2.8.3 部署kube-proxy

2.8.4 部署网络组件Calico

2.9 授权apiserver访问kubelet

3 部署流程二:扩容Worker Nodes节点

3.1 新增Worker Node

3.2 部署CoreDNS

4 部署流程三:扩容多Master节点（高可用）

4.1 部署master02

4.2 部署master03

5 部署流程四:API-Server高可用

5.1 部署Nginx+Keepalived高可用负载均衡器

Nginx配置文件（3台配置一样）

5.2 修改所有Worker Node连接LB VIP

6 生命周期之work node扩容节点脚本（暂未更新）

取消回复

共有 0 条评论

时钟