0%

keepalive+inotify+rsync高可用同步节点间目录文件

keepalive+inotify+rsync高可用同步节点间目录文件

在高可用主备服务场景中,如何实现2个节点之间的文件同步呢?

这个问题中涉及关键字文件同步,说起这个,linux世界里首选 rsync。有了 rsync,文件同步有了,但是怎么做自动同步呢?在高可用场景中怎么使用呢?带着这些问题,我们先从了解rsync开始。

rsync入门

以下入门手册来自 rsync 用法教程 - 阮一峰的网络日志 (ruanyifeng.com)

一、简介

rsync 是一个常用的 Linux 应用程序,用于文件同步。

它可以在本地计算机与远程计算机之间,或者两个本地目录之间同步文件(但不支持两台远程计算机之间的同步)。它也可以当作文件复制工具,替代cpmv命令。它名称里面的r指的是 remote,rsync 其实就是”远程同步”(remote sync)的意思。与其他文件传输工具(如 FTP 或 scp)不同,rsync 的最大特点是会检查发送方和接收方已有的文件,仅传输有变动的部分(默认规则是文件大小或修改时间有变动)。

二、安装

如果本机或者远程计算机没有安装 rsync,可以用下面的命令安装。

1
2
3
4
5
6
7
8
# Debian
$ sudo apt-get install rsync

# Red Hat
$ sudo yum install rsync

# Arch Linux
$ sudo pacman -S rsync

注意,传输的双方都必须安装 rsync。

三、基本用法

3.1 -r 参数

本机使用 rsync 命令时,可以作为cpmv命令的替代方法,将源目录同步到目标目录。

1
$ rsync -r source destination

上面命令中,-r表示递归,即包含子目录。注意,-r是必须的,否则 rsync 运行不会成功。source目录表示源目录,destination表示目标目录。

如果有多个文件或目录需要同步,可以写成下面这样。

1
$ rsync -r source1 source2 destination

上面命令中,source1source2都会被同步到destination目录。

3.2 -a 参数

-a参数可以替代-r,除了可以递归同步以外,还可以同步元信息(比如修改时间、权限等)。由于 rsync 默认使用文件大小和修改时间决定文件是否需要更新,所以-a-r更有用。下面的用法才是常见的写法。

1
$ rsync -a source destination

目标目录destination如果不存在,rsync 会自动创建。执行上面的命令后,源目录source被完整地复制到了目标目录destination下面,即形成了destination/source的目录结构。

如果只想同步源目录source里面的内容到目标目录destination,则需要在源目录后面加上斜杠。

1
$ rsync -a source/ destination

上面命令执行后,source目录里面的内容,就都被复制到了destination目录里面,并不会在destination下面创建一个source子目录。

3.3 -n 参数

如果不确定 rsync 执行后会产生什么结果,可以先用-n--dry-run参数模拟执行的结果。

1
$ rsync -anv source/ destination

上面命令中,-n参数模拟命令执行的结果,并不真的执行命令。-v参数则是将结果输出到终端,这样就可以看到哪些内容会被同步。

3.4 --delete 参数

默认情况下,rsync 只确保源目录的所有内容(明确排除的文件除外)都复制到目标目录。它不会使两个目录保持相同,并且不会删除文件。如果要使得目标目录成为源目录的镜像副本,则必须使用--delete参数,这将删除只存在于目标目录、不存在于源目录的文件。

1
$ rsync -av --delete source/ destination

上面命令中,--delete参数会使得destination成为source的一个镜像。

四、排除文件

4.1 --exclude 参数

有时,我们希望同步时排除某些文件或目录,这时可以用--exclude参数指定排除模式。

1
2
3
$ rsync -av --exclude='*.txt' source/ destination
# 或者
$ rsync -av --exclude '*.txt' source/ destination

上面命令排除了所有 TXT 文件。

注意,rsync 会同步以”点”开头的隐藏文件,如果要排除隐藏文件,可以这样写--exclude=".*"

如果要排除某个目录里面的所有文件,但不希望排除目录本身,可以写成下面这样。

1
$ rsync -av --exclude 'dir1/*' source/ destination

多个排除模式,可以用多个--exclude参数。

1
$ rsync -av --exclude 'file1.txt' --exclude 'dir1/*' source/ destination

多个排除模式也可以利用 Bash 的大扩号的扩展功能,只用一个--exclude参数。

1
$ rsync -av --exclude={'file1.txt','dir1/*'} source/ destination

如果排除模式很多,可以将它们写入一个文件,每个模式一行,然后用--exclude-from参数指定这个文件。

1
$ rsync -av --exclude-from='exclude-file.txt' source/ destination

4.2 --include 参数

--include参数用来指定必须同步的文件模式,往往与--exclude结合使用。

1
$ rsync -av --include="*.txt" --exclude='*' source/ destination

上面命令指定同步时,排除所有文件,但是会包括 TXT 文件。\

五、远程同步

5.1 SSH 协议

rsync 除了支持本地两个目录之间的同步,也支持远程同步。它可以将本地内容,同步到远程服务器。

1
$ rsync -av source/ username@remote_host:destination

也可以将远程内容同步到本地。

1
$ rsync -av username@remote_host:source/ destination

rsync 默认使用 SSH 进行远程登录和数据传输。

由于早期 rsync 不使用 SSH 协议,需要用-e参数指定协议,后来才改的。所以,下面-e ssh可以省略。

1
$ rsync -av -e ssh source/ user@remote_host:/destination

但是,如果 ssh 命令有附加的参数,则必须使用-e参数指定所要执行的 SSH 命令。

1
$ rsync -av -e 'ssh -p 2234' source/ user@remote_host:/destination

上面命令中,-e参数指定 SSH 使用2234端口。

特别注意:ssh协议需要输入密码,如果想自动化或者免密,需要做互信。互信步骤如下

  • 分别在2个节点运行 ssh-keygen生成公钥和秘钥
  • 分别在2个节点运行 ssh-copy-id root@另一个节点地址,如果出现ssh-copy-id命令找不到,可以使用cat ~/.ssh/id_*.pub | ssh -p 22345 root@另一个节点地址 'cat >> .ssh/authorized_keys'代替。

5.2 rsync 协议

除了使用 SSH,如果另一台服务器安装并运行了 rsync 守护程序,则也可以用rsync://协议(默认端口873)进行传输。具体写法是服务器与目标目录之间使用双冒号分隔::

1
$ rsync -av source/ 192.168.122.32::module/destination

注意,上面地址中的module并不是实际路径名,而是 rsync 守护程序指定的一个资源名,由管理员分配。

如果想知道 rsync 守护程序分配的所有 module 列表,可以执行下面命令。

1
$ rsync rsync://192.168.122.32

rsync 协议除了使用双冒号,也可以直接用rsync://协议指定地址。

1
$ rsync -av source/ rsync://192.168.122.32/module/destination

六、配置项

-a--archive参数表示存档模式,保存所有的元数据,比如修改时间(modification time)、权限、所有者等,并且软链接也会同步过去。

--append参数指定文件接着上次中断的地方,继续传输。

--append-verify参数跟--append参数类似,但会对传输完成后的文件进行一次校验。如果校验失败,将重新发送整个文件。

-b--backup参数指定在删除或更新目标目录已经存在的文件时,将该文件更名后进行备份,默认行为是删除。更名规则是添加由--suffix参数指定的文件后缀名,默认是~

--backup-dir参数指定文件备份时存放的目录,比如--backup-dir=/path/to/backups

--bwlimit参数指定带宽限制,默认单位是 KB/s,比如--bwlimit=100

-c--checksum参数改变rsync的校验方式。默认情况下,rsync 只检查文件的大小和最后修改日期是否发生变化,如果发生变化,就重新传输;使用这个参数以后,则通过判断文件内容的校验和,决定是否重新传输。

--delete参数删除只存在于目标目录、不存在于源目标的文件,即保证目标目录是源目标的镜像。

-e参数指定使用 SSH 协议传输数据。

--exclude参数指定排除不进行同步的文件,比如--exclude="*.iso"

--exclude-from参数指定一个本地文件,里面是需要排除的文件模式,每个模式一行。

--existing--ignore-non-existing参数表示不同步目标目录中不存在的文件和目录。

-h参数表示以人类可读的格式输出。

-h--help参数返回帮助信息。

-i参数表示输出源目录与目标目录之间文件差异的详细情况。

--ignore-existing参数表示只要该文件在目标目录中已经存在,就跳过去,不再同步这些文件。

--include参数指定同步时要包括的文件,一般与--exclude结合使用。

--link-dest参数指定增量备份的基准目录。

-m参数指定不同步空目录。

--max-size参数设置传输的最大文件的大小限制,比如不超过200KB(--max-size='200k')。

--min-size参数设置传输的最小文件的大小限制,比如不小于10KB(--min-size=10k)。

-n参数或--dry-run参数模拟将要执行的操作,而并不真的执行。配合-v参数使用,可以看到哪些内容会被同步过去。

-P参数是--progress--partial这两个参数的结合。

--partial参数允许恢复中断的传输。不使用该参数时,rsync会删除传输到一半被打断的文件;使用该参数后,传输到一半的文件也会同步到目标目录,下次同步时再恢复中断的传输。一般需要与--append--append-verify配合使用。

--partial-dir参数指定将传输到一半的文件保存到一个临时目录,比如--partial-dir=.rsync-partial。一般需要与--append--append-verify配合使用。

--progress参数表示显示进展。

-r参数表示递归,即包含子目录。

--remove-source-files参数表示传输成功后,删除发送方的文件。

--size-only参数表示只同步大小有变化的文件,不考虑文件修改时间的差异。

--suffix参数指定文件名备份时,对文件名添加的后缀,默认是~

-u--update参数表示同步时跳过目标目录中修改时间更新的文件,即不同步这些有更新的时间戳的文件。

-v参数表示输出细节。-vv表示输出更详细的信息,-vvv表示输出最详细的信息。

--version参数返回 rsync 的版本。

-z参数指定同步时压缩数据。

keepalive+inotify+rsync方案

了解以上的基本知识之后,我们明白了如何使用rsync在2个节点之间进行同步,但是如何实现自动同步?inotity。

inotify

inotify是Linux内核的一个文件系统事件监控机制,主要功能和用途如下:

  1. inotify可以监视文件系统的各种事件,如文件访问、修改、读写、删除、移动等变化。
  2. 应用程序可以通过inotify提供的系统调用获取这些事件通知。
  3. 常见用途包括文件变化监控、同步、自动化处理等,非常适合需要关注文件变化的程序。
  4. inotify取代了早期的dnotify机制,提供更丰富的事件类型支持。

inotify内核已经包含了,但是还需要安装相应的包,来提供命令,调用inotify

1
2
3
4
5
6
# Debian/Ubuntu:
sudo apt update
sudo apt install inotify-tools

# centos
sudo yum install inotify-tools

定制脚本

有了 inotify,那么我们就可以编写一个脚本来实现实时数据同步了。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
#!/bin/bash

# File name: data_realtime_sync.sh
# File path: /opt/xview/xview-api/data_realtime_rsync.sh
# author: xiaobin.zhao@cstack.io
# date: 2023-09-01
# 说明:实时同步目录下文件,文件内容变更时,自动同步变更文件所在的目录。使用`inotify`监控目录路径下文件的修改、属性变更、移动、创建、删除操作
# 然后使用`rsync`同步文件到目标目录。注意:由于内核已经支持rsync,只需要安装inotify-tools软件包,`apt-get install inotify-tools`。
#
# 1. 同步协议可以有2种实现:ssh协议和rsync协议
# 1.1. ssh 协议
# 1.1.1. ssh协议可以使用 `-e` 参数也可省略,比如:rsync -avz /source -e "ssh -p22345" root@192.168.100.10:/destination;这里指定ssh端口为22345
# 1.1.2. ssh协议如果没有做节点互信,是需要输入密码的,如果需要免密,可以使用ssh-keygen生成密钥对,然后使用ssh-copy-id将公钥拷贝到目标服务器上。
# 1.1.3. ssh协议不需要开启rsync的守护程序和rsync配置文件,直接使用rsync命令即可。
#
# 1.2. rsync 协议
# 1.2.1. rsync 协议使用module和配置文件来指定资源。`rsync协议`的具体写法是服务器与目标目录之间使用双冒号分隔::,
# 比如`rsync -av source/ 192.168.122.32::module/destination`, 这个地址中的module并不是实际路径名,而是 rsync 守护程序
# 指定的一个资源名,由配置文件指定。也可以直接用rsync://协议指定地址,比如:` rsync -av source/ rsync://192.168.122.32/module/destination`
# 1.2.2. rsync 协议服务端需要开启rsync的守护程序,可以使用`rsync --daemon`来启动守护程序。客户端不用开启。
# 1.2.3. rsync 协议可以指定密码文件(客户端和服务端都需要),可以使用`rsync --password-file=/path/to/passwordfile`,密码文件的权限为600
# 1.2.4. rsync 协议需要在目标服务器配置rsync的配置文件,可以使用`rsync --daemon --config=/etc/rsyncd.conf`来指定配置文件
# 1.2.5. 具体流程可以参考 https://blog.csdn.net/zd147896325/article/details/108776954
# https://www.cnblogs.com/leixixi/p/14751914.html
#
# 2. 推荐使用ssh协议,配置简单一点。配置互信步骤如下
# 2.1. 分别在2个节点运行 `ssh-keygen`生成公钥和秘钥
# 2.2. 分别在2个节点运行 `ssh-copy-id root@另一个节点地址`,如果出现ssh-copy-id命令找不到,
# 可以使用`cat ~/.ssh/id_*.pub | ssh -p 22345 root@另一个节点地址 'cat >> .ssh/authorized_keys'`代替。


# 以下脚本只能在`inotify`运行时进行同步,为了防止有意外遗漏,可以增加定时任务做全量同步作为补充。
# 每2个小时做1次全量同步
# crontab -e
# * */2 * * * rsync -avzc -e "ssh -p ${ssh_port}" --log-file=${log_path} --log-file-format=${log_fmt} /var/lib/xview root@10.221.128.178:/var/lib/xview

dest_ip="10.221.128.178"
src_dir="/var/lib/xview"
dest_dir="/var/lib/xview"
ssh_port=22345
log_path="/var/log/xview/xview-rsync.log"
log_fmt="%f" # 输出变更时的文件


# 由于rsync同步的特性,这里必须要先cd到源目录,inotify再监听 ./ 才能rsync同步后目录结构一致
cd ${src_dir} || exit # 目录不存在时,退出

# 递归监控目录路径下文件的修改、属性变更、移动、创建、删除,并按照格式输出:'{事件} {路径}{文件名}',
# modify是只要有内容变更即触发,而close_write是写操作完成关闭文件时触发
inotifywait -mrq -e modify,attrib,close_write,move,create,delete --format '%e %w%f' ./ |

while read -r file;do # 把监控到有发生更改的"文件路径列表"循环

INO_EVENT=$(echo "$file" | awk '{print $1}') # 获取变更文件的事件类型
INO_FILE=$(echo "$file" | awk '{print $2}') # 获取变更文件的绝对路径,例如`/root/syncdir/test.txt`

if [[ $INO_EVENT =~ 'CREATE' ]] || [[ $INO_EVENT =~ 'MODIFY' ]] || [[ $INO_EVENT =~ 'CLOSE_WRITE' ]] ||
[[ $INO_EVENT =~ 'MOVED_TO' ]];then # 创建/修改/移动文件;modify是只要有内容变更即触发,而close_write是写操作完成关闭文件时触发

for ip in ${dest_ip};do
# -a 表示同步所有文件,包括隐藏文件和其下所有子文件和文件的属性
# -v 表示输出详细信息
# -z 表示传输时进行压缩,
# -c 表示基于文件校验和进行增量同步,而不是基于文件时间戳和大小。默认情况下,rsync判断目标文件是否需要同步是通过比较源文件和
# 目标文件最后修改时间(mtime)和文件大小是否相同,但是某些情况下,文件的mtime和大小相同,但内容可能不同,
# 这时就需要比较文件校验和来判断是否真正改变了文件内容。
# -R 表示使用相对路径信息
rsync -avzcR -e "ssh -p ${ssh_port}" --log-file=${log_path} --log-file-format=${log_fmt} $(dirname ${INO_FILE}) root@${ip}:${dest_dir}
# 上面的rsync同步命令 源是用了$(dirname ${INO_FILE})变量 即每次只针对性的同步发生改变的文件的目录,而不是整个目录同步
done
fi
# 修改属性事件 指 touch chgrp chmod chown等操作
if [[ $INO_EVENT =~ 'ATTRIB' ]];then

if [ ! -d "$INO_FILE" ];then # 如果修改属性的是目录 则不同步,因为同步目录会发生递归扫描,等此目录下的文件发生同步时,rsync会顺带更新此目录
for ip in ${dest_ip};do
rsync -avzcR -e "ssh -p ${ssh_port}" --log-file=${log_path} --log-file-format=${log_fmt} $(dirname ${INO_FILE}) root@${ip}:${dest_dir}
done
fi
fi
# 删除、移动出事件
# 如果直接同步已删除的路径${INO_FILE}会报no such or directory错误 所以这里同步的源是被删文件或目录的上一级路径,
# 并加上--delete来删除目标上有而源中没有的文件,这里不能做到指定文件删除,如果删除的路径越靠近根,则同步的目录越多,
# 同步删除的操作就越花时间
if [[ $INO_EVENT =~ 'DELETE' ]] || [[ $INO_EVENT =~ 'MOVED_FROM' ]];then

for ip in ${dest_ip};do
rsync -avzcR --delete -e "ssh -p ${ssh_port}" --log-file=${log_path} --log-file-format=${log_fmt} $(dirname ${INO_FILE}) root@${ip}:${dest_dir}
done
fi
done

脚本解释

  • rsync采用ssh协议,需要先进行互信(参考rsync入门);rsync协议部署略复杂
  • 输出日志到指定目录:/var/log/xview/xview-rsync.log
  • 输出日志时带上变更的文件名:log_fmt=”%f”
  • 监听指定路径的变更事件,并按照不同的变更事件进行不同的处理
    • 文件创建/修改/移动文件/属性变更,同步文件所在的文件夹下所有的变更
    • 文件夹属性变更,跳过,等待和文件变更时一起处理
    • 文件删除/移出,同步文件所在的文件夹,并删除目标机器下多余的文件

定制systemctl服务

1
2
3
4
5
6
7
8
[Unit]
Description=xview-rsync daemon

[Service]
ExecStart=/usr/bin/nohup /opt/xview/xview-api/data_realtime_rsync.sh &

[Install]
WantedBy=multi-user.target

使用 systemctl restart/stop/start xview-rsync来控制服务的启停。

补充定时任务

脚本只能在xview-rsync运行时进行同步,为了防止有意外遗漏,可以增加定时任务做全量同步作为补充

1
2
# crontab -e
# * */2 * * * rsync -avzc -e "ssh -p ${ssh_port}" --log-file=${log_path} --log-file-format=${log_fmt} /var/lib/xview root@10.221.128.178:/var/lib/xview

keepalive

回到最初的问题:在高可用主备服务场景中,如何实现2个节点之间的文件同步呢?

关键词高可用。我们一般的高可用方案是keepalive,使用keepalive来控制vip在master/backup节点之间漂移,实现主备切换。那么如何在keepalive环境中配置xview-rsync呢?使用keepalive的notify-scripts.

编辑keepalive的配置文件:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
global_defs {
notification_email {
root@localhost
}
notification_email_from keadmin@localhost
smtp_server localhost
smtp_connect_timeout 30
}

vrrp_instance VI_1 {
state MASTER
interface eth0
virtual_router_id 51
priority 150
advert_int 1
authentication {
auth_type PASS
auth_pass xview-ha
}
virtual_ipaddress {
10.10.1.200/24
}

notify_master "/bin/bash /opt/xview/xview-api/notify_master.sh"
notify_backup "/bin/bash /opt/xview/xview-api/notify_backup.sh"
notify_fault "/bin/bash /opt/xview/xview-api/notify_backup.sh"
}

notify_master.sh

1
2
3
4
#!/usr/bin/env bash
echo "master" > /opt/xview/xview-api/keepalive_status.txt

systemctl restart xview-rsync.service

notify_backup.sh

1
2
3
4
#!/usr/bin/env bash
echo "slave" > /opt/xview/xview-api/keepalive_status.txt

systemctl stop xview-rsync.service

只有主节点在运行xview-rsync服务,备节点服务关闭。当主节点切换时,备节点xview-sync服务启动,主节点关闭。

以上

坚持原创技术分享,您的支持将鼓励我继续创作!