Rsync 数据同步工具

本文最后更新于:2021年12月25日 下午

Rsync 是一款开源的,快速的,多功能的,可实现全量及增量(差异化备份)的本地或远程数据同步备份的优秀工具。本文记录相关内容。

简介

  • rsync 是一个常用的 Linux 应用程序,用于文件同步。

  • 名称里面的r指的是 remote,rsync 其实就是"远程同步"(remote sync)的意思。与其他文件传输工具(如 FTP 或 scp)不同,rsync 的最大特点是会检查发送方和接收方已有的文件,仅传输有变动的部分(默认规则是文件大小或修改时间有变动)。

  • rsync 可以在本地计算机与远程计算机之间,或者两个本地目录之间同步文件(但不支持两台远程计算机之间的同步)。它也可以当作文件复制工具,替代cpmv命令。

  • 在同步备份数据时,默认情况下rsync通过独特的“quick check” 算法,它仅同步大小或者最后修改时间发生变化的文件或目录,当然也可以是根据权限,属主等属性的变化同步,但需要指定相应的参数,甚至可以实现只同步一个文件里有变化的内容部分,所以可以实现快速的同步备份数据。

用途

Rsync软件适用于Unix、Linux、Windows等多种操作系统。

  • 可使本地和远程两台主机之间的数据快速复制同步镜像,远程备份的功能,这个功能类似ssh带scp命令,但又优于scp命令的功能,scp每次都是全量拷贝,而rsync可以增量拷贝。

  • rsync还可以在本地主机的不同分区或目录之间全量及增量的复制数据,

  • 利用rsync还可以实现删除文件和目录的功能。相当于rm

  • rsync相当于scp, cp. rm但是还优于他们每一个命令。

特性

  1. 支持拷贝特殊文件如链接文件,设备等。
  2. 可以有排除指定文件或目录同步的功能,相当于打包命令tar的排除功能。
  3. 可以做到保持源文件或目录的权限,时间,软硬链接,属主,组等属性均不改变 -p.
  4. 可以实现增量同步,即只同步发生变化的数据,因此数据传输的效率很高,tar -N.
  5. 可以使用rcp,rsh,ssh,等方式来配合传输文件(rsync本身不对数据加密)
  6. 可以通过soket(进程方式)传输文件和数据(服务端和客户端)*****
  7. 支持匿名的或认证的(无需系统用户)的进程模式传输,可实现方便安全的进程数据备份及镜像。

使用方式

实时同步

利用 rsync 结合 inotify 或sersync 的功能做实时数据同步,根据存储服务器上目录的变化,把变化的数据通过inotify或sersync结合rsync命令,同步到备份服务器,还可以通过drbd方案以及双写的方案实现双机数据同步。

计划任务

结合 at 或 crontab 可以定期对数据库进行备份,配合任务计划,rsync能实现定时或间隔同步,按照需求增量备份,同步删除数据。

工作方式
  1. 单个主机本地之间的数据传输(此时类似于cp命令的功能)
  2. 借助rcp,ssh等通道来传输数据(此时类似于scp命令的功能)
  3. 以守护进程(socket)的方式传输数据(这个是rsync自身的重要功能)

官网

rsync官方网站: https://www.samba.org/ftp/rsync/rsync.html

同步说明

  • rsync目的是实现本地主机和远程主机上的文件同步(包括本地推到远程,远程拉到本地两种同步方式),也可以实现本地不同路径下文件的同步,但不能实现远程路径1到远程路径2之间的同步(scp可以实现)。

  • rsync 操作上需要确定源和目标的概念

    例如,想让目标主机上的文件和本地文件保持同步,则是以本地文件为同步基准,将本地文件作为源文件推送到目标主机上。反之,如果想让本地主机上的文件和目标主机上的文件保持同步,则目标主机上的文件为同步基准,实现方式是将目标主机上的文件作为源文件拉取到本地。

  • 带有选项控制工作流程

    例如是否要删除源主机上没有但目标上多出来的文件,目标文件比源文件更新(newer than source)时是否仍要保持同步,遇到软链接时是拷贝软链接本身还是拷贝软链接所指向的文件,目标文件已存在时是否要先对其做个备份等等。

同步过程

rsync同步过程中由两部分模式组成:决定哪些文件需要同步的检查模式以及文件同步时的同步模式

检查模式

指按照指定规则来检查哪些文件需要被同步,例如哪些文件是明确被排除不传输的。默认情况下,rsync使用"quick check"算法快速检查源文件和目标文件的大小、mtime(修改时间)是否一致,如果不一致则需要传输。当然,也可以通过在rsync命令行中指定某些选项来改变quick check的检查模式,比如"–size-only"选项表示"quick check"将仅检查文件大小不同的文件作为待传输文件。rsync支持非常多的选项,其中检查模式的自定义性是非常有弹性的。

同步模式

在文件确定要被同步后,在同步过程发生之前要做哪些额外工作。例如上文所说的是否要先删除源主机上没有但目标主机上有的文件,是否要先备份已存在的目标文件,是否要追踪链接文件等额外操作。rsync也提供非常多的选项使得同步模式变得更具弹性。

相对来说,为rsync手动指定同步模式的选项更常见一些,只有在有特殊需求时才指定检查模式,因为大多数检查模式选项都可能会影响rsync的性能。

工具安装

1
2
3
4
5
# Debian
sudo apt-get install rsync

# Red Hat
sudo yum install rsync

注意: 传输的双方都必须安装 rsync。

数据传输方式

本地方式

单个主机本地之间的数据传输(此时类似于cp命令)

  • 本地拷贝数据命令

    1
    rsync [OPTION...] SRC... [DEST]
    • 示例
    1
    rsync -avz /etc/passwd /tmp/

远程方式 / ssh 协议

rsync 除了支持本地两个目录之间的同步,也支持远程同步。它可以将本地内容,同步到远程服务器。

通过ssh通道传输数据,类似scp命令

  • pull拉取数据命令

    1
    rsync [OPTION...] [USER@]HOST:SRC... [DEST]
    • 示例
    1
    2
    3
    4
    rsync -avz root@172.16.1.41:/etc/hostname ./ #拉取远程文件
    rsync -avz root@172.16.1.41:/root/ /backup/ #拉取远程目录下的所有文件
    rsync -avz root@172.16.1.41:/root /backup/ #拉取远程目录以及目录下的所有文件
    rsync -av username@remote_host:source/ destination
  • push推送数据命令

    1
    rsync [OPTION...] SRC... [USER@]HOST:DEST
    • 示例
    1
    2
    rsync -avz /backup/2018-10-01 root@172.16.1.41:/tmp/
    rsync -av source/ username@remote_host:destination
  • rsync 默认使用 SSH 进行远程登录和数据传输。

    由于早期 rsync 不使用 SSH 协议,需要用-e参数指定协议,后来才改的。所以,下面-e ssh可以省略。

    1
    rsync -av -e ssh source/ user@remote_host:/destination

    但是,如果 ssh 命令有附加的参数,则必须使用-e参数指定所要执行的 SSH 命令。

    1
    rsync -av -e 'ssh -p 2234' source/ user@remote_host:/destination

    上面命令中,-e参数指定 SSH 使用2234端口。

  • Rsync借助SSH协议同步数据存在的缺陷:

    1. 使用系统用户(不安全)
    2. 使用普通用户(会导致权限不足情况)

守护进程 / rsync 协议

除了使用 SSH,如果另一台服务器安装并运行了 rsync 守护程序,则也可以用rsync://协议(默认端口873)进行传输。

具体写法是服务器与目标目录之间使用双冒号分隔::,该方法可以不使用系统用户,更加安全

  • pull拉取数据命令

    1
    rsync [OPTION...] [USER@]HOST::SRC... [DEST]
    • 示例

    拉取 rsync 备份服务的 “backup模块” 数据至本地 /mnt 目录

    1
    rsync -avz rsync_backup@192.172.16.1.41::backup/ /mnt/ --password-file=/etc/rsync.password
  • push推送数据命令

    1
    rsync [OPTION...] SRC... [USER@]HOST::DEST
    • 示例

    将本地文件夹推向远端

    1
    rsync -av source/ 192.168.122.32::module/destination

    注意,上面地址中的module并不是实际路径名,而是 rsync 守护程序指定的一个资源名,由管理员分配。

    将本地/mnt目录推送至rsync备份服务器的backup模块

    1
    rsync -avz /mnt/ rsync_backup@192.172.16.1.41::backup/ --password-file=/etc/rsync.password

    如果想知道 rsync 守护程序分配的所有 module 列表,可以执行下面命令。

    1
    rsync rsync://192.168.122.32

    rsync 协议除了使用双冒号,也可以直接用rsync://协议指定地址。

    1
    rsync -av source/ rsync://192.168.122.32/module/destination

增量备份

  • rsync 的最大特点就是它可以完成增量备份,也就是默认只复制有变动的文件。

  • 除了源目录与目标目录直接比较,rsync 还支持使用基准目录,即将源目录与基准目录之间变动的部分,同步到目标目录。

  • 具体做法是,第一次同步是全量备份,所有文件在基准目录里面同步一份。以后每一次同步都是增量备份,只同步源目录与基准目录之间有变动的部分,将这部分保存在一个新的目标目录。这个新的目标目录之中,也是包含所有文件,但实际上,只有那些变动过的文件是存在于该目录,其他没有变动的文件都是指向基准目录文件的硬链接。

  • --link-dest参数用来指定同步时的基准目录。

1
rsync -a --delete --link-dest /compare/path /source/path /target/path

上面命令中,–link-dest参数指定基准目录/compare/path,然后源目录/source/path跟基准目录进行比较,找出变动的文件,将它们拷贝到目标目录/target/path。那些没变动的文件则会生成硬链接。这个命令的第一次备份时是全量备份,后面就都是增量备份了。

  • 下面是一个脚本示例,备份用户的主目录。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
#!/bin/bash

# A script to perform incremental backups using rsync

set -o errexit
set -o nounset
set -o pipefail

readonly SOURCE_DIR="${HOME}"
readonly BACKUP_DIR="/mnt/data/backups"
readonly DATETIME="$(date '+%Y-%m-%d_%H:%M:%S')"
readonly BACKUP_PATH="${BACKUP_DIR}/${DATETIME}"
readonly LATEST_LINK="${BACKUP_DIR}/latest"

mkdir -p "${BACKUP_DIR}"

rsync -av --delete \
"${SOURCE_DIR}/" \
--link-dest "${LATEST_LINK}" \
--exclude=".cache" \
"${BACKUP_PATH}"

rm -rf "${LATEST_LINK}"
ln -s "${BACKUP_PATH}" "${LATEST_LINK}"

上面脚本中,每一次同步都会生成一个新目录${BACKUP_DIR}/${DATETIME},并将软链接${BACKUP_DIR}/latest指向这个目录。下一次备份时,就将${BACKUP_DIR}/latest作为基准目录,生成新的备份目录。最后,再将软链接${BACKUP_DIR}/latest指向新的备份目录。

参数总结

  • 命令选项
选项 含义
-a / --archive 归档模式传输,保存所有的元数据,比如修改时间(modification time)、权限、所有者等,并且软链接也会同步过去。
–append 指定文件接着上次中断的地方,继续传输
–append-verify 参数跟--append参数类似,但会对传输完成后的文件进行一次校验。如果校验失败,将重新发送整个文件
-b / --backup 指定在删除或更新目标目录已经存在的文件时,将该文件更名后进行备份,默认行为是删除。
更名规则是添加由--suffix参数指定的文件后缀名,默认是~
–backup-dir 指定文件备份时存放的目录,比如--backup-dir=/path/to/backups
–bwlimit 指定带宽限制,默认单位是 KB/s,比如--bwlimit=100
-c / --checksum 改变rsync的校验方式。默认情况下,rsync 只检查文件的大小和最后修改日期是否发生变化,如果发生变化,就重新传输;使用这个参数以后,则通过判断文件内容的校验和,决定是否重新传输。
–delete 使得目标和源数据完全相同,删除只存在于目标目录、不存在于源目标的文件,即保证目标目录是源目标的镜像,即少增多删
-D 保持设备文件信息
-e 使用的信道协议,指定使用 SSH 协议传输数据。
–exclude=PATTERN 指定排除不需要传输的文件模式,指定排除不进行同步的文件,比如--exclude="*.iso"
–exclude-from 从规则列表文件中加载排除规则,参数指定一个本地文件,里面是需要排除的文件模式,每个模式一行。
–existing / --ignore-non-existing 表示不同步目标目录中不存在的文件和目录。
-g 保持文件属组信息
-h 表示以人类可读的格式输出
–help 返回帮助信息
-i 表示输出源目录与目标目录之间文件差异的详细情况
–ignore-existing 表示只要该文件在目标目录中已经存在,就跳过去,不再同步这些文件。
–include 指定必须同步的文件列表,一般与--exclude结合使用,优先级高于 exclude
-l 保留软连接
-L 保留软连接指向的目标文件
–link-dest 定义同步基准目录
-m 参数指定不同步空目录
–max-size 参数设置传输的最大文件的大小限制,比如不超过200KB(--max-size='200k'
–min-size 参数设置传输的最小文件的大小限制,比如不小于10KB(--min-size=10k)。
-n / --dry-run 模拟命令执行的结果,并不真的执行命令,配合-v参数使用,可以看到哪些内容会被同步过去。
-o 保持文件属主信息
-p 保持文件权限
–partial 允许恢复中断的传输。不使用该参数时,rsync会删除传输到一半被打断的文件;使用该参数后,传输到一半的文件也会同步到目标目录,下次同步时再恢复中断的传输。一般需要与--append--append-verify配合使用。
–progress 显示进展
–partial-dir 参数指定将传输到一半的文件保存到一个临时目录,比如--partial-dir=.rsync-partial。一般需要与--append--append-verify配合使用。
-P 显示同步的过程及传输时的进度等信息,是--progress--partial这两个参数的结合。
-r 递归传输目录及子目录,即目录下得所有目录都同样传输。
-R 使用相对路径,此相对路径以目标目录为根
–remove-source-files 参数表示传输成功后,删除发送方的文件。
–size-only 表示只同步大小有变化的文件,不考虑文件修改时间的差异。
–suffix 参数指定文件名备份时,对文件名添加的后缀,默认是~
-t 保持文件时间信息
-u / --update 表示同步时跳过目标目录中修改时间更新的文件,即不同步这些有更新的时间戳的文件。
-v 详细模式输出,-vv表示输出更详细的信息,-vvv表示输出最详细的信息。
–version 返回 rsync 的版本
-z 传输时进行压缩以提高效率

基础示例

拷贝

将/etc/fstab拷贝到/tmp目录下。

1
rsync /etc/fstab /tmp

将/etc/cron.d目录拷贝到/tmp下。

1
rsync -r /etc/cron.d /tmp

该命令会在目标主机上创建/tmp/cron.d目录,并将/etc/cron.d/中的文件放入到/tmp/cron.d/目录中,也就是说默认情况下,是不会在目录路径下创建上层目录/etc的。

将/etc/cron.d目录拷贝到/tmp下,但要求在/tmp下也生成etc子目录。

1
rsync -R -r /etc/cron.d /tmp
  • 其中"-R"选项表示使用相对路径,此相对路径是以目标目录为根的。对于上面的示例,表示在目标上的/tmp下创建etc/cron.d目录,即/tmp/etc/cron.d,etc/cron.d的根"/"代表的就是目标/tmp。

  • 如果要拷贝的源路径较长,但只想在目标主机上保留一部分目录结构,例如要拷贝/var/log/anaconda/*到/tmp下,但只想在/tmp下保留从log开始的目录,如何操作?使用一个点代表相对路径的起始位置即可,也就是将长目录进行划分。

1
rsync -R -r /var/./log/anaconda /tmp

这样,从点开始的目录都是相对路径,其相对根目录为目标路径。所以对于上面的示例,将在目标上创建/tmp/log/anaconda/*。

对远程目录下已存在文件做一个备份。

1
rsync -R -r --backup /var/./log/anaconda /tmp
  • 使用"–backup-dir"指定备份文件保存路径,但要求保存路径必须存在。

  • 指定备份路径后,默认将不会加备份后缀,除非使用"–suffix"显式指定后缀,如"–suffix=~"。

  • 核心命令格式

1
rsync [OPTION...] [SRC] [DEST]

-r

  • 可以作为cpmv命令的替代方法,将源目录同步到目标目录
1
rsync -r source destination

上面命令中,-r表示递归,即包含子目录。注意,-r是必须的,否则 rsync 运行不会成功。source目录表示源目录,destination表示目标目录。

  • 如果有多个文件或目录需要同步,可以写成这样
1
rsync -r source1 source2 destination

执行命令后,source1source2都会被同步到destination目录。

-a

-a参数可以替代-r,除了可以递归同步以外,还可以同步元信息(比如修改时间、权限等)。

  • 由于 rsync 默认使用文件大小和修改时间决定文件是否需要更新,所以-a-r更有用。下面的用法才是常见的写法。
1
rsync -a source destination

目标目录destination如果不存在,rsync 会自动创建。执行上面的命令后,源目录source被完整地复制到了目标目录destination下面,即形成了destination/source的目录结构。

  • 如果只想同步源目录source里面的内容到目标目录destination,则需要在源目录后面加上斜杠。
1
rsync -a source/ destination

上面命令执行后,source目录里面的内容,就都被复制到了destination目录里面,并不会在destination下面创建一个source子目录。

-n

  • 如果不确定 rsync 执行后会产生什么结果,可以先用-n--dry-run参数模拟执行的结果。
1
rsync -anv source/ destination

上面命令中,-n参数模拟命令执行的结果,并不真的执行命令。-v参数则是将结果输出到终端,这样就可以看到哪些内容会被同步。

–delete

默认情况下,rsync 只确保源目录的所有内容(明确排除的文件除外)都复制到目标目录。它不会使两个目录保持相同,并且不会删除文件

  • 如果要使得目标目录成为源目录的镜像副本,则必须使用–delete参数,这将删除只存在于目标目录、不存在于源目录的文件。
1
rsync -av --delete source/ destination

上面命令中,–delete参数会使得destination成为source的一个镜像。

  • 将"–delete"选项和"–exclude"选项一起使用,则被排除的文件不会被删除。
1
2
rsync -r /var/log/anaconda /var/log/audit /tmp  # 先进行一次同步以便测试
rsync -r -v --exclude="anaconda/*.log" /var/log/anaconda /var/log/audit /tmp --delete

–exclude

  • 有时,我们希望同步时排除某些文件或目录,这时可以用--exclude参数指定排除模式。
1
2
3
rsync -av --exclude='*.txt' source/ destination
# 或者
rsync -av --exclude '*.txt' source/ destination

上面命令排除了所有 TXT 文件。

注意: rsync 会同步以"点"开头的隐藏文件,如果要排除隐藏文件,可以这样写--exclude=".*"

  • 如果要排除某个目录里面的所有文件,但不希望排除目录本身,可以写成下面这样。
1
rsync -av --exclude 'dir1/*' source/ destination
  • 多个排除模式,可以用多个–exclude参数。
1
rsync -av --exclude 'file1.txt' --exclude 'dir1/*' source/ destination
  • 多个排除模式也可以利用 Bash 的大扩号的扩展功能,只用一个–exclude参数。
1
rsync -av --exclude={'file1.txt','dir1/*'} source/ destination
  • 如果排除模式很多,可以将它们写入一个文件,每个模式一行,然后用--exclude-from参数指定这个文件。
1
rsync -av --exclude-from='exclude-file.txt' source/ destination

–include

  • --include参数用来指定必须同步的文件模式,往往与--exclude结合使用,优先级高于 exclude
1
rsync -av --include="*.txt" --exclude='*' source/ destination

上面命令指定同步时,排除所有文件,但是会包括 TXT 文件。

ssh

指定ssh连接参数,如端口、连接的用户、ssh选项等。

1
rsync -e "ssh -p 22 -o StrictHostKeyChecking=no" /etc/fstab 172.16.10.5:/tmp

–existing / --ignore-existing

  • --existing 只更新目标端已存在的文件。
1
rsync -r -v --existing /tmp/a/ /tmp/b
  • --ignore-existing 更新目标端不存在的文件。
1
rsync -r -v --ignore-existing /tmp/a/ /tmp/b
  • --existing--ignore-existing结合使用时,有个特殊功效,当它们结合"–delete"使用的时候,文件不会传输,但会删除receiver端额外多出的文件。
1
rsync -nrv --existing --ignore-existing --delete a/ b/

–remove-source-files

  • 使用该选项后,源端已经更新成功的文件都会被删除,源端所有未传输或未传输成功的文件都不会被移除。未传输成功的原因有多种,如exclude排除了,"quick check"未选项该文件,传输中断等等。
1
rsync -r -v --remove-source-files /tmp/a/anaconda /tmp/a/audit /tmp       

测试模式调试 rsync

要写成功写入规则需要不断地进行调试,可以 使用"-n"选项(dry run模式,也就是只测试不传输)和"-i"选项(输出要传输文件的路径)

1
2
3
4
5
6
rsync -nr -i a b/
cd+++++++++ a/
>f+++++++++ a/1.txt
>f+++++++++ a/2.txt
>f+++++++++ a/3.txt
>f+++++++++ a/4.txt

参考资料