Bash循环与条件判断：for/if/case全解

for 和 if 是 Shell 脚本中使用频率最高的两种控制结构——批量处理 FASTQ、判断比对状态、遍历染色体、重跑失败样本，几乎每个生信脚本都离不开循环和条件判断。本文覆盖 for/while/until 循环、if/case 分支、test 命令速查和 6 个批量处理模板。

实测环境：Debian 12，Bash 5.2。

1. for循环——生信批量处理的基石#

1.1 基础语法#

1
# 方式1：列表遍历（最常用）
2
for sample in sample1 sample2 sample3; do
3
    echo "Processing ${sample}"
4
done
5

6
# 方式2：花括号展开
7
for i in {1..10}; do
8
    echo "Round ${i}"
9
done
10

11
# 方式3：类似C的写法
12
for ((i=1; i<=10; i++)); do
13
    echo "Index: ${i}"
14
done
15

16
# 方式4：命令替换
17
for file in $(ls *.fastq.gz); do
18
    echo "Found: ${file}"
19
done

强烈推荐方式1和方式3。方式4里的$(ls)有个经典问题：文件名含空格时会拆开。后面讲怎么安全遍历。

1.2 生信6大for循环模板#

模板1：批量处理配对FASTQ

1
#!/bin/bash
2
set -euo pipefail
3

4
# 假设文件名格式：Sample_S1_L001_R1_001.fastq.gz
5
R1_FILES=(*_R1_*.fastq.gz)
6

7
for r1 in "${R1_FILES[@]}"; do
8
    r2="${r1/_R1_/_R2_}"          # 替换R1为R2
9
    sample_id="${r1%%_R1*}"        # 提取样本ID
10
    sample_id="${sample_id##*/}"   # 去掉路径（如果有）
11

12
    echo "=== Processing ${sample_id} ==="
13

14
    # fastp质控
15
    fastp -i "${r1}" -I "${r2}" \
16
          -o "clean/${sample_id}_R1.fastq.gz" \
17
          -O "clean/${sample_id}_R2.fastq.gz" \
18
          -j "reports/${sample_id}_fastp.json" \
19
          -h "reports/${sample_id}_fastp.html" \
20
          -w 8
21

22
    echo "Done: ${sample_id}"
23
done

模板2：遍历BAM文件做统计

1
for bam in alignments/*.bam; do
2
    sample=$(basename "${bam}" .bam)
3

4
    # flagstat统计
5
    samtools flagstat "${bam}" > "stats/${sample}_flagstat.txt"
6

7
    # 深度统计
8
    samtools depth -a "${bam}" | \
9
        awk '{sum+=$3; count++} END {print "Mean depth:", sum/count}' \
10
        > "stats/${sample}_depth.txt"
11

12
    echo "${sample}: $(cat stats/${sample}_depth.txt)"
13
done

模板3：遍历染色体的分染色体分析

1
CHROMS=(chr1 chr2 chr3 chr4 chr5 chr6 chr7 chr8 chr9 chr10 \
2
        chr11 chr12 chr13 chr14 chr15 chr16 chr17 chr18 chr19 chr20 \
3
        chr21 chr22 chrX chrY chrM)
4

5
INPUT_VCF="merged_variants.vcf.gz"
6

7
for chrom in "${CHROMS[@]}"; do
8
    echo "Splitting ${chrom}..."
9

10
    bcftools view -r "${chrom}" "${INPUT_VCF}" \
11
        -o "by_chrom/${chrom}.vcf.gz" -O z
12

13
    bcftools index "by_chrom/${chrom}.vcf.gz"
14
done

模板4：带计数的循环——看进度

1
files=(*.fastq.gz)
2
total=${#files[@]}
3
current=0
4

5
for f in "${files[@]}"; do
6
    ((current++))
7
    echo "[${current}/${total}] Processing ${f}..."
8

9
    fastp -i "${f}" -o "clean/${f}" -w 4
10
done
11

12
echo "All ${total} files processed!"

${#files[@]} 获取数组长度，((current++)) 是算术自增。这个模式在处理几百个样本时特别有用——随时知道跑到哪了。

模板5：嵌套循环——多条件组合

1
SAMPLES=(WT_1 WT_2 KO_1 KO_2)
2
TOOLS=(bwa bowtie2 hisat2)
3

4
for sample in "${SAMPLES[@]}"; do
5
    for tool in "${TOOLS[@]}"; do
6
        outdir="results/${tool}/${sample}"
7
        mkdir -p "${outdir}"
8

9
        echo "Aligning ${sample} with ${tool}..."
10
        # 不同工具用不同命令...
11
    done
12
done

模板6：for循环 + 条件跳过（排错必备）

1
FAILED_SAMPLES=()  # 记录失败的
2

3
for bam in *.bam; do
4
    sample=$(basename "${bam}" .bam)
5

6
    # 如果结果已存在且比BAM新，跳过
7
    if [[ -f "variants/${sample}.vcf.gz" ]] && \
8
       [[ "variants/${sample}.vcf.gz" -nt "${bam}" ]]; then
9
        echo "Skipping ${sample} (already done)"
10
        continue
11
    fi
12

13
    echo "Calling variants for ${sample}..."
14

15
    if ! bcftools mpileup -f ref.fa "${bam}" | \
16
         bcftools call -mv -o "variants/${sample}.vcf.gz"; then
17
        echo "ERROR: ${sample} failed!"
18
        FAILED_SAMPLES+=("${sample}")
19
    fi
20
done
21

22
echo "Failed samples: ${FAILED_SAMPLES[@]:-None}"

continue 跳过一次循环，break 跳出整个循环。${FAILED_SAMPLES[@]:-None} 是参数展开的默认值用法。

2. while循环——处理动态输入#

2.1 逐行读取文件#

1
# 读取样本列表
2
while IFS= read -r sample; do
3
    [[ -z "${sample}" || "${sample}" == \#* ]] && continue  # 跳过空行和注释
4
    echo "Processing: ${sample}"
5
    # ...处理逻辑
6
done < sample_list.txt

IFS= read -r 这个组合绝对不能省：-r 禁止反斜杠转义，IFS= 保留行首行尾空格。这是一个无数人踩过的大坑。

2.2 管道while——小心子shell#

1
# ✗ 错误：管道中的while在子shell运行，变量不会传出来
2
total=0
3
cat counts.txt | while read -r n; do
4
    ((total += n))
5
done
6
echo "${total}"  # 输出：0 ——不是你要的！
7

8
# ✓ 正确：用重定向替代管道
9
total=0
10
while read -r n; do
11
    ((total += n))
12
done < counts.txt
13
echo "${total}"  # 输出：正确累加值

这个坑我至少踩了三次才记住。管道会创建子shell，while里的变量修改出不来。

2.3 无限循环+条件退出#

1
# 轮询等待文件生成
2
while true; do
3
    if [[ -f "pipeline_complete.flag" ]]; then
4
        echo "Pipeline finished!"
5
        break
6
    fi
7
    echo "Waiting..."
8
    sleep 60
9
done

2.4 until——条件为假时循环#

1
# 等到磁盘空间够用
2
until [[ $(df /data --output=pcent | tail -1 | tr -d ' %') -lt 20 ]]; do
3
    echo "Disk usage still >20%, waiting..."
4
    sleep 300
5
done
6
echo "Disk OK, starting download"

3. if条件判断——生信流程的决策中枢#

3.1 test命令速查表#

Bash里if后面跟的是一个命令（通常是test或其简写[ ]），靠退出码（0=真，非0=假）判断：

测试类型	语法	生信场景
文件存在	`[[ -f file ]]`	检查参考基因组存在
目录存在	`[[ -d dir ]]`	确保输出目录已创建
文件非空	`[[ -s file ]]`	检查BAM不是空的
文件可读	`[[ -r file ]]`	检查权限
文件1比文件2新	`[[ file1 -nt file2 ]]`	增量分析跳过已完成步骤
字符串相等	`[[ "$a" == "$b" ]]`	匹配样本类型
字符串不空	`[[ -n "$str" ]]`	参数是否传入
数值比较	`[[ $a -gt $b ]]`	测序深度阈值
正则匹配	`[[ "$a" =~ ^SRR ]]`	验证SRA ID格式

强烈建议使用[[ ]]不要用[ ]：[[ ]]是Bash内置，支持正则、不分割单词、不会因空变量报错。

3.2 生信6大条件判断模板#

模板1：检查输入完整性后启动流程

1
REF="/opt/refs/hg38.fa"
2
R1="sample_R1.fastq.gz"
3
R2="sample_R2.fastq.gz"
4

5
if [[ ! -f "${REF}" ]]; then
6
    echo "ERROR: Reference genome not found: ${REF}"
7
    exit 1
8
fi
9

10
if [[ ! -f "${R1}" ]]; then
11
    echo "ERROR: R1 file missing: ${R1}"
12
    exit 1
13
fi
14

15
if [[ ! -f "${R2}" ]]; then
16
    echo "WARNING: R2 missing, running single-end mode"
17
    MODE="single"
18
else
19
    MODE="paired"
20
fi
21

22
echo "All checks passed. Starting pipeline (${MODE})..."

模板2：按比对率判断是否重新比对

1
MAPPING_RATE=$(samtools flagstat "${bam}" | \
2
    grep "mapped (" | grep -oP '\d+\.\d+(?=%)' | head -1)
3

4
if [[ $(echo "${MAPPING_RATE} < 70" | bc -l) -eq 1 ]]; then
5
    echo "WARNING: Low mapping rate (${MAPPING_RATE}%). Consider different aligner."
6
    # 或者发邮件通知
7
fi

模板3：if-elif-else多分支

1
READ_LENGTH=$(seqkit stats "${fastq}" | tail -1 | awk '{print $7}' | cut -d. -f1)
2

3
if [[ "${READ_LENGTH}" -lt 50 ]]; then
4
    ALIGNER="bowtie"        # 超短reads
5
elif [[ "${READ_LENGTH}" -lt 150 ]]; then
6
    ALIGNER="bwa"           # 短reads
7
elif [[ "${READ_LENGTH}" -lt 1000 ]]; then
8
    ALIGNER="minimap2 -x sr" # 中等长度
9
else
10
    ALIGNER="minimap2 -x map-ont"  # 长reads
11
fi
12

13
echo "Auto-selected aligner: ${ALIGNER}"

模板4：短路判断——一句话检查多个条件

1
# 检查所有必需软件
2
check_tool() {
3
    command -v "$1" >/dev/null 2>&1 || {
4
        echo "ERROR: $1 not installed"
5
        exit 1
6
    }
7
}
8

9
for tool in bwa samtools bcftools fastp seqkit; do
10
    check_tool "${tool}"
11
done
12

13
echo "All tools available!"

模板5：正则匹配验证输入

1
SRA_ID="SRR12345678"
2

3
if [[ "${SRA_ID}" =~ ^(SRR|ERR|DRR)[0-9]{6,}$ ]]; then
4
    echo "Valid SRA ID: ${SRA_ID}"
5
else
6
    echo "ERROR: Invalid SRA ID format"
7
    exit 1
8
fi

模板6：根据上一步退出码决定下一步

1
# 运行比对
2
bwa mem -t 16 ref.fa reads.fq > aln.sam
3
ALN_EXIT=$?
4

5
if [[ ${ALN_EXIT} -eq 0 ]]; then
6
    echo "Alignment OK, sorting..."
7
    samtools sort -@ 8 aln.sam -o aln.bam
8
else
9
    echo "ERROR: Alignment failed with code ${ALN_EXIT}"
10
    exit ${ALN_EXIT}
11
fi

4. case——多分支比if-elif更清晰#

当有3个以上分支时，case 比 if-elif-else 可读性好得多：

1
INPUT_FMT="${1:-fastq}"
2

3
case "${INPUT_FMT}" in
4
    fastq|fq)
5
        echo "FASTQ mode"
6
        EXT="fastq.gz"
7
        ;;
8
    bam|sam)
9
        echo "BAM/SAM mode"
10
        EXT="bam"
11
        ;;
12
    vcf)
13
        echo "VCF mode"
14
        EXT="vcf.gz"
15
        ;;
16
    *)
17
        echo "Unknown format: ${INPUT_FMT}"
18
        echo "Supported: fastq, bam, vcf"
19
        exit 1
20
        ;;
21
esac

生信中适合case的场景：

1
# 根据文件扩展名判断操作
2
for file in *; do
3
    case "${file}" in
4
        *.fastq.gz|*.fq.gz)
5
            zcat "${file}" | wc -l
6
            ;;
7
        *.bam)
8
            samtools flagstat "${file}"
9
            ;;
10
        *.vcf.gz)
11
            bcftools stats "${file}" | head -5
12
            ;;
13
        *.log)
14
            tail -20 "${file}"
15
            ;;
16
    esac
17
done

5. 生信全流程实例：Bash批量RNA-seq预处理#

1
#!/bin/bash
2
set -euo pipefail
3

4
# ========== 配置 ==========
5
DATA_DIR="./raw_data"
6
OUT_DIR="./processed"
7
REF="/opt/refs/hg38.fa"
8
THREADS=16
9
FAILED_LOG="failed_samples.txt"
10

11
> "${FAILED_LOG}"  # 清空失败日志
12

13
# ========== 预检查 ==========
14
for tool in fastp hisat2 samtools; do
15
    if ! command -v "${tool}" >/dev/null 2>&1; then
16
        echo "ERROR: ${tool} not found in PATH"
17
        exit 1
18
    fi
19
done
20

21
[[ -f "${REF}" ]] || { echo "ERROR: Ref genome missing"; exit 1; }
22
mkdir -p "${OUT_DIR}/qc_reports" "${OUT_DIR}/bam" "${OUT_DIR}/logs"
23

24
# ========== 主循环 ==========
25
R1_FILES=("${DATA_DIR}"/*_R1.fastq.gz)
26
TOTAL_SAMPLES=${#R1_FILES[@]}
27
CURRENT=0
28

29
for r1 in "${R1_FILES[@]}"; do
30
    ((CURRENT++))
31

32
    # --- 配对R2 ---
33
    r2="${r1/_R1/_R2}"
34
    sample=$(basename "${r1}" | sed 's/_R1.fastq.gz//')
35

36
    if [[ ! -f "${r2}" ]]; then
37
        echo "[${CURRENT}/${TOTAL_SAMPLES}] SKIP ${sample}: R2 missing" | tee -a "${FAILED_LOG}"
38
        continue
39
    fi
40

41
    echo "[${CURRENT}/${TOTAL_SAMPLES}] Processing ${sample}..."
42

43
    # --- fastp质控 ---
44
    if [[ -f "${OUT_DIR}/qc_reports/${sample}_fastp.json" ]]; then
45
        echo "  QC report exists, skipping fastp"
46
    else
47
        fastp -i "${r1}" -I "${r2}" \
48
              -o "${OUT_DIR}/${sample}_R1.fq.gz" \
49
              -O "${OUT_DIR}/${sample}_R2.fq.gz" \
50
              -j "${OUT_DIR}/qc_reports/${sample}_fastp.json" \
51
              -h "${OUT_DIR}/qc_reports/${sample}_fastp.html" \
52
              -w "${THREADS}" \
53
              2>&1 | tee "${OUT_DIR}/logs/${sample}_fastp.log"
54
    fi
55

56
    # --- HISAT2比对 ---
57
    bam="${OUT_DIR}/bam/${sample}.bam"
58

59
    if [[ -f "${bam}" ]] && [[ -s "${bam}" ]]; then
60
        echo "  BAM exists, skipping alignment"
61
    else
62
        hisat2 -p "${THREADS}" -x "${REF%.*}" \
63
               -1 "${OUT_DIR}/${sample}_R1.fq.gz" \
64
               -2 "${OUT_DIR}/${sample}_R2.fq.gz" \
65
               2> "${OUT_DIR}/logs/${sample}_align.log" | \
66
            samtools sort -@ "${THREADS}" -o "${bam}" -
67

68
        if [[ $? -ne 0 ]]; then
69
            echo "[${CURRENT}/${TOTAL_SAMPLES}] FAILED: ${sample}" | tee -a "${FAILED_LOG}"
70
            continue
71
        fi
72

73
        samtools index "${bam}"
74
    fi
75

76
    # --- 比对率检查 ---
77
    mapping_rate=$(grep "overall alignment rate" "${OUT_DIR}/logs/${sample}_align.log" | \
78
                   grep -oP '\d+\.\d+%' | head -1)
79
    echo "  ${sample}: mapping rate = ${mapping_rate}"
80

81
    # --- 低比对率警告 ---
82
    if [[ -n "${mapping_rate}" ]]; then
83
        rate_num="${mapping_rate%\%}"
84
        if [[ $(echo "${rate_num} < 70" | bc -l) -eq 1 ]]; then
85
            echo "  ⚠ WARNING: Low mapping rate for ${sample}!" | tee -a "low_mapping_samples.txt"
86
        fi
87
    fi
88
done
89

90
# ========== 汇总 ==========
91
echo ""
92
echo "=========================================="
93
echo "Pipeline complete!"
94
echo "Total samples: ${TOTAL_SAMPLES}"
95
echo "Failed: $(wc -l < ${FAILED_LOG})"
96
echo "=========================================="

这个脚本涵盖了本篇几乎所有知识点：for循环、if判断、条件跳过、退出码检查、数组、变量展开、日志输出。

6. 踩坑记录#

坑1：`for file in *.fastq.gz` 没有匹配时变成字面字符串#

症状：当目录下没有 .fastq.gz 文件时，for f in *.fastq.gz; do 循环依然执行一次，$f 的值是字面量 *.fastq.gz。

1
# ✓ 解决：先检查或用 shopt
2
shopt -s nullglob     # 没匹配时展开为空
3
for f in *.fastq.gz; do
4
    echo "Processing $f"
5
done
6
shopt -u nullglob     # 恢复默认
7

8
# 或者先判断
9
files=(*.fastq.gz)
10
if [[ ! -e "${files[0]}" ]]; then
11
    echo "No FASTQ files found"; exit 1
12
fi

坑2：while read 最后一行不处理（缺换行符）#

症状：文件最后一行没有换行，while read 就读不到它。

1
# ✓ 用 || [[ -n "$line" ]] 兜底
2
while IFS= read -r line || [[ -n "$line" ]]; do
3
    echo "$line"
4
done < file.txt

坑3：`if [ $a == $b ]` 中变量为空导致语法错误#

症状：a="" 时 [ $a == "hello" ] 展开成 [ == hello ]，[ 命令报语法错误。

1
# ✓ 用 [[ ]]（推荐）或加引号
2
[[ $a == "hello" ]]     # 内置，安全
3
[ "$a" == "hello" ]     # 传统，必须加引号

坑4：`for` 遍历命令输出时空格/换行问题#

症状：for f in $(find . -name "*.bam") 遇到文件名含空格就拆开。

1
# ✓ 用 while read 或 find -print0 + while read -d ''
2
find . -name "*.bam" -print0 | while IFS= read -r -d '' f; do
3
    echo "Processing: ${f}"
4
done
5

6
# 或启用 globstar 替代 find
7
shopt -s globstar
8
for f in **/*.bam; do
9
    echo "Processing: ${f}"
10
done

坑5：循环内修改全局变量在管道中丢失#

已在 2.2 节详述。补充一个进程替换的解决方案：

1
# 如果必须用管道，用进程替换保持变量作用域
2
total=0
3
while read -r n; do
4
    ((total += n))
5
done < <(cat counts.txt)   # 进程替换，不是管道
6
echo "${total}"  # 正确

坑6：`break` 只跳出最内层循环#

症状：嵌套循环里 break 只跳出内层。

1
# 跳出多层用 break N
2
for i in {1..5}; do
3
    for j in {1..5}; do
4
        if [[ $i -eq 3 && $j -eq 3 ]]; then
5
            break 2  # 跳出两层
6
        fi
7
    done
8
done

坑7：`(( i++ ))` 中 `i` 未初始化#

Bash中未初始化的变量在算术运算中当0处理，这点OK。但如果在 set -u 下：

1
set -u
2
for f in *.txt; do
3
    (( count++ ))        # 报错：count: unbound variable
4
done
5

6
# ✓ 先初始化
7
count=0
8
for f in *.txt; do
9
    (( count++ ))
10
done
11
echo "${count}"

7. 总结#

需求	用这个	一句话
遍历固定列表	`for i in list`	简单直接
按数量/范围循环	`for ((i=1;i<=N;i++))`	C风格循环
逐行读文件	`while read -r`	处理大样本列表
等待条件满足	`while true` / `until`	监控类任务
简单判断	`if [[ condition ]]`	90%的场景
多分支	`case ... esac`	>3个分支时用
根据上一步结果	`if command; then`	直接用命令退出码

循环和条件判断是Shell脚本的骨架。把上面的6+6+2=14个模板收藏好，下次写生信脚本时直接复制改参数，比从头写快10倍。

这两个符号记牢：[[ ]] 和 (( ))——前者是字符串/文件的测试，后者是算术运算。别跟他们死磕，注意：字符串用 [[ ]]，数字用 (( ))。

本文于 2025-03-15 在 Debian 12 (Bash 5.2) 上实测完成。所有代码可直接运行。

1. for循环——生信批量处理的基石#

1.1 基础语法#

1.2 生信6大for循环模板#

2. while循环——处理动态输入#

2.1 逐行读取文件#

2.2 管道while——小心子shell#

2.3 无限循环+条件退出#

2.4 until——条件为假时循环#

3. if条件判断——生信流程的决策中枢#

3.1 test命令速查表#

3.2 生信6大条件判断模板#

4. case——多分支比if-elif更清晰#

5. 生信全流程实例：Bash批量RNA-seq预处理#

6. 踩坑记录#

坑1：`for file in *.fastq.gz` 没有匹配时变成字面字符串#

坑2：while read 最后一行不处理（缺换行符）#

坑3：`if [ $a == $b ]` 中变量为空导致语法错误#

坑4：`for` 遍历命令输出时空格/换行问题#

坑5：循环内修改全局变量在管道中丢失#

坑6：`break` 只跳出最内层循环#

坑7：`(( i++ ))` 中 `i` 未初始化#

7. 总结#

文章分享

文章目录

Bash循环与条件判断：for/if/case全解

1. for循环——生信批量处理的基石#

1.1 基础语法#

1.2 生信6大for循环模板#

2. while循环——处理动态输入#

2.1 逐行读取文件#

2.2 管道while——小心子shell#

2.3 无限循环+条件退出#

2.4 until——条件为假时循环#

3. if条件判断——生信流程的决策中枢#

3.1 test命令速查表#

3.2 生信6大条件判断模板#

4. case——多分支比if-elif更清晰#

5. 生信全流程实例：Bash批量RNA-seq预处理#

6. 踩坑记录#

坑1：for file in *.fastq.gz 没有匹配时变成字面字符串#

坑2：while read 最后一行不处理（缺换行符）#

坑3：if [ $a == $b ] 中变量为空导致语法错误#

坑4：for 遍历命令输出时空格/换行问题#

坑5：循环内修改全局变量在管道中丢失#

坑6：break 只跳出最内层循环#

坑7：(( i++ )) 中 i 未初始化#

7. 总结#

文章分享

文章目录

坑1：`for file in *.fastq.gz` 没有匹配时变成字面字符串#

坑3：`if [ $a == $b ]` 中变量为空导致语法错误#

坑4：`for` 遍历命令输出时空格/换行问题#

坑6：`break` 只跳出最内层循环#

坑7：`(( i++ ))` 中 `i` 未初始化#