Bash数组与字符串处理：参数展开、截取、替换

Bash 的数组（索引数组、关联数组）和字符串参数展开是 Shell 脚本中最实用的两项特性——样本列表管理、路径操作、批量参数传递都能用它们处理。本文覆盖数组操作、字符串截取替换和参数展开，附生信场景模板。

实测环境：Debian 12，Bash 5.2。

1. 索引数组——最常用的数组类型#

1.1 创建与访问#

1
# 创建
2
samples=(WT_1 WT_2 KO_1 KO_2)
3
chroms=("chr1" "chr2" "chr3")
4
files=(*.bam)              # 通配符展开
5

6
# 访问
7
echo "${samples[0]}"       # 第一个元素：WT_1
8
echo "${samples[@]}"       # 所有元素（作为独立单词）
9
echo "${#samples[@]}"      # 数组长度：4
10
echo "${!samples[@]}"      # 所有索引：0 1 2 3
11

12
# 遍历
13
for s in "${samples[@]}"; do
14
    echo "Sample: ${s}"
15
done

[@] 和 [*] 的区别是 Bash 数组最容易搞混的地方：

1
arr=("a b" "c d")
2

3
# [@] 保持元素独立（推荐）
4
for i in "${arr[@]}"; do echo "$i"; done
5
# 输出：
6
# a b
7
# c d
8

9
# [*] 把所有元素拼成一个字符串（通常不是你想要的）
10
for i in "${arr[*]}"; do echo "$i"; done
11
# 输出：
12
# a b c d

注意：遍历数组永远用 "${arr[@]}"。

1.2 添加、删除、切片#

1
# 追加
2
samples+=(WT_3 KO_3)       # 直接拼接
3
samples=("${samples[@]}" "extra")
4

5
# 按索引赋值
6
samples[0]="WT_CONTROL"
7

8
# 删除某个元素（实际是置空，不改变索引）
9
unset "samples[1]"
10

11
# 真正的删除+重新索引
12
samples=("${samples[@]}")  # 重建数组，跳过空位
13

14
# 切片
15
echo "${samples[@]:1:2}"   # 从索引1开始取2个
16

17
# 查找
18
for i in "${!samples[@]}"; do
19
    if [[ "${samples[$i]}" == "KO_2" ]]; then
20
        echo "Found KO_2 at index ${i}"
21
    fi
22
done

1.3 生信场景：样本列表管理#

1
#!/bin/bash
2
set -euo pipefail
3

4
# 从文件读取样本列表到数组
5
mapfile -t SAMPLES < sample_list.txt
6
# mapfile（或 readarray）把文件的每一行读入数组
7
# -t 去掉行尾换行符
8

9
echo "Total samples: ${#SAMPLES[@]}"
10

11
# 跳过空行和注释行
12
CLEAN_SAMPLES=()
13
for sample in "${SAMPLES[@]}"; do
14
    [[ -z "${sample}" || "${sample}" == \#* ]] && continue
15
    CLEAN_SAMPLES+=("${sample}")
16
done
17

18
echo "Valid samples: ${#CLEAN_SAMPLES[@]}"
19

20
# 批量生成命令
21
CMDS=()
22
for sample in "${CLEAN_SAMPLES[@]}"; do
23
    CMDS+=("fastp -i ${sample}_R1.fq.gz -I ${sample}_R2.fq.gz -o clean/")
24
done
25

26
# 用GNU parallel执行
27
printf '%s\n' "${CMDS[@]}" | parallel -j 8

1.4 数组去重#

生信中经常重复拿到样本名，去重：

1
# 简单的去重（保持顺序）
2
declare -A seen
3
UNIQUE_SAMPLES=()
4

5
for sample in "${SAMPLES[@]}"; do
6
    if [[ -z "${seen[$sample]:-}" ]]; then
7
        UNIQUE_SAMPLES+=("${sample}")
8
        seen[$sample]=1
9
    fi
10
done
11

12
echo "Unique: ${#UNIQUE_SAMPLES[@]}"

2. 关联数组——键值对的威力#

关联数组用字符串做下标，等于 Bash 内置的字典。

1
# 声明（必须！）
2
declare -A mapping
3

4
# 赋值
5
mapping=(
6
    [WT_1]="wild type replicate 1"
7
    [WT_2]="wild type replicate 2"
8
    [KO_1]="knockout replicate 1"
9
    [KO_2]="knockout replicate 2"
10
)
11

12
# 访问
13
echo "${mapping[KO_1]}"              # knockout replicate 1
14
echo "${!mapping[@]}"                # 所有键：WT_1 WT_2 KO_1 KO_2
15
echo "${mapping[@]}"                 # 所有值
16

17
# 遍历
18
for key in "${!mapping[@]}"; do
19
    echo "${key} -> ${mapping[$key]}"
20
done
21

22
# 检查键是否存在
23
if [[ -v mapping[WT_1] ]]; then      # -v 测试变量/数组键存在
24
    echo "WT_1 exists"
25
fi

生信场景：样本名→条件映射#

1
declare -A CONDITIONS
2
CONDITIONS=(
3
    [SRR100001]=treated
4
    [SRR100002]=treated
5
    [SRR100003]=control
6
    [SRR100004]=control
7
    [SRR100005]=treated
8
)
9

10
# 按条件分组
11
declare -A GROUPS
12
for sra in "${!CONDITIONS[@]}"; do
13
    cond="${CONDITIONS[$sra]}"
14
    GROUPS[$cond]="${GROUPS[$cond]:-} ${sra}"
15
done
16

17
# 输出分组
18
for cond in "${!GROUPS[@]}"; do
19
    echo "=== ${cond} ==="
20
    for sra in ${GROUPS[$cond]}; do
21
        echo "  ${sra}"
22
    done
23
done

生信场景：计数器#

1
declare -A GENE_COUNTS
2

3
# 从GTF中统计每个基因类型的出现次数
4
while IFS=$'\t' read -r chrom source feature start end score strand frame attrs; do
5
    if [[ "${feature}" == "gene" ]]; then
6
        # 从属性字段提取gene_type
7
        if [[ "${attrs}" =~ gene_type\ \"([^\"]+)\" ]]; then
8
            gene_type="${BASH_REMATCH[1]}"
9
            ((GENE_COUNTS[$gene_type]++))   # 关联数组做计数器
10
        fi
11
    fi
12
done < genes.gtf
13

14
# 输出统计
15
for gene_type in "${!GENE_COUNTS[@]}"; do
16
    echo "${gene_type}: ${GENE_COUNTS[$gene_type]}"
17
done | sort -t: -k2 -rn

BASH_REMATCH 是 Bash 正则匹配后自动填充的数组，${BASH_REMATCH[1]} 是第一个捕获组。这个技巧在解析 GTF/GFF/SAM 等结构化文本时极其好用。

3. 字符串处理五大类操作#

3.1 长度和提取#

1
s="SRR12345678_S1_L001_R1_001.fastq.gz"
2

3
echo "${#s}"                  # 长度
4
echo "${s:0:3}"               # 前3个字符：SRR
5
echo "${s: -9}"               # 后9个字符：R1_001.fa.. （注意空格）
6
echo "${s:4}"                 # 从第4字符开始到最后

3.2 前后缀删除（生信最高频！）#

1
path="/data/projects/RNASeq/results/sample1.bam"
2
filename="sample_WT_rep1_R1.fastq.gz"
3

4
# 删前缀 —— # 最短匹配，## 最长匹配
5
echo "${path#*/}"             # data/projects/RNASeq/results/sample1.bam
6
echo "${path##*/}"            # sample1.bam（basename的效果）
7

8
# 删后缀 —— % 最短匹配，%% 最长匹配
9
echo "${filename%.*}"         # sample_WT_rep1_R1.fastq
10
echo "${filename%%.*}"        # sample_WT_rep1_R1
11
echo "${filename%.fastq.gz}"  # sample_WT_rep1_R1
12

13
# 生信实战：提取样本ID
14
sample_id="${filename%%_R1*}"         # sample_WT_rep1
15
echo "Sample ID: ${sample_id}"

这些操作的 mnemonic：

$prefix\_{delete} = \#\ (keyboard\ before\ \$),\quad suffix\_{delete} = \%\ (keyboard\ after\ \$)$

$shortest\ match = single,\quad longest\ match = double$

3.3 替换#

1
s="sample_WT_rep1_R1.fastq.gz"
2

3
# 首次替换
4
echo "${s/R1/R2}"                    # sample_WT_rep1_R2.fastq.gz
5

6
# 全部替换
7
echo "${s//r/R}"                     # sample_WT_Rep1_R1.fastq.gz
8

9
# 行首/行尾替换
10
echo "${s/#sample/SAMPLE}"           # SAMPLE_WT_rep1_R1.fastq.gz
11
echo "${s/%.gz/.bgz}"               # sample_WT_rep1_R1.fastq.bgz
12

13
# 生信实战：R1↔R2 配对
14
r1="sample_S1_L001_R1_001.fastq.gz"
15
r2="${r1/_R1_/_R2_}"                 # 最安全的替换方式
16
echo "${r2}"                         # sample_S1_L001_R2_001.fastq.gz

3.4 默认值和条件展开#

1
# 如果变量未设置或为空，用默认值
2
THREADS="${1:-8}"
3

4
# 如果变量未设置或为空，赋值默认值并返回
5
: "${OUTPUT_DIR:=./results}"   # : 是空命令，效果等于赋值
6

7
# 如果未设置则报错退出
8
INPUT="${2:?Error: input file required}"
9

10
# 如果变量已设置则用替代值
11
echo "${DEBUG:+Debug mode ON}"  # DEBUG有值时才输出

3.5 大小写转换#

1
s="ATGCTAGCTAG"
2

3
echo "${s,,}"              # 全小写：atgctagctag
4
echo "${s,}"               # 首字母小写：aTGCTAGCTAG
5
echo "${s^^}"              # 全大写：ATGCTAGCTAG
6
echo "${s^}"               # 首字母大写：ATGCTAGCTAG（本来已大写）
7

8
# 生信场景：统一序列大小写
9
seq="atcgATCG"
10
echo "${seq^^}"            # ATCGATCG

4. 生信全流程实战：Bash数组+字符串驱动RNA-seq批量比对#

1
#!/bin/bash
2
set -euo pipefail
3

4
# ========== 1. 用数组管理所有样本 ==========
5
mapfile -t RAW_SAMPLES < sample_list.txt
6

7
# 清洗
8
SAMPLES=()
9
for s in "${RAW_SAMPLES[@]}"; do
10
    [[ -z "${s}" || "${s}" == \#* ]] && continue
11
    SAMPLES+=("${s}")
12
done
13

14
echo "Total samples: ${#SAMPLES[@]}"
15

16
# ========== 2. 关联数组存储元信息 ==========
17
declare -A METADATA
18
while IFS=$'\t' read -r sample condition replicate; do
19
    METADATA["${sample}_cond"]="${condition}"
20
    METADATA["${sample}_rep"]="${replicate}"
21
done < metadata.tsv
22

23
# ========== 3. 字符串处理提取配对关系 ==========
24
declare -A R1_FILES R2_FILES
25

26
for f in raw_data/*.fastq.gz; do
27
    basename=$(basename "${f}")
28

29
    if [[ "${basename}" == *_R1_* ]]; then
30
        sample_id="${basename%%_R1*}"
31
        R1_FILES["${sample_id}"]="${f}"
32
    elif [[ "${basename}" == *_R2_* ]]; then
33
        sample_id="${basename%%_R2*}"
34
        R2_FILES["${sample_id}"]="${f}"
35
    fi
36
done
37

38
# ========== 4. 主循环 ==========
39
SUCCESS=()
40
FAILED=()
41

42
for sample in "${SAMPLES[@]}"; do
43
    r1="${R1_FILES[$sample]:-}"
44
    r2="${R2_FILES[$sample]:-}"
45

46
    if [[ -z "${r1}" || -z "${r2}" ]]; then
47
        echo "WARNING: Missing files for ${sample}, skipping"
48
        FAILED+=("${sample}")
49
        continue
50
    fi
51

52
    condition="${METADATA["${sample}_cond"]:-unknown}"
53
    echo "Processing ${sample} (${condition})..."
54

55
    # fastp QC
56
    fastp -i "${r1}" -I "${r2}" \
57
          -o "clean/${sample}_R1.fq.gz" \
58
          -O "clean/${sample}_R2.fq.gz" \
59
          -j "qc/${sample}.json" -h "qc/${sample}.html" -w 8
60

61
    # 根据条件选择参考基因组路径
62
    ref_index="/opt/refs/${condition}_index"
63
    hisat2 -p 16 -x "${ref_index}" \
64
           -1 "clean/${sample}_R1.fq.gz" \
65
           -2 "clean/${sample}_R2.fq.gz" \
66
           | samtools sort -@ 8 -o "bam/${sample}.bam" -
67

68
    samtools index "bam/${sample}.bam"
69
    SUCCESS+=("${sample}")
70
done
71

72
# ========== 5. 结果汇总 ==========
73
echo ""
74
echo "============================="
75
echo "Pipeline complete!"
76
echo "Success: ${#SUCCESS[@]}"
77
echo "  ${SUCCESS[@]}"
78
echo "Failed: ${#FAILED[@]}"
79
echo "  ${FAILED[@]:-None}"
80
echo "============================="
81

82
# 按条件统计
83
declare -A COND_COUNT
84
for sample in "${SUCCESS[@]}"; do
85
    cond="${METADATA["${sample}_cond"]:-unknown}"
86
    ((COND_COUNT[$cond]++))
87
done
88

89
for cond in "${!COND_COUNT[@]}"; do
90
    echo "  ${cond}: ${COND_COUNT[$cond]} samples"
91
done

这个脚本展示了：数组去重、关联数组元信息管理、字符串前后缀删除提取样本ID、默认值处理缺失数据、成功/失败分组汇总。

5. Bash数组 vs 临时文件#

很多生信新人习惯用临时文件处理中间数据：

1
# ✗ 用文件的写法
2
ls *.bam > bam_list.txt
3
wc -l bam_list.txt
4
grep "sample1" bam_list.txt
5
# ...后面还要 rm bam_list.txt
6

7
# ✓ 用数组的写法
8
bams=(*.bam)
9
echo "${#bams[@]}"
10
for b in "${bams[@]}"; do
11
    [[ "${b}" == *sample1* ]] && echo "Found: ${b}"
12
done

数组的优缺点：

$efficiency_{array} \approx \frac{N_{IO\_ops}}{N} \times speedup_{memory}$

当文件数量 N 很大时，内存操作（数组）比磁盘 I/O（临时文件）快了三个数量级。但数组也有硬伤：不能跨进程共享、大量数据（10万+元素）会拖慢Bash。遇到这种情况还是用文件或换 Python。

6. 踩坑记录#

坑1：`"${array[@]}"` 忘了双引号#

1
arr=("a b" "c d")
2
# ✗ 没有引号——元素被单词分割
3
for i in ${arr[@]}; do echo "$i"; done
4
# 输出四个独立单词：a, b, c, d
5

6
# ✓ 有引号
7
for i in "${arr[@]}"; do echo "$i"; done
8
# 输出两个元素：a b, c d

坑2：关联数组必须 `declare -A`#

1
# ✗ 不声明就当索引数组
2
mapping=([key1]="val1" [key2]="val2")
3
echo "${mapping[0]}"     # 空的！key1被当作变量名展开
4

5
# ✓
6
declare -A mapping
7
mapping=([key1]="val1" [key2]="val2")
8
echo "${mapping[key1]}"  # val1

坑3：`unset` 数组元素产生空洞#

1
arr=(a b c d)
2
unset "arr[1]"
3
echo "${#arr[@]}"        # 3 ——没毛病
4
echo "${arr[1]}"          # 空 ——有毛病
5
echo "${!arr[@]}"         # 0 2 3 ——索引不连续了！
6

7
# 如果你后面用索引遍历会出问题
8
for i in 0 1 2 3; do
9
    echo "${arr[$i]}"    # 索引1是空的
10
done
11

12
# ✓ 删除后用 "${arr[@]}" 重新索引
13
arr=("${arr[@]}")

坑4：关联数组键含空格#

1
declare -A map
2
map["a key"]="value"
3
echo "${map[a key]}"     # ✓ 可以但别扭
4

5
# 最好避免键中有空格

坑5：大数组性能崩塌#

Bash 数组在元素超过 10 万时操作明显变慢。我测过一个 50 万元素的数组，for 遍历耗时是 Python 的 50 倍。

1
# 如果数据量大，切分或换 Python：
2
python3 -c "
3
data = [line.strip() for line in open('big_list.txt')]
4
print(f'Total: {len(data)}')
5
# 10倍快的处理...
6
"

经验判断：<1000 元素随便用 Bash 数组；1000-10000 还行；>10000 换 Python。

坑6：`${#array[@]}` 和 `${#array}` 的区别#

1
arr=(a bb ccc)
2
echo "${#arr[@]}"    # 3 ——元素个数
3
echo "${#arr}"       # 1 —— ${arr} = ${arr[0]} = "a"，长度是1
4
# 容易搞混！永远用 ${#array[@]} 取长度

坑7：`${string##/}` 中 `/` 是通配符不是正则#

1
path="/data/results/sample.bam"
2
# ##*/ 的意思是：删除最长的能匹配 "*/" 的前缀
3
# 即删到最后一个斜杠之前
4
echo "${path##*/}"    # sample.bam ✓
5

6
# 但如果你以为是 regex 写了 \/ 就毁了
7
echo "${path##*\/}"   # 什么都不删（\/字面量通常不匹配/）

Bash 的 # % ## %% 用的全是 glob 通配符（* ? [a-z]），不是正则，不能用 \d、.、+ 这些正则符号。

坑8：`mapfile` 在旧版Bash不存在#

mapfile（也叫 readarray）是 Bash 4.0+ 才有的。macOS 自带的 Bash 3.2 不支持。

1
# 兼容方案：
2
IFS=$'\n' read -r -d '' -a SAMPLES < sample_list.txt
3
# 或者用传统的 while read
4
SAMPLES=()
5
while IFS= read -r line; do
6
    SAMPLES+=("${line}")
7
done < sample_list.txt

7. 总结#

操作	语法	记忆诀窍
取数组长度	`${#arr[@]}`	`#` 号在数学里就是”个数”
遍历数组	`for i in "${arr[@]}"`	双引号+[@]是建议
删前缀(最短)	`${var#pattern}`	`#` 在 `$` 前 = 删前面
删后缀(最短)	`${var%pattern}`	`%` 在 `$` 后 = 删后面
删前缀(最长)	`${var##pattern}`	两个#
删后缀(最长)	`${var%%pattern}`	两个%
首次替换	`${var/old/new}`	一个斜杠
全局替换	`${var//old/new}`	两个斜杠
默认值	`${var:-default}`	`:-`
关联数组	`declare -A arr`	`-A` = Associative

Bash 的数组和字符串操作，学到就是赚到。一个 %% 就能省掉一次 sed 调用，一个关联数组就能替代 Python 字典。把这张速查表贴在显示器旁边，写脚本时瞟一眼，效率翻倍。

本文于 2025-07-22 在 Debian 12（Bash 5.2.15）上实测完成。

1. 索引数组——最常用的数组类型#

1.1 创建与访问#

1.2 添加、删除、切片#

1.3 生信场景：样本列表管理#

1.4 数组去重#

2. 关联数组——键值对的威力#

生信场景：样本名→条件映射#

生信场景：计数器#

3. 字符串处理五大类操作#

3.1 长度和提取#

3.2 前后缀删除（生信最高频！）#

3.3 替换#

3.4 默认值和条件展开#

3.5 大小写转换#

4. 生信全流程实战：Bash数组+字符串驱动RNA-seq批量比对#

5. Bash数组 vs 临时文件#

6. 踩坑记录#

坑1：`"${array[@]}"` 忘了双引号#

坑2：关联数组必须 `declare -A`#

坑3：`unset` 数组元素产生空洞#

坑4：关联数组键含空格#

坑5：大数组性能崩塌#

坑6：`${#array[@]}` 和 `${#array}` 的区别#

坑7：`${string##/}` 中 `/` 是通配符不是正则#

坑8：`mapfile` 在旧版Bash不存在#

7. 总结#

文章分享

文章目录

Bash数组与字符串处理：参数展开、截取、替换

1. 索引数组——最常用的数组类型#

1.1 创建与访问#

1.2 添加、删除、切片#

1.3 生信场景：样本列表管理#

1.4 数组去重#

2. 关联数组——键值对的威力#

生信场景：样本名→条件映射#

生信场景：计数器#

3. 字符串处理五大类操作#

3.1 长度和提取#

3.2 前后缀删除（生信最高频！）#

3.3 替换#

3.4 默认值和条件展开#

3.5 大小写转换#

4. 生信全流程实战：Bash数组+字符串驱动RNA-seq批量比对#

5. Bash数组 vs 临时文件#

6. 踩坑记录#

坑1："${array[@]}" 忘了双引号#

坑2：关联数组必须 declare -A#

坑3：unset 数组元素产生空洞#

坑4：关联数组键含空格#

坑5：大数组性能崩塌#

坑6：${#array[@]} 和 ${#array} 的区别#

坑7：${string##*/} 中 */ 是通配符不是正则#

坑8：mapfile 在旧版Bash不存在#

7. 总结#

文章分享

文章目录

坑1：`"${array[@]}"` 忘了双引号#

坑2：关联数组必须 `declare -A`#

坑3：`unset` 数组元素产生空洞#

坑6：`${#array[@]}` 和 `${#array}` 的区别#

坑7：`${string##/}` 中 `/` 是通配符不是正则#

坑8：`mapfile` 在旧版Bash不存在#