正则表达式：FASTA解析、日志提取、awk/sed

生信数据大多是纯文本——FASTA、FASTQ、SAM、GFF、BED、VCF。正则表达式是处理这些文本格式的最短路径。一行 sed 或 grep 即可替代十几步骤的手工操作。本文覆盖生信中的正则实战：FASTA 序列头解析、FASTQ 质量提取、GFF 注释挖掘、日志错误提取、awk/sed 替换。

实测环境：Debian 12，GNU grep 3.11，GNU sed 4.9，GNU awk 5.3。

1. 正则基础——只用这 10 个元字符#

不用学全。生信中 90% 的场景只需要这 10 个：

元字符	含义	生信示例
`.`	任意单个字符	`chr.` 匹配 chr1, chr2, chrX…
`*`	前一个字符重复0次或多次	`A*` 匹配空、A、AA、AAA…
`+`	前一个字符重复1次或多次	`[AT]+` 匹配序列
`?`	前一个字符可选	`chr?1` 匹配 chr1 或 ch1
`^`	行首	`^>` 匹配 FASTA 头
`$`	行尾	`fastq.gz$` 文件名尾
`[]`	字符集	`[ATCG]` 匹配任一碱基
`[^]`	排除字符集	`[^>]` 匹配非>字符
`()`	捕获组	`>(\w+)` 提取序列名
`\|`	或	`fastq\|fq` 两种后缀
`\s`	空白字符	匹配空格、tab
`\w`	单词字符	`[a-zA-Z0-9_]`

1.1 BRE vs ERE vs PCRE——别混用#

Linux 文本工具对正则的支持不一样：

工具	默认模式	用 `+` 需要	用 `()` 需要
`grep`	BRE（基本正则）	`\+`	``
`grep -E`	ERE（扩展正则）	`+`	`()`
`grep -P`	PCRE（Perl兼容）	`+`	`()`
`sed`	BRE	`\+`	``
`sed -E`	ERE	`+`	`()`
`awk`	ERE	`+`	`()`

踩坑最多的是 grep 和 sed 默认是 BRE。 我现在的习惯是：grep 一律加 -P（PCRE），sed 一律加 -E。因为生信正则里 +、?、| 太常用，不想每次转义。

2. FASTA/FASTQ 格式——序列文件的正则操作#

2.1 解析 FASTA 序列头#

NCBI RefSeq 的 FASTA 头和 ENSEMBL 的完全不同：

1
# NCBI RefSeq
2
>NM_001126114.2 Homo sapiens tumor protein p53 (TP53), mRNA
3
>NC_000001.11 Homo sapiens chromosome 1, GRCh38.p14
4

5
# ENSEMBL
6
>ENST00000269305.9 cdna chromosome:GRCh38:17:7661779:7687538:1
7
>ENSG00000141510 gene_biotype:protein_coding
8

9
# UCSC
10
>chr1_1000_2000

用正则提取各种 FASTA 头的关键字段：

1
# ===== 从不同类型FASTA头中提取信息 =====
2

3
# NCBI：提取 accession、物种、基因名
4
grep '^>' refseq.fasta | sed -E 's/^>([^ ]+) ([^ ]+) (.+)/ACCN=\1 SPECIES=\2 DESC=\3/'
5

6
# 输出：ACCN=NM_001126114.2 SPECIES=Homo DESC=sapiens tumor protein p53 (TP53), mRNA
7

8
# ENSEMBL：提取转录本ID、染色体、坐标
9
grep '^>' ensembl.fasta | grep -oP '>(ENST\d+)'                    # 转录本ID
10
grep '^>' ensembl.fasta | grep -oP 'chromosome:[^:]+:([0-9]+)'     # 坐标
11

12
# UCSC：提取染色体和区间
13
grep '^>' ucsc.fasta | grep -oP '>(chr\w+)_(\d+)_(\d+)'
14
# 用 sed 分别提取
15
sed -n 's/^>\(chr\w\+\)_\([0-9]\+\)_\([0-9]\+\)/CHROM=\1 START=\2 END=\3/p' ucsc.fasta

2.2 序列碱基统计——不用 seqkit 也能快速检查#

1
# 统计 ATGC 组成（去掉序列头行）
2
grep -v '^>' sequence.fasta | fold -w1 | sort | uniq -c
3

4
# 输出示例：
5
#  15234 A
6
#   9876 C
7
#  10021 G
8
#  14892 T
9
#      3 N       ← 有3个不确定碱基，注意！
10

11
# 计算 GC 含量
12
total=$(grep -v '^>' sequence.fasta | tr -d '\n' | wc -c)
13
gc=$(grep -v '^>' sequence.fasta | tr -d '\n' | grep -oP '[GCgc]' | wc -l)
14
echo "GC content: $(echo "scale=2; $gc * 100 / $total" | bc)%"

$GC\\% = \\frac{G + C}{A + T + G + C} \\times 100\\%$

2.3 FASTQ 质量线提取#

FASTQ 每 4 行一组：@header / sequence / + / quality。提取质量信息：

1
# 提取所有质量行（每4行的第4行）
2
awk 'NR % 4 == 0' sample.fastq | head -5
3

4
# 统计 Q>30 的碱基比例（质量字符 ASCII-33=Q值）
5
awk 'NR % 4 == 0 {
6
    len = length($0)
7
    for (i = 1; i <= len; i++) {
8
        q = ord(substr($0, i, 1)) - 33
9
        if (q >= 30) q30++
10
        total++
11
    }
12
}
13
END {
14
    printf("Q30: %.1f%% (%d/%d)\n", q30*100/total, q30, total)
15
}
16
function ord(c) { return index("!\"#$%&\047()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\\]^_`abcdefghijklmnopqrstuvwxyz{|}~", c) + 32 }
17
' sample.fastq

当然，生产环境用 seqkit stats 或 fastp 更快，但理解这个正则逻辑能帮你在没有专用工具时自救。

3. GFF/GTF 注释文件的挖掘#

GFF（General Feature Format）是基因注释的标准格式。9 列，tab 分隔：

1
chr1  HAVANA  gene  11869  14409  .  +  .  gene_id=ENSG00000223972;gene_name=DDX11L1
2
chr1  HAVANA  exon  11869  12227  .  +  .  gene_id=ENSG00000223972;transcript_id=ENST00000456328

3.1 提取特定类型——如所有 exon#

1
grep '\texon\t' annotation.gtf | head -5

\t 是你最好的朋友——GFF/GTF 全是 tab 分隔，用 \t 精确匹配列，避免 exon 出现在第 9 列注释里被误匹配。

3.2 从第9列提取关键字段#

GFF 第 9 列用 ; 分隔键值对。提取所有基因的 gene_id 和 gene_name：

1
# 从 GTF 中提取基因的 ID 和名称
2
grep '\tgene\t' annotation.gtf | \
3
    grep -oP 'gene_id "([^"]+)"|gene_name "([^"]+)"' | \
4
    paste - - | \
5
    sed 's/gene_id "//g;s/"//g;s/gene_name "//g;s/"\t/ /g'

分解这个管道：

grep '\tgene\t' → 只取 gene 行
grep -oP 'gene_id "([^"]+)"|gene_name "([^"]+)"' → 只输出匹配部分（-o = only matching）
paste - - → 把两行（gene_id、gene_name）合并到一行
sed → 清理引号

输出：

1
ENSG00000223972 DDX11L1
2
ENSG00000227232 WASH7P
3
ENSG00000278267 MIR6859-1

3.3 awk 解析 GFF 的复杂统计#

1
# 统计每个染色体上各类 feature 的数量
2
awk -F'\t' '$3 == "gene" {
3
    split($9, attrs, ";")
4
    for (a in attrs) {
5
        if (attrs[a] ~ /gene_biotype/) {
6
            split(attrs[a], bt, " ")
7
            gsub(/"/, "", bt[2])
8
            count[$1][bt[2]]++
9
        }
10
    }
11
}
12
END {
13
    for (chr in count) {
14
        for (bt in count[chr]) {
15
            print chr, bt, count[chr][bt]
16
        }
17
    }
18
}' annotation.gtf | sort -k1,1 -k3,3rn | head -20

这里用到的正则 ~ /gene_biotype/ 是 awk 的语法糖，等价于 match。

4. 日志解析——从生信流程日志中提取关键信息#

4.1 提取比对率#

STAR、BWA、HISAT2 的输出日志都有比对率信息，但格式各不同：

1
# STAR 日志
2
grep -oP 'Uniquely mapped reads % \| \K[0-9.]+' star_Log.final.out
3

4
# BWA 日志（从 stderr）
5
bwa mem ... 2>&1 | grep -oP '[0-9.]+%'
6

7
# HISAT2 日志
8
grep -oP 'overall alignment rate: \K[0-9.]+%' hisat2.log

\K 是 PCRE 的特性：丢弃 \K 左边匹配的内容，只保留右边。非常方便。

4.2 批量提取所有样本的比对率——一行搞定#

1
# 假设每个样本的 STAR 日志在 logs/SAMPLE_Log.final.out
2
for log in logs/*_Log.final.out; do
3
    sample=$(basename "$log" _Log.final.out)
4
    rate=$(grep -oP 'Uniquely mapped reads % \| \K[0-9.]+' "$log")
5
    echo "$sample $rate"
6
done

4.3 从 fastp JSON 报告提取过滤率（用 jq + 正则）#

1
# fastp JSON 里过滤统计
2
jq -r '.summary.before_filtering.total_reads, .summary.after_filtering.total_reads' fastp_report.json
3

4
# 计算过滤率
5
before=$(jq '.summary.before_filtering.total_reads' fastp_report.json)
6
after=$(jq '.summary.after_filtering.total_reads' fastp_report.json)
7
python3 -c "print(f'Filter rate: {(1 - $after/$before)*100:.1f}%')"

4.4 从命令行历史中提取你常用的长命令#

1
# 找出过去一周用得最多的10个生信命令（要求：命令长度>30字符）
2
history | sed -E 's/^[ ]*[0-9]+[ ]+//' | \
3
    grep -P '^.{30,}' | \
4
    sort | uniq -c | sort -rn | head -10

5. 实用 Python 正则#

Shell 正则够用但长文本处理有时力不从心。Python 的 re 模块配合命名捕获组（named groups）更清晰：

1
#!/usr/bin/env python3
2
"""regex bioinfo examples - Python re module"""
3

4
import re
5

6
# ===== 1. 解析 FASTA 头（各种格式） =====
7
fasta_headers = [
8
    ">NM_001126114.2 Homo sapiens tumor protein p53 (TP53), mRNA",
9
    ">ENST00000269305.9 cdna chromosome:GRCh38:17:7661779:7687538:1",
10
    ">chr1_1000_2000",
11
    ">ENSG00000141510|TP53|protein_coding",
12
]
13

14
# 模式1：NCBI RefSeq
15
ncbi_pattern = re.compile(
16
    r'>(?P<accession>[A-Z]+_\d+(?:\.\d+)?) '
17
    r'(?P<species>\w+ \w+) '
18
    r'(?P<description>.+)'
19
)
20

21
# 模式2：ENSEMBL 转录本
22
ensembl_transcript = re.compile(
23
    r'>(?P<transcript_id>ENST\d+(?:\.\d+)?) '
24
    r'.*chromosome:(?P<build>\w+):(?P<chr>\w+):(?P<start>\d+):(?P<end>\d+)'
25
)
26

27
# 模式3：UCSC 坐标
28
ucsc_pattern = re.compile(
29
    r'>(?P<chrom>chr\w+)_(?P<start>\d+)_(?P<end>\d+)'
30
)
31

32
for header in fasta_headers:
33
    for pattern in [ncbi_pattern, ensembl_transcript, ucsc_pattern]:
34
        m = pattern.match(header)
35
        if m:
36
            print(f"Matched: {m.groupdict()}")
37
            break
38
    else:
39
        print(f"No match: {header}")

输出：

1
Matched: {'accession': 'NM_001126114', 'species': 'Homo sapiens',
2
          'description': 'tumor protein p53 (TP53), mRNA'}
3
Matched: {'transcript_id': 'ENST00000269305', 'build': 'GRCh38',
4
          'chr': '17', 'start': '7661779', 'end': '7687538'}
5
Matched: {'chrom': 'chr1', 'start': '1000', 'end': '2000'}
6
No match: >ENSG00000141510|TP53|protein_coding

5.1 从 VCF 提取变异信息#

1
# ===== 2. 解析 VCF 行 =====
2
vcf_line = "chr1\t123456\trs123\tA\tG\t100\tPASS\tDP=50;AF=0.35\tGT:AD:DP\t0/1:20,10:30"
3

4
# VCF 格式（8列固定 + 第9列INFO + 样本列）
5
vcf_pattern = re.compile(r'''
6
    ^(?P<chrom>\S+)\t
7
    (?P<pos>\d+)\t
8
    (?P<id>\S+)\t
9
    (?P<ref>[ATCG]+)\t
10
    (?P<alt>[ATCG,]+)\t
11
    (?P<qual>\S+)\t
12
    (?P<filter>\S+)\t
13
    (?P<info>.+?)(?:\t|$)
14
''', re.VERBOSE)
15

16
m = vcf_pattern.match(vcf_line)
17
if m:
18
    info = dict(kv.split('=') for kv in m.group('info').split(';') if '=' in kv)
19
    print(f"Variant: {m.group('chrom')}:{m.group('pos')} "
20
          f"{m.group('ref')}>{m.group('alt')}")
21
    print(f"  DP={info.get('DP', 'N/A')}, AF={info.get('AF', 'N/A')}")

5.2 批量 GTF 第9列解析#

1
# ===== 3. 解析 GTF 第9列属性 =====
2
gtf_attr = 'gene_id "ENSG00000223972"; gene_version "5"; '\
3
           'gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene";'
4

5
# 把键值对提取为字典
6
attr_dict = dict(re.findall(r'(\w+) "([^"]+)"', gtf_attr))
7
print(attr_dict)
8
# {'gene_id': 'ENSG00000223972', 'gene_version': '5',
9
#  'gene_name': 'DDX11L1', 'gene_source': 'havana',
10
#  'gene_biotype': 'transcribed_unprocessed_pseudogene'}
11

12
# 获取特定属性
13
gene_id = attr_dict.get("gene_id", "N/A")
14
gene_name = attr_dict.get("gene_name", "N/A")
15
biotype = attr_dict.get("gene_biotype", "N/A")

正则 (\w+) "([^"]+)" 的解读：

(\w+) → 捕获属性名（如 gene_id）
"([^"]+)" → 捕获双引号内的值

6. sed 实战——生信中的数据清洗#

6.1 批量修改文件名（在文本列表里）#

1
# 把样本列表从 "/path/to/S01_R1.fastq.gz" 改成 "S01"
2
sed -E 's|.*/(S[0-9]+)_R1\.fastq\.gz|\1|' file_list.txt

6.2 去 FASTA 文件的换行（不规范的FASTA）#

1
# 有的FASTA每行碱基数不同，需要标准化为每行60个
2
# 1. 先变成单行序列
3
awk '/^>/ {if (seq) print seq; print; seq=""; next}
4
     {seq=seq $0}
5
     END {if (seq) print seq}' input.fasta > oneline.fasta
6

7
# 2. 再把非头行按60字符折行
8
fold -w 60 oneline.fasta > formatted.fasta

6.3 批量清理日志中的 ANSI 颜色码#

1
# 从程序输出中去掉颜色码（\033[...m）
2
sed -E 's/\x1b\[[0-9;]*m//g' program.log > clean.log

7. 踩坑记录#

坑1：贪婪匹配 vs 非贪婪匹配#

这是正则里最常见的坑。生信中特别容易在解析 FASTA 头时碰到：

1
# 贪婪匹配（默认）——会吃太多
2
echo ">geneA description; geneB description" | grep -oP '>.*;'
3
# 输出：>geneA description; geneB description;  ← 吃了整行！
4

5
# 非贪婪匹配——加 ?
6
echo ">geneA description; geneB description" | grep -oP '>.*?;'
7
# 输出：>geneA description;  ← 正确停在第一个分号

$quantifier\_greedy \Rightarrow maximal\ match， quantifier\_lazy \Rightarrow minimal\ match$

.* = 尽可能多匹配，.*? = 尽可能少匹配。解析分隔符分隔的文本时，一律用非贪婪 .*?（或 [^分隔符]+）。

坑2：`grep` 不带 `-P` 时 `\d` 不生效#

1
# 用 grep（默认 BRE）找数字
2
grep '\d+' file.txt       # 不匹配！BRE 不认识 \d
3

4
# 正确做法
5
grep -P '\d+' file.txt    # PCRE 模式
6
grep -E '[0-9]+' file.txt # ERE 模式用传统字符集

注意： \d、\w、\s 这些简写只在 PCRE 里有效。grep 和 sed 默认不认。

坑3：`sed` 中 `-E` 和 `\1` 的配合#

1
# 错误：-E 模式下引用捕获组仍用 \1
2
sed -E 's/>(ENSG[0-9]+).*/Gene: \1/'   # 正确
3

4
# 不要写成 $1（那是 Perl 的语法）
5
sed -E 's/>(ENSG[0-9]+).*/Gene: $1/'   # 错误！sed 用 \1

坑4：跨行匹配——grep 天生只在一行内匹配#

1
# 你用 grep 找跨两行的模式——永远找不到
2
grep 'START.*END' file.txt  # 只匹配 START 和 END 在同一行
3

4
# 跨行匹配用 pcregrep 或 awk
5
pcregrep -M 'START\n.*END' file.txt
6

7
# 或者用 awk
8
awk '/START/,/END/' file.txt

这个坑在处理带换行的 FASTA 序列时最常见。比如你想找包含特定 motif 的序列，但这个 motif 恰好在换行边界。建议先把 FASTA 转成单行再匹配。

坑5：过度使用 `.*` 导致灾难性回溯（catastrophic backtracking）#

1
# 这个正则看起来无害但能在特定输入上卡死几分钟
2
import re
3
pattern = re.compile(r'(A+)+B')
4
text = "AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAC"  # 没有 B
5
pattern.match(text)  # 可能卡死！回溯次数指数级增长

生信里如何避免： 当重复模式（如 [ATCG]+）嵌套使用时，用 (?> ... ) 原子组（atomic group）或改用 finditer() 而不是 match()。

1
# 安全写法
2
pattern = re.compile(r'A+B')  # 别嵌套重复

8. 生信正则速查表#

场景	正则	工具
匹配 FASTA 头	`^>`	`grep '^>'`
非 FASTA 头行	`^[^>]`	`grep -v '^>'`
提取 NCBI accession	`>(\w+_\d+(\.\d+)?)`	`grep -oP`
提取 ENSEMBL ID	`ENS[GT]\d{11}`	`grep -oP`
GTF tab 分隔列	`\t`	`awk -F'\t'`
GTF 第9列属性	`(\w+) "([^"]+)"`	`grep -oP`
匹配质量字符（Q≥30）	`[?@A-I]`（以 ! = 0 为准）	`grep -oP`
染色体名	`chr(\w+)`	`grep -oP`
基因组坐标	`(\d+)[-:](\d+)`	`sed -E`
日志百分比	`([0-9]+(?:\.[0-9]+)?)%`	`grep -oP`
非贪婪匹配	`.*?`	PCRE
提取 tab 文件第n列	`cut -f n`（比正则简单）	`cut`

9. 总结#

正则不是学一次就会的。我用了五年，每次碰到新格式还是会查手册。但有几个路径能帮你少走弯路：

先用简单命令验证——grep -c 看匹配到了多少行，确认没多匹配也没漏
逐步构建正则——先写最简单的 ^>，确认能匹配 FASTA 头；再加 ^>\w+，再加捕获
grep -oP 是最好的调试器——-o 只输出匹配部分，让你直观看到正则到底吃掉了什么
生信专用工具优先——能用 seqkit 就别手写 awk 正则，能用 bedtools 就别手动解析 BED

本文于 2025-10-10 在 Debian 12 上实测完成。GNU grep 3.11, GNU sed 4.9, GNU awk 5.3, Python 3.10。所有正则均在生信数据上实测验证。

1. 正则基础——只用这 10 个元字符#

1.1 BRE vs ERE vs PCRE——别混用#

2. FASTA/FASTQ 格式——序列文件的正则操作#

2.1 解析 FASTA 序列头#

2.2 序列碱基统计——不用 seqkit 也能快速检查#

2.3 FASTQ 质量线提取#

3. GFF/GTF 注释文件的挖掘#

3.1 提取特定类型——如所有 exon#

3.2 从第9列提取关键字段#

3.3 awk 解析 GFF 的复杂统计#

4. 日志解析——从生信流程日志中提取关键信息#

4.1 提取比对率#

4.2 批量提取所有样本的比对率——一行搞定#

4.3 从 fastp JSON 报告提取过滤率（用 jq + 正则）#

4.4 从命令行历史中提取你常用的长命令#

5. 实用 Python 正则#

5.1 从 VCF 提取变异信息#

5.2 批量 GTF 第9列解析#

6. sed 实战——生信中的数据清洗#

6.1 批量修改文件名（在文本列表里）#

6.2 去 FASTA 文件的换行（不规范的FASTA）#

6.3 批量清理日志中的 ANSI 颜色码#

7. 踩坑记录#

坑1：贪婪匹配 vs 非贪婪匹配#

坑2：`grep` 不带 `-P` 时 `\d` 不生效#

坑3：`sed` 中 `-E` 和 `\1` 的配合#

坑4：跨行匹配——grep 天生只在一行内匹配#

坑5：过度使用 `.*` 导致灾难性回溯（catastrophic backtracking）#

8. 生信正则速查表#

9. 总结#

文章分享

文章目录

正则表达式：FASTA解析、日志提取、awk/sed

1. 正则基础——只用这 10 个元字符#

1.1 BRE vs ERE vs PCRE——别混用#

2. FASTA/FASTQ 格式——序列文件的正则操作#

2.1 解析 FASTA 序列头#

2.2 序列碱基统计——不用 seqkit 也能快速检查#

2.3 FASTQ 质量线提取#

3. GFF/GTF 注释文件的挖掘#

3.1 提取特定类型——如所有 exon#

3.2 从第9列提取关键字段#

3.3 awk 解析 GFF 的复杂统计#

4. 日志解析——从生信流程日志中提取关键信息#

4.1 提取比对率#

4.2 批量提取所有样本的比对率——一行搞定#

4.3 从 fastp JSON 报告提取过滤率（用 jq + 正则）#

4.4 从命令行历史中提取你常用的长命令#

5. 实用 Python 正则#

5.1 从 VCF 提取变异信息#

5.2 批量 GTF 第9列解析#

6. sed 实战——生信中的数据清洗#

6.1 批量修改文件名（在文本列表里）#

6.2 去 FASTA 文件的换行（不规范的FASTA）#

6.3 批量清理日志中的 ANSI 颜色码#

7. 踩坑记录#

坑1：贪婪匹配 vs 非贪婪匹配#

坑2：grep 不带 -P 时 \d 不生效#

坑3：sed 中 -E 和 \1 的配合#

坑4：跨行匹配——grep 天生只在一行内匹配#

坑5：过度使用 .* 导致灾难性回溯（catastrophic backtracking）#

8. 生信正则速查表#

9. 总结#

文章分享

文章目录

坑2：`grep` 不带 `-P` 时 `\d` 不生效#

坑3：`sed` 中 `-E` 和 `\1` 的配合#

坑5：过度使用 `.*` 导致灾难性回溯（catastrophic backtracking）#