命令行小工具:seqtk/csvtk/datamash/bioawk
455 字
2 分钟
命令行小工具:seqtk/csvtk/datamash/bioawk
生信命令行有一批小而精的工具,各自专注特定场景。本文覆盖 seqtk 序列抽样、csvtk 表格处理、datamash 命令行统计、bioawk 生信专用 awk,比手写 awk 更简洁可靠。
1. seqtk——序列抽样和格式转换
conda install -c bioconda seqtk -y
# 随机抽样10000条(-s种子保证可重复)seqtk sample -s42 sample.fastq 10000 > sub.fastq
# FASTA→FASTQ(质量全I)seqtk seq -F 'I' input.fa > output.fq
# 按名称列表提取seqtk subseq input.fa id_list.txt > subset.fa
# 统计seqtk comp input.fa # 每序列碱基组成seqtk fqchk input.fq # FASTQ质量概览2. csvtk——CSV/TSV表格处理
conda install -c bioconda csvtk -y
# 查看列名和前5行csvtk headers file.tsvcsvtk head -n 5 file.tsv
# 按列提取csvtk cut -f gene_id,log2FC,padj degs.csv
# 筛选(padj<0.05且log2FC>1)csvtk filter2 -f '$padj<0.05 && $log2FC>1' degs.csv
# 按列排序csvtk sort -k padj:n degs.csv
# 两个表格按基因ID合并csvtk join -f gene_id expr.tsv annot.tsv > merged.tsv表示数值列。padj:n 中的 :n 指定按数值排序。
3. datamash——命令行统计分析
apt install datamash
# 计算表达矩阵每行的均值cat expr.tsv | datamash mean 2-10
# 按分组统计cat data.tsv | datamash -g 1 mean 3 median 3
# 描述性统计cat values.txt | datamash min 1 q1 1 median 1 q3 1 max 1 sstdev 1比 R 快很多——百万行数据秒出统计量。
4. bioawk——生信专用awk
conda install -c bioconda bioawk -y
# 统计FASTQ质量bioawk -c fastx '{print $name, length($seq), meanqual($qual)}' sample.fq | head
# 筛选GC含量bioawk -c fastx 'gc($seq)>0.5' input.fq > gc_high.fq
# 统计FASTA序列长度分布bioawk -c fastx '{print $name, length($seq)}' genome.fa | datamash min 2 max 2 median 25. 踩坑
- seqtk sample的种子必设——
-s不加的话每次结果不同 - csvtk列索引从1开始——不是0-based
- datamash分组前必须排序——
sort -k1,1 | datamash -g 1 - bioawk遇到gzip——需要先
zcat管道传入
本文于 2026-01-20 实测。
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!
命令行小工具:seqtk/csvtk/datamash/bioawk
https://fg.ink/posts/bioinfo-utility-tools/ 相关文章 智能推荐
1
命令行效率工具:bat/fd/ripgrep/jq
技术 bat、fd、ripgrep和jq四个命令行效率工具的生信实战,覆盖文件浏览、内容搜索和JSON数据解析。
2
Biopython序列处理:文件读写与NCBI数据获取
技术 Biopython核心模块SeqIO、Seq和Entrez的实操指南,覆盖FASTA/FASTQ读写、序列操作与NCBI数据获取。
3
生信自学路线图:从Linux基础到独立分析
技术 从Linux基础到独立分析的完整生信自学路线,覆盖环境配置、数据获取、质控比对、差异分析和可视化各个阶段。
4
bedtools区间操作:intersect/merge/coverage/closest
技术 bedtools核心子命令intersect、merge、coverage、closest的深度实操,附带BED/GFF/GTF格式解读与输出分析。
5
Samtools:SAM/BAM格式操作全解
技术 Samtools处理SAM/BAM文件的完整实操,覆盖view、sort、index、flagstat等核心子命令及CIGAR与FLAG解读。
随机文章 随机推荐