2.去完indel(或snp)的vcf文件比较大,可以把它压缩一下: 最好不要用gzip直接压缩,可能会影响到后面建索引: 我碰到的报错:index: "xxx.vcf.gz" is in a format that cannot be usefully indexed 所以压缩vcf文件最好用bgzip~ 如果你没有下载hstlib,可以先下一个哦 conda install hstlib -y 这里如果下载...
因为gzip是一种有效的压缩算法,它可以利用重复出现的模式和冗余信息,将数据进行编码和压缩,从而减少数据的存储空间。 重复模式: 在VCF文件中,可能存在大量的重复信息,比如在多个位点上的质量分数或者过滤标记可能会重复出现,gzip能够识别这些重复模式,并使用更短的编码方式来表示它们,从而减少存储空间。 字典压缩: gzip...
1. 若vcf文件包含snp和indel,需按需求去除其中之一。去除indel的命令如下:使用bgzip压缩的vcf文件,如vcf.gz,执行命令:`bgzip --remove-indels --out output.vcf --recode --recode-INFO-all input.vcf.gz` 去完indel后,可能需要进一步压缩,但需避免直接使用gzip,以免影响后续索引构建。2. ...
很多时候,call完变异后,需要对vcf文件中的样本名进行修改,小编这里分享一个修改ID的python脚本(若vcf比较大,建议只对表头进行修改,然后cat在一起): #!/usr/bin/env pythonimportsysimportgzipiflen(sys.argv)!=4:print"python chang_vcf_id.py corr.list raw.vcf.gz out.vcf.gz"exit()fw=gzip.open(sys....
VCF文件,可以是被压缩的格式(gzip或者bgzip)。文件可以含有multiallelic 位点 and indels,但是只有biallelic 位点才会用于分析。 群体/物种图(SETS.txt),一个文本文件,每行代表一个个体,和其所属的物种/种群名称,如下所示。 Ind1 Species1 Ind2 Species1 ...
对GATK call变异后的vcf文件进行过滤,首先使用了bcftools的vcfutils.pl进行过滤,并使用gzip生成了vcf.gz的压缩文件,之后用GATK对该文件进行过滤。 报错及解决过程: gatk报错An index is required but was not found for file drivingVariantFile 这个报错是因为GATK读别的软件生成的vcf.gz文件,需要一个索引 ...
bgzip merge-test-b.vcf.gz && tabix merge-test-b.vcf.gz /vcftools/bin/vcf-merge merge-test-a.vcf.gz merge-test-b.vcf.gz > combine_a_b_diffsamples_allsites_vcftools.vcf 合并之后会对不同文件中的数据集进行整合,没有变异的位点会自动标记为缺失。
bgzip merge-test-b.vcf.gz && tabix merge-test-b.vcf.gz /vcftools/bin/vcf-merge merge-test-a.vcf.gz merge-test-b.vcf.gz > combine_a_b_diffsamples_allsites_vcftools.vcf 合并之后会对不同文件中的数据集进行整合,没有变异的位点会自动标记为缺失。
bcftoolsannotate--rename-chrschr_rename.txt-Oz-otest2.vcf.gztest1.vcf gzip-dtest2.vcf.gz less-Stest2.vcf 修改后的结果: 可以看到,已经修改过了。 3. 修改样本的名称 样本对应关系txt文件整理: awk'{print$2}'HapMap_3_r3_1.fam|head>sname.txt awk'{print$1,"new_"$1}'sname.txt>sname_...
格式转换是将 vcf 与 bcf 之间进行格式转换,并同时进行压缩,bcf 为二进制格式,无法使用 less 等命令直接查看,但更加节约存储。如果是 bcf 格式文件,可以使用 view 功能进行查看。vcf 或者 bcf 必须使用 bgzip 压缩。 代码语言:javascript 复制 #格式转换 ...