-
Notifications
You must be signed in to change notification settings - Fork 0
mydatascience/bio_bundle
Folders and files
| Name | Name | Last commit message | Last commit date | |
|---|---|---|---|---|
Repository files navigation
Набор скриптов для тестирования инструментов для выравнивания коротких и длинных ридов и нахождения нуклеотидных полиморфизмов.
usage: test.py [-h] [-i INPUT] [-1 READS1] [-2 READS2] -r REF [-t THREADS]
[--hash HASHSZ] -o OUT [--tech {illumina,454,ionTorrent}]
[--skip_test] [-v] [-m MAPPERS] [-s SNP_CALLERS] [-c STORAGE]
Параметры:
-i INPUT fasta, fastq файл с ридами или отсортированный проиндексированный bam файл с выравниванием для поиска snp
-1 READS1 fasta, fastq файл с ридами
-2 READS2 fasta, fastq файл с ридами
-r REF, --ref REF fasta файл с референсом
-t THREADS, --threads THREADS количество потоков, используемое в программах, работающих в многопоточном режиме [4]
--hash HASHSZ размер хэшэй или k-меров [10]
-o STORAGE, --out STORAGE директория для хранения результатов тестов
--tech {illumina,454,ionTorrent} используемая технология секвенирования [illumina]
-v найти snp для файлов, полученных в результате выравнивания
-m MAPPERS, --mappers MAPPERS список программ, используемых для выравнивания;
если список не задан, но заданы файлы с ридами, то выполняется выравнивание с использованием всех программ,
доступных для выбранной технологии и типа ридов(pe, se)
-s SNP_CALLERS, --snp SNP_CALLERS список программ, используемых для нахождения snp,
если список не задан, то выполняется поиск с использованием всех возможных программ
Скрипт для сбора статистики по результатам тестов
usage: collect_stats.py [-h] -i IN_DIR [--vcf VCF] -n NAME
optional arguments:
-i IN_DIR каталог с результами тестов, полученных при запуске test.py. Если тестировался только variant calling, указывается каталог родитеский каталогу с результатами тестирования
--vcf VCF проиндексированный vcf файл для сравнения
-n NAME, --name NAME базовое имя для vcf файлов, полученных в результате тестирования, совпадает с базовым именем ридов/bam файла для которого запущены тесты
Примеры использования:
test.py -1 read1.fq -2 read2.fq -v -r ref.fa -o out -t 4 # проводит тестирование выравнивания с использованием всех допустимых программ выравнивания парных ридов illumina в 8 потоков, а также всех возможных программ для поиска snp для каждого полученного выравнивания.
collect_stats.py -i out -n read1 --vcf gold.vcf.gz # сбор статистики
test.py -i test.bam -r ref.fa -o test_res/out # проводит тестирование поиска snp для файла test.bam
collect_stats.py -i test_res -n test --vcf gold.vcf.gz # сбор статистики
About
mydatascience.com
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published