Articles of bioinformática

eliminar TAG / TAA / TGA

Tengo un file en el formatting mencionado a continuación. Tengo que eliminar los codones de parada (TAG / TAA / TGA) cualquier cosa que coincida con TAG o TAA o TGA. la búsqueda debe ser en múltiplos de tres. (como si tuviera que search cada tres letras y si encuentra los codones de detención, se […]

Distribución de Linux para bioinformática?

Necesito una distribución de Linux que esté diseñada para bioinformática, incluida alguna herramienta bioinformática, una database de muestra, etc.

Encontrar las líneas comunes en dos files usando 4 campos usando awk y UNIX

Tengo 2 files. Si los campos 1, 2, 4 y 5 de ambos file1 y file2 coinciden, entonces quiero imprimir toda la línea de file1 y file2 una tras otra en mi file de salida. Archivo1: sc2/80 20 . AT 86 F=5;U=4 sc2/60 55 . GT 76 F=5;U=4 sc2/68 20 . TC 71 F=5;U=4 sc2/24 […]

conversión múltiple bam a la cama usando herramientas para la cama

Tengo diez files .bam (formatting bioinformático) y me gustaría convertirlo a 10 files .bed, pero para esta conversión necesito usar un command especial bedtools bamTobed -i (input file) > output file.bed

Transformar una matriz con dimensión (nxn) en matriz con combinación de columna de línea *

Creo que será mejor ejemplificar. Tengo esta estructura de matriz (file): Archivo1 ____ snp1 snp2 snp3 snp4 snp1 1 0.3 0.4 0.5 snp2 0.3 1 0.4 0.5 snp3 0.4 0.4 1 0.5 snp4 0.5 0.5 0.5 1 Quería transformar este File1 en File2 : snp1 snp1 1 snp1 snp2 0.3 snp1 snp3 0.4 snp1 snp4 […]

intersección entre 2 files (valores en el file 1 que caen en el range de valores en el file 2)

Tengo un file llamado snp_data contiene datos del cromosoma SNP (polymorphism de un solo nucleótido) . Este es un file CSV delimitado en blanco y espacio de 3 columnas que tiene el siguiente formatting: user@host:~$ cat snp_data snp_id chromosome position Chr01__912 1 912 1 Chr01__944 1 944 1 Chr01__1107 1 1107 1 Chr01__1118 1 1118 […]

para el bucle al hacer coincidir tanto el anverso como el reverso del nombre del file

Estoy intentando configurar un bucle for para ejecutar un process en pares de files. Los nombres de los files se ven así 36_002_CGATGT_L001_ R1 _005.fastq.gz 36_002_CGATGT_L001_ R2 _005.fastq.gz 36_002_CGATGT_L001_ R1 _002.fastq.gz 36_002_CGATGT_L001_ R2 _002.fastq.gz 62_013_AGTCAA_L001_ R1 _003.fastq.gz 62_013_AGTCAA_L001_ R2 _003.fastq.gz Necesito usar cada par en el siguiente command sickle pe -f 36_002_CGATGT_L001_R1_005.fastq.gz \ -r 36_002_CGATGT_L001_R2_005.fastq.gz\ […]

Eliminar todo después del segundo guión bajo

Quiero eliminar todo el text después del segundo guión bajo (incluido el guión bajo), pero no en todas las líneas. Cada una de las líneas objective comienza con un patrón (> gi_). EJEMPLO. Entrada >gi_12_pork_cat ACGT >gi_34_pink_blue CGTA Salida >gi_12 ACGT >gi_34 CGTA

cambiar y manipular líneas en un file usando awk

Tengo un file con el siguiente formatting >M03117:162:000000000-ATLWF:1:1114:22047:12565:307 TCCGAAAGT-ACAACGTGT >M03117:162:000000000-ATLWF:1:2104:9367:8166:307 TTCGAAAGTT-GGTGAGGTGTGGG >M03117:162:000000000-ATLWF:1:1119:11492:8271:307 TCCGAAAGTTCTCCGA-CTTGGCTTCCTAG >M03117:162:000000000-ATLWF:1:2111:19039:8200:307 GACGAAAGTTCACCGATA-GAGGTAGAAGGTGCAGTGGGGA Me gustaría manipular y cambiar las líneas para que la segunda línea se divida en dos separadas por "-" a una nueva línea y el nombre identificado anteriormente por ">" en la nueva línea y renombrado por _2 al final […]

¿Cómo dividir una enorme línea de caracteres en varias líneas con el mismo número de columnas?

Si un file de datos se ve así: snp200 snp1 snp100 snp32 1 1 0 2 0 0 0 2 2 2 2 1… ¿Cómo puedo romper la línea cuando snp … terminar y usarlos como nombres de columna y luego dividir el rest de dígitos por igual (el número total de dígitos en cada […]