Articles of bioinformática

Recuperando secuencias Fasta utilizando información de file de la cama del file instalado localmente

Tengo un file .bed que contiene alnetworkingedor de 30000 filas para las cuales tengo las secuencias recuperadas usando el module fetch-sequences de la herramienta rsat ( http://rsat.ulb.ac.be/rsat/help.fetch-sequences.html#usage ) [Nota: esta herramienta se conecta al server cada vez para recuperar las secuencias] Ahora tengo aproximadamente 10000 subsets del mismo file de la cama orderados aleatoriamente para […]

¿Cómo imprimir líneas si dos campos tienen valores idénticos?

Soy nuevo en Unix, tengo una pregunta sobre subsets de datos, agradecería la ayuda de cualquier persona. Tengo un file de input 23G que contiene millones de filas, pero quiero mantener solo aquellas filas donde la primera y la cuarta columna son idénticas (nombres de andamios). aquí están las primeras filas de mi set de […]

eliminar TAG / TAA / TGA

Tengo un file en el formatting mencionado a continuación. Tengo que eliminar los codones de parada (TAG / TAA / TGA) cualquier cosa que coincida con TAG o TAA o TGA. la búsqueda debe ser en múltiplos de tres. (como si tuviera que search cada tres letras y si encuentra los codones de detención, se […]

Distribución de Linux para bioinformática?

Necesito una distribución de Linux que esté diseñada para bioinformática, incluida alguna herramienta bioinformática, una database de muestra, etc.

Encontrar las líneas comunes en dos files usando 4 campos usando awk y UNIX

Tengo 2 files. Si los campos 1, 2, 4 y 5 de ambos file1 y file2 coinciden, entonces quiero imprimir toda la línea de file1 y file2 una tras otra en mi file de salida. Archivo1: sc2/80 20 . AT 86 F=5;U=4 sc2/60 55 . GT 76 F=5;U=4 sc2/68 20 . TC 71 F=5;U=4 sc2/24 […]

conversión múltiple bam a la cama usando herramientas para la cama

Tengo diez files .bam (formatting bioinformático) y me gustaría convertirlo a 10 files .bed, pero para esta conversión necesito usar un command especial bedtools bamTobed -i (input file) > output file.bed

Transformar una matriz con dimensión (nxn) en matriz con combinación de columna de línea *

Creo que será mejor ejemplificar. Tengo esta estructura de matriz (file): Archivo1 ____ snp1 snp2 snp3 snp4 snp1 1 0.3 0.4 0.5 snp2 0.3 1 0.4 0.5 snp3 0.4 0.4 1 0.5 snp4 0.5 0.5 0.5 1 Quería transformar este File1 en File2 : snp1 snp1 1 snp1 snp2 0.3 snp1 snp3 0.4 snp1 snp4 […]

intersección entre 2 files (valores en el file 1 que caen en el range de valores en el file 2)

Tengo un file llamado snp_data contiene datos del cromosoma SNP (polymorphism de un solo nucleótido) . Este es un file CSV delimitado en blanco y espacio de 3 columnas que tiene el siguiente formatting: user@host:~$ cat snp_data snp_id chromosome position Chr01__912 1 912 1 Chr01__944 1 944 1 Chr01__1107 1 1107 1 Chr01__1118 1 1118 […]

para el bucle al hacer coincidir tanto el anverso como el reverso del nombre del file

Estoy intentando configurar un bucle for para ejecutar un process en pares de files. Los nombres de los files se ven así 36_002_CGATGT_L001_ R1 _005.fastq.gz 36_002_CGATGT_L001_ R2 _005.fastq.gz 36_002_CGATGT_L001_ R1 _002.fastq.gz 36_002_CGATGT_L001_ R2 _002.fastq.gz 62_013_AGTCAA_L001_ R1 _003.fastq.gz 62_013_AGTCAA_L001_ R2 _003.fastq.gz Necesito usar cada par en el siguiente command sickle pe -f 36_002_CGATGT_L001_R1_005.fastq.gz \ -r 36_002_CGATGT_L001_R2_005.fastq.gz\ […]

Eliminar todo después del segundo guión bajo

Quiero eliminar todo el text después del segundo guión bajo (incluido el guión bajo), pero no en todas las líneas. Cada una de las líneas objective comienza con un patrón (> gi_). EJEMPLO. Entrada >gi_12_pork_cat ACGT >gi_34_pink_blue CGTA Salida >gi_12 ACGT >gi_34 CGTA