Articles of procesamiento de text

¿Cómo puedo extraer símbolos chinos del text

No puedo publicar símbolos de text chinos aquí, pero básicamente solo quiero eliminar todas las líneas que no contengan al less un símbolo chino. http://pastebin.com/au8zeATC ¿Cómo puedo extraer eso para que se vea como http://pastebin.com/5YPvzGJT

Recuperando secuencias Fasta utilizando información de file de la cama del file instalado localmente

Tengo un file .bed que contiene alnetworkingedor de 30000 filas para las cuales tengo las secuencias recuperadas usando el module fetch-sequences de la herramienta rsat ( http://rsat.ulb.ac.be/rsat/help.fetch-sequences.html#usage ) [Nota: esta herramienta se conecta al server cada vez para recuperar las secuencias] Ahora tengo aproximadamente 10000 subsets del mismo file de la cama orderados aleatoriamente para […]

unir y agregar según la position del personaje

Tengo un file donde necesito hacer coincidir y actualizar en function de qué número / personaje está en una position fija en un file. si el carácter en la position 586 = 5, inserte el cero "0" en el espacio 614 .. si el carácter en la position 586 = 1, inserte el cero "0" […]

¿Cómo encontrar el mínimo de una columna en cada enésimo intervalos de un file, usando sed, sort, tail?

Quiero encontrar el mínimo de la quinta columna de un file en cada 12º intervalo de eso y save la línea asociada en un nuevo file. Para encontrar el mínimo de la última 12ma línea que puedo usar tail -n 12 $FILEname | sort -g -k 5,5 | head -1| awk '{print}'> tmp.out Pero, ¿cómo […]

Teoría de sets con herramientas Unix: intersección "relajada" de dos lists donde el elemento en el set 1 es al less una subcadena de elementos en el set 2

Tengo una list de direcciones mac de máquinas mediante un logging dhcp. Necesito filtrar en un set de prefijos de direcciones MAC (la subcadena) que pertenecen a un proveedor. ¿Cómo puedo filtrar la list de direcciones mac de máquina en function del set de prefijos de proveedor?

awk script para identificar una secuencia incorrecta de palabras

Tengo un file como se muestra a continuación: FHEAD01 THEAD02 TCUST03 TITEM04 TITEM05 IDISC06 TTEND07 TTAIL08 THEAD09 TCUST10 IDISC11…. TITEM12 TTEND13 TTAIL14 THEAD15 TITEM16 IDISC17 TTEND18 TTAIL19 THEAD20 IDISC21….. TITEM22 TTEND23 TTAIL24 THEAD25 TITEM26 IDISC27 IDISC28 TITEM29 TTEND30 TTAIL31 FTAIL32 Quiero identificar la siguiente secuencia e imprimir loggings: 1) THEAD,TCUST,IDISC,* 2) THEAD,IDISC,* Salida esperada Los […]

Reemplazar el contenido del file con SED en 2 files

Tengo 2 files. El file 1 se ve así: Company: "Acme CO" Address: "123 Main Street" Zip: "12345" El file 2 es un file JSON con variables como marcadores de position para estos datos. Por ejemplo, %%company%% donde irá el nombre de la compañía. Necesito poder search el file 1 para get los valores de […]

¿Por qué el command pegar no funciona para concatenar dos files en forma de columna cuando los caracteres son más de 511?

Estoy usando un command pegar para concatenar dos files .csv en forma de columna. Estos dos files son de gran tamaño y cuando ejecuto el command pegar de la siguiente manera, donde coma (,) es el delimitador: paste -d',' file1.csv file2.csv > file3.csv El command falla al dar salida paste: line too long Sin embargo, […]

¿Cómo puedo intercambiar dos grupos de líneas en un file .sql?

Tengo un file de volcado con varias INSERT . El file se ve algo así como start_lines INSERT INTO table1234 … INSERT INTO table1234 … INSERT INTO table1234 … INSERT INTO table7890 … INSERT INTO table7890 … INSERT INTO table7890 … end_lines Necesito todas las INSERT INTO table7890 para ir por encima de las INSERT […]

Relacionar columnas específicas con otro file

Tengo dos files debajo de fileA y fileB. los primeros tres dígitos de la columna 2 (file A) se compararán desde la columna 1 (file B). Column1 (fileA) debe ser igual a 63. presentar un 63,918234 64,918093 63,920983 fileB 918,XXX 920,YYY Hasta ahora, tengo este código que imprime solo las líneas del file A. awk […]