Bioinformática y Bioestadística

El Servicio de Bioinformática y Bioestadística está organizado en cuatro Áreas principales:

Análisis de datos de secuenciación de nueva generación.
Análisis de secuencias y predicción de estructura.
Análisis bioestadístico de datos.
Soporte a los usuarios en el acceso a los recursos de computación científica del CSIC.

Análisis de datos de secuenciación de nueva generación

Apoyo científico-técnico a los grupos de investigación del Centro con necesidades de análisis de datos de secuenciación de nueva generación (Next Generation Sequencing o high-throughput sequencing technologies) en cualquiera de sus modalidades experimentales:

Análisis de la expresión génica a partir de secuencias NGS (RNA-Seq).

- Alineamientos con el genoma/transcriptoma y detección de sitios de splicing. - Ensamblaje de tránscritos y evaluación de isoformas. - Análisis del splicing alternativo. - Cuantificación de la expresión génica. - Expresión diferencial. - Detección de tránscritos de fusión.

Análisis de RNAs no codificantes y pequeños RNAs (small RNA-Seq).

- Búsquedas en bases de datos específicas (microRNAs, piRNAs, endo-siRNAs). - Identificación y clasificación de RNAs no codificantes. - Cuantificación de la abundancia de los RNAs en la muestra. - Anotación de las secuencias y localización en el contexto del genoma.

Identificación de sitios de unión de proteínas asociadas a DNA por inmunoprecipitación de cromatina (ChIP-Seq, ATAC-seq).

- Localización de los picos que identifican sitios de unión de la proteína del interés al DNA. - Cuantificación del enriquecimiento de esos picos y anotación (gen, promotor...). - Análisis de motivos en las secuencias y creación de logos. - Localización de motivos a lo largo del genoma.

Identificación de SNPs e indels en el genoma completo o en regiones de interés (DNA-Seq).

- Detección de variantes: mutaciones, polimorfismos e inserciones/deleciones a lo largo del genoma. - Evaluación del efecto de las variantes. - Localización de secuencias exógenas insertadas en el genoma (provenientes de virus, plásmidos...).

Ensamblaje de pequeños genomas a partir de secuencias de nueva generación.

- Ensamblaje de novo cuando no se dispone del genoma secuenciado del organismo. - Ensamblaje mapeando contra un genoma de referencia. - Ensamblaje de transcriptomas a partir de lecturas RNA-seq.

Análisis de secuencias de nueva generación provenientes de muestras mixtas (metagenómica).

- Localización de las secuencias en bases de datos masivas y asignación de ID por score de homología.

Análisis de datos de microarray y enriquecimiento en estudios de genómica funcional.

Análisis de secuencias y modelado molecular

Apoyo científico-técnico a los grupos de investigación del Centro en:

Análisis de secuencias biológicas.
Uso e implementación de algoritmos IA: Machine Learning y Deep Learning.
Modelado de estructuras de proteínas y ácidos nucleicos.
Extracción de información funcional y evolutiva de secuencias de proteínas y genes.
Inferencia filogenética a partir del análisis de secuencias.

Bioestadística

Ofrecer apoyo estadístico a los grupos que lo soliciten en:

Planteamiento del diseño experimental óptimo. Definición los conceptos básicos del experimento (unidad experimental, muestras, réplicas, fuentes de variación, etc.) a partir de los cuales realizará el análisis estadístico de los datos obtenidos en el experimento.
Ayuda en la interpretación de resultados basándose en los análisis estadísticos empleados: Apoyo teórico en la discriminación de “información útil” proporcionada por los programas informáticos.
Ayuda en la comprensión de análisis estadísticos con los que no estén familiarizados.
Software estadístico preferente: R en entorno GNU/Linux y SAS/STAT^® en entorno Windows.

Soporte a los usuarios en el acceso a recursos de computación científica del CSIC

Accesso a los servicios de supercomputación del CESGA.
Acceso al cluster de computación Drago del CSIC.

Formulario on-line de Solicitud de servicio.

(En caso de problemas con el formulario anterior, use este otro.)

Para más información y consultas: bioinformatica email

Tarifas vigentes

>

Responsable del Servicio

Mario García Lacoba

Técnicos de Plantilla
Guillermo Padilla Alonso
Mario García Lacoba
Ruth Matesanz Rodríguez

Análisis de datos de secuenciación de nueva generación

Metodología empleada

Evaluación de la calidad de las lecturas de la secuenciación: estadísticas globales de la carrera, distribución de nucleótidos por posición en la lectura, análisis de contaminantes.
Programación de scripts a medida: Perl, shell scripts, R.
Creación ad hoc de bases de datos de secuencias para alineamientos o búsquedas.
Creación in silico de genomas modificados (inserciones, virus, plásmidos) a partir de genomas publicados.
Búsqueda de patrones de nucleótidos y aminoácidos en ficheros de secuencias biológicas.
Formateado y parsing (análisis de la estructura) de ficheros de datos masivos.
Computación de los análisis para procesar los ficheros.
Almacenamiento de los datos originales y los procesados en nuestros servidores propios.
Gráficas de: cuantificación de la expresión, cobertura de la secuenciación, modelos de genes, isoformas de mensajeros, dispersión de los datos, análisis de componentes principales, etc.
Manejo de secuencias biológicas en todas sus presentaciones (DNA, RNA, proteína).
Asesoramiento en el diseño de los experimentos con secuenciación de nueva generación.

Software disponible

Se mantiene actualizado y en continua revisión, abierto a la instalación de nuevos programas que específicamente pudieran requerir los grupos de investigación del Centro.

Alineadores de secuencias cortas de nucleótidos:

Bowtie1 (http://bowtie-bio.sourceforge.net/) Bowtie 2 (http://bowtie-bio.sourceforge.net/bowtie2) BWA (http://bio-bwa.sourceforge.net/)

Alineadores de secuencias biológicas:

Blast Blast+ Clustal Omega (http://www.clustal.org/omega)

Herramientas para el alineamiento de secuencias (formatos, búsqueda de variantes, etc.):

Samtools (http://sourceforge.net/projects/samtools/files/) SnpEff (SNP Effect Predictor) (http://snpeff.sourceforge.net/)

Herramientas para el control de calidad de la secuenciación:

FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/)

Ensambladores de genomas:

MIRA assembler (http://www.chevreux.org/projects_mira.html) Velvet (www.ebi.ac.uk/~zerbino/velvet/)

Programas para análisis de RNA-seq:

TopHat (splice junction mapper) (http://tophat.cbcb.umd.edu/) Cufflinks (cuantificación, ensamblaje de transcriptomas y expresión diferencial) (http://cufflinks.cbcb.umd.edu/): cuffmerge, cuffcompare, cuffdiff. Trinity (ensamblaje de tránscritos de novo) (http://trinityrnaseq.sourceforge.net/) TopHat Fusion (detección de tránscritos de fusión) (http://tophat.cbcb.umd.edu/fusion_index.html) FusionMap (detección de tránscritos de fusión)(http://www.omicsoft.com/fusionmap/) RSEM (cuantificación de la expresión génica o a nivel de isoforma, y expresión diferencial) (http://deweylab.biostat.wisc.edu/rsem/)

Programas para análisis de ChiP-Seq:

MACS (localización de picos) (http://liulab.dfci.harvard.edu/MACS/) MEME-ChIP (hallazgo de motivos) (http://ebi.edu.au/ftp/software/MEME/index.html)

Análisis de secuencias y predicción de estructura [Mario García, Ruth Matesanz]

Software disponible

Discovery Studio: herramientas de modelado y simulación para el diseño de fármacos basado en macromoléculas o moléculas pequeñas.
Sybyl: software de modelado de estructura de proteínas a partir de secuencia y docking.
Schrödinger Suite: conjunto de programas de modelado y docking de proteínas.

Bioestadística [Guillermo Padilla Alonso]

Usando como referencia el paquete estadistico SAS (Statistical Analysis Software), eventualmente se adoptaría software alternativo con licenciamiento legal que el usuario pudiese requerir (SPSS, R, etc.)

Análisis de datos de secuenciación de nueva generación

Análisis de secuencias y modelado molecular

Bioestadística

Instrucciones

Miembros

Mario García Lacoba

Más Información