El Servicio de Bioinformática y Bioestadística está organizado en cuatro Áreas principales:

  • Análisis de datos de secuenciación de nueva generación.
  • Análisis de secuencias y predicción de estructura.
  • Análisis bioestadístico de datos.
  • Soporte a los usuarios en el acceso a los recursos de computación científica del CSIC.

 

Análisis de datos de secuenciación de nueva generación

Apoyo científico-técnico a los grupos de investigación del Centro con necesidades de análisis de datos de secuenciación de nueva generación (Next Generation Sequencing o high-throughput sequencing technologies) en cualquiera de sus modalidades experimentales:

  • Análisis de la expresión génica a partir de secuencias NGS (RNA-Seq).

- Alineamientos con el genoma/transcriptoma y detección de sitios de splicing. - Ensamblaje de tránscritos y evaluación de isoformas. - Análisis del splicing alternativo. - Cuantificación de la expresión génica. - Expresión diferencial. - Detección de tránscritos de fusión.

  • Análisis de RNAs no codificantes y pequeños RNAs (small RNA-Seq).

- Búsquedas en bases de datos específicas (microRNAs, piRNAs, endo-siRNAs). - Identificación y clasificación de RNAs no codificantes. - Cuantificación de la abundancia de los RNAs en la muestra. - Anotación de las secuencias y localización en el contexto del genoma.

  • Identificación de sitios de unión de proteínas asociadas a DNA por inmunoprecipitación de cromatina (ChIP-Seq).

- Localización de los picos que identifican sitios de unión de la proteína del interés al DNA. - Cuantificación del enriquecimiento de esos picos y anotación (gen, promotor...). - Análisis de motivos en las secuencias y creación de logos. - Localización de motivos a lo largo del genoma.

  • Identificación de SNPs e indels en el genoma completo o en regiones de interés (DNA-Seq).

- Detección de variantes: mutaciones, polimorfismos e inserciones/deleciones a lo largo del genoma. - Evaluación del efecto de las variantes. - Localización de secuencias exógenas insertadas en el genoma (provenientes de virus, plásmidos...).

  • Ensamblaje de pequeños genomas a partir de secuencias de nueva generación.

- Ensamblaje de novo cuando no se dispone del genoma secuenciado del organismo. - Ensamblaje mapeando contra un genoma de referencia. - Ensamblaje de transcriptomas a partir de lecturas RNA-seq.

  • Análisis de secuencias de nueva generación provenientes de muestras mixtas (metagenómica).

- Localización de las secuencias en bases de datos masivas y asignación de ID por score de homología.

 

Análisis de secuencias y predicción de estructura [Mario García, Ruth Matesanz]

Apoyo científico-técnico a los grupos de investigación del Centro en:

  • Análisis de secuencias biológicas.
  • Análisis de datos de microarray y enriquecimiento en estudios de genómica funcional.
  • Modelado de estructuras de proteínas y ácidos nucleicos.
  • Extracción de información funcional y evolutiva de secuencias de proteínas y genes.
  • Inferencia filogenética a partir del análisis de secuencias.

 

Bioestadística [Guillermo Padilla]

 

Ofrecer apoyo estadístico a los grupos que lo soliciten en:

  • Planteamiento del diseño experimental óptimo. Definición los conceptos básicos del experimento (unidad experimental, muestras, réplicas, fuentes de variación, etc.) a partir de los cuales realizará el análisis estadístico de los datos obtenidos en el experimento.
  • Ayuda en la interpretación de resultados basándose en los análisis estadísticos empleados: Apoyo teórico en la discriminación de “información útil” proporcionada por los programas informáticos.
  • Ayuda en la comprensión de análisis estadísticos con los que no estén familiarizados.
  • Software estadístico preferente: R en entorno GNU/Linux y SAS/STAT® en entorno Windows.

 

Soporte a los usuarios en el acceso a recursos de computación científica del CSIC

 

 

Miembros

 

Más Información

Análisis de datos de secuenciación de nueva generación

Metodología empleada

  • Evaluación de la calidad de las lecturas de la secuenciación: estadísticas globales de la carrera, distribución de nucleótidos por posición en la lectura, análisis de contaminantes.
  • Programación de scripts a medida: Perl, shell scripts, R.
  • Creación ad hoc de bases de datos de secuencias para alineamientos o búsquedas.
  • Creación in silico de genomas modificados (inserciones, virus, plásmidos) a partir de genomas publicados.
  • Búsqueda de patrones de nucleótidos y aminoácidos en ficheros de secuencias biológicas.
  • Formateado y parsing (análisis de la estructura) de ficheros de datos masivos.
  • Computación de los análisis para procesar los ficheros.
  • Almacenamiento de los datos originales y los procesados en nuestros servidores propios.
  • Gráficas de: cuantificación de la expresión, cobertura de la secuenciación, modelos de genes, isoformas de mensajeros, dispersión de los datos, análisis de componentes principales, etc.
  • Manejo de secuencias biológicas en todas sus presentaciones (DNA, RNA, proteína).
  • Asesoramiento en el diseño de los experimentos con secuenciación de nueva generación.

Software disponible

Se mantiene actualizado y en continua revisión, abierto a la instalación de nuevos programas que específicamente pudieran requerir los grupos de investigación del Centro.

  • Alineadores de secuencias cortas de nucleótidos:

Bowtie1 (http://bowtie-bio.sourceforge.net/) Bowtie 2 (http://bowtie-bio.sourceforge.net/bowtie2) BWA (http://bio-bwa.sourceforge.net/)

  • Alineadores de secuencias biológicas:

Blast Blast+ Clustal Omega (http://www.clustal.org/omega)

  • Herramientas para el alineamiento de secuencias (formatos, búsqueda de variantes, etc.):

Samtools (http://sourceforge.net/projects/samtools/files/) SnpEff (SNP Effect Predictor) (http://snpeff.sourceforge.net/)

  • Herramientas para el control de calidad de la secuenciación:

FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/)

  • Ensambladores de genomas:

MIRA assembler (http://www.chevreux.org/projects_mira.html) Velvet (www.ebi.ac.uk/~zerbino/velvet/)

  • Programas para análisis de RNA-seq:

TopHat (splice junction mapper) (http://tophat.cbcb.umd.edu/) Cufflinks (cuantificación, ensamblaje de transcriptomas y expresión diferencial) (http://cufflinks.cbcb.umd.edu/): cuffmerge, cuffcompare, cuffdiff. Trinity (ensamblaje de tránscritos de novo) (http://trinityrnaseq.sourceforge.net/) TopHat Fusion (detección de tránscritos de fusión) (http://tophat.cbcb.umd.edu/fusion_index.html) FusionMap (detección de tránscritos de fusión)(http://www.omicsoft.com/fusionmap/) RSEM (cuantificación de la expresión génica o a nivel de isoforma, y expresión diferencial) (http://deweylab.biostat.wisc.edu/rsem/)

  • Programas para análisis de ChiP-Seq:

MACS (localización de picos) (http://liulab.dfci.harvard.edu/MACS/) MEME-ChIP (hallazgo de motivos) (http://ebi.edu.au/ftp/software/MEME/index.html)

 

Análisis de secuencias y predicción de estructura [Mario García, Ruth Matesanz]

Software disponible

  • Discovery Studio: herramientas de modelado y simulación para el diseño de fármacos basado en macromoléculas o moléculas pequeñas.
  • Sybyl: software de modelado de estructura de proteínas a partir de secuencia y docking.
  • Schrödinger Suite: conjunto de programas de modelado y docking de proteínas.

 

Bioestadística [Guillermo Padilla Alonso]

Usando como referencia el paquete estadistico SAS (Statistical Analysis Software), eventualmente se adoptaría software alternativo con licenciamiento legal que el usuario pudiese requerir (SPSS, R, etc.)