El Servicio de Bioinformática y Bioestadística está organizado en cuatro Áreas principales:
- Análisis de datos de secuenciación de nueva generación.
- Análisis de secuencias y predicción de estructura.
- Análisis bioestadístico de datos.
- Soporte a los usuarios en el acceso a los recursos de computación científica del CSIC.
Análisis de datos de secuenciación de nueva generación
Apoyo científico-técnico a los grupos de investigación del Centro con necesidades de análisis de datos de secuenciación de nueva generación (Next Generation Sequencing o high-throughput sequencing technologies) en cualquiera de sus modalidades experimentales:
- Análisis de la expresión génica a partir de secuencias NGS (RNA-Seq).
- Alineamientos con el genoma/transcriptoma y detección de sitios de splicing. - Ensamblaje de tránscritos y evaluación de isoformas. - Análisis del splicing alternativo. - Cuantificación de la expresión génica. - Expresión diferencial. - Detección de tránscritos de fusión.
- Análisis de RNAs no codificantes y pequeños RNAs (small RNA-Seq).
- Búsquedas en bases de datos específicas (microRNAs, piRNAs, endo-siRNAs). - Identificación y clasificación de RNAs no codificantes. - Cuantificación de la abundancia de los RNAs en la muestra. - Anotación de las secuencias y localización en el contexto del genoma.
- Identificación de sitios de unión de proteínas asociadas a DNA por inmunoprecipitación de cromatina (ChIP-Seq, ATAC-seq).
- Localización de los picos que identifican sitios de unión de la proteína del interés al DNA. - Cuantificación del enriquecimiento de esos picos y anotación (gen, promotor...). - Análisis de motivos en las secuencias y creación de logos. - Localización de motivos a lo largo del genoma.
- Identificación de SNPs e indels en el genoma completo o en regiones de interés (DNA-Seq).
- Detección de variantes: mutaciones, polimorfismos e inserciones/deleciones a lo largo del genoma. - Evaluación del efecto de las variantes. - Localización de secuencias exógenas insertadas en el genoma (provenientes de virus, plásmidos...).
- Ensamblaje de pequeños genomas a partir de secuencias de nueva generación.
- Ensamblaje de novo cuando no se dispone del genoma secuenciado del organismo. - Ensamblaje mapeando contra un genoma de referencia. - Ensamblaje de transcriptomas a partir de lecturas RNA-seq.
- Análisis de secuencias de nueva generación provenientes de muestras mixtas (metagenómica).
- Localización de las secuencias en bases de datos masivas y asignación de ID por score de homología.
- Análisis de datos de microarray y enriquecimiento en estudios de genómica funcional.
Análisis de secuencias y modelado molecular
Apoyo científico-técnico a los grupos de investigación del Centro en:
- Análisis de secuencias biológicas.
- Uso e implementación de algoritmos IA: Machine Learning y Deep Learning.
- Modelado de estructuras de proteínas y ácidos nucleicos.
- Extracción de información funcional y evolutiva de secuencias de proteínas y genes.
- Inferencia filogenética a partir del análisis de secuencias.
Bioestadística
Ofrecer apoyo estadístico a los grupos que lo soliciten en:
- Planteamiento del diseño experimental óptimo. Definición los conceptos básicos del experimento (unidad experimental, muestras, réplicas, fuentes de variación, etc.) a partir de los cuales realizará el análisis estadístico de los datos obtenidos en el experimento.
- Ayuda en la interpretación de resultados basándose en los análisis estadísticos empleados: Apoyo teórico en la discriminación de “información útil” proporcionada por los programas informáticos.
- Ayuda en la comprensión de análisis estadísticos con los que no estén familiarizados.
- Software estadístico preferente: R en entorno GNU/Linux y SAS/STAT® en entorno Windows.
Soporte a los usuarios en el acceso a recursos de computación científica del CSIC
- Accesso a los servicios de supercomputación del CESGA.
- Acceso al cluster de computación Drago del CSIC.
Instrucciones
Formulario on-line de Solicitud de servicio.
(En caso de problemas con el formulario anterior, use este otro.)
Para más información y consultas: bioinformatica
Miembros
Guillermo Padilla Alonso |
Mario García Lacoba |
Ruth Matesanz Rodríguez |
Más Información
Análisis de datos de secuenciación de nueva generación
Metodología empleada
- Evaluación de la calidad de las lecturas de la secuenciación: estadísticas globales de la carrera, distribución de nucleótidos por posición en la lectura, análisis de contaminantes.
- Programación de scripts a medida: Perl, shell scripts, R.
- Creación ad hoc de bases de datos de secuencias para alineamientos o búsquedas.
- Creación in silico de genomas modificados (inserciones, virus, plásmidos) a partir de genomas publicados.
- Búsqueda de patrones de nucleótidos y aminoácidos en ficheros de secuencias biológicas.
- Formateado y parsing (análisis de la estructura) de ficheros de datos masivos.
- Computación de los análisis para procesar los ficheros.
- Almacenamiento de los datos originales y los procesados en nuestros servidores propios.
- Gráficas de: cuantificación de la expresión, cobertura de la secuenciación, modelos de genes, isoformas de mensajeros, dispersión de los datos, análisis de componentes principales, etc.
- Manejo de secuencias biológicas en todas sus presentaciones (DNA, RNA, proteína).
- Asesoramiento en el diseño de los experimentos con secuenciación de nueva generación.
Software disponible
Se mantiene actualizado y en continua revisión, abierto a la instalación de nuevos programas que específicamente pudieran requerir los grupos de investigación del Centro.
- Alineadores de secuencias cortas de nucleótidos:
Bowtie1 (http://bowtie-bio.sourceforge.net/) Bowtie 2 (http://bowtie-bio.sourceforge.net/bowtie2) BWA (http://bio-bwa.sourceforge.net/)
- Alineadores de secuencias biológicas:
Blast Blast+ Clustal Omega (http://www.clustal.org/omega)
- Herramientas para el alineamiento de secuencias (formatos, búsqueda de variantes, etc.):
Samtools (http://sourceforge.net/projects/samtools/files/) SnpEff (SNP Effect Predictor) (http://snpeff.sourceforge.net/)
- Herramientas para el control de calidad de la secuenciación:
FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) FASTX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/)
- Ensambladores de genomas:
MIRA assembler (http://www.chevreux.org/projects_mira.html) Velvet (www.ebi.ac.uk/~zerbino/velvet/)
- Programas para análisis de RNA-seq:
TopHat (splice junction mapper) (http://tophat.cbcb.umd.edu/) Cufflinks (cuantificación, ensamblaje de transcriptomas y expresión diferencial) (http://cufflinks.cbcb.umd.edu/): cuffmerge, cuffcompare, cuffdiff. Trinity (ensamblaje de tránscritos de novo) (http://trinityrnaseq.sourceforge.net/) TopHat Fusion (detección de tránscritos de fusión) (http://tophat.cbcb.umd.edu/fusion_index.html) FusionMap (detección de tránscritos de fusión)(http://www.omicsoft.com/fusionmap/) RSEM (cuantificación de la expresión génica o a nivel de isoforma, y expresión diferencial) (http://deweylab.biostat.wisc.edu/rsem/)
- Programas para análisis de ChiP-Seq:
MACS (localización de picos) (http://liulab.dfci.harvard.edu/MACS/) MEME-ChIP (hallazgo de motivos) (http://ebi.edu.au/ftp/software/MEME/index.html)
Análisis de secuencias y predicción de estructura [Mario García, Ruth Matesanz]
Software disponible
- Discovery Studio: herramientas de modelado y simulación para el diseño de fármacos basado en macromoléculas o moléculas pequeñas.
- Sybyl: software de modelado de estructura de proteínas a partir de secuencia y docking.
- Schrödinger Suite: conjunto de programas de modelado y docking de proteínas.
Bioestadística [Guillermo Padilla Alonso]
Usando como referencia el paquete estadistico SAS (Statistical Analysis Software), eventualmente se adoptaría software alternativo con licenciamiento legal que el usuario pudiese requerir (SPSS, R, etc.)