data mining difuso para el estudio de características estructurales y funcionales del genoma de la...

43
Data mining difuso para e estudio de características estructurales y funcionales del genoma de la Levadura F.J. López, A. Blanco, F. Garcia, C. Cano, M. Cuadros Dpto. de Ciencias de la Computación e Inteligencia Artificial

Upload: alberto-labarga

Post on 29-Jun-2015

1.143 views

Category:

Technology


2 download

DESCRIPTION

Javier Lopez

TRANSCRIPT

Page 1: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

F.J. López, A. Blanco, F. Garcia, C. Cano, M. CuadrosDpto. de Ciencias de la Computación e Inteligencia Artificial

Universidad de Granada

Page 2: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

Page 3: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

1. Introducción

Secuenciación de genomas

Nuevas tecnologías: microarrays

Cantidades ingentes de datos biológicos

Page 4: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Datos biológicos dispersos por muchas bases de datos:

Necesidad de análisis integrativos

Extracción de reglas de asociación

Datos imprecisos y con ruido:

Conjuntos difusos Extracción de reglas de asociación difusas

1. Introducción

Page 5: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

Page 6: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

2. Conjunto de datos: levadura

Genoma “simple”

Organismo muy estudiado: mucha información precisa contrastar resultados

Tipos de datos incluidos en el análisis:

Información estructural

Información funcional

Expresión de los genes: microarrays

Gene Ontology (GO)

Page 7: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Información estructural:

Longitud de los genes

Proporción de G+C

Coordenadas de los genes

Longitud de los intergénicos

Proporción de G+C en los intergénicos etc.

2. Conjunto de datos: levadura

Page 8: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Información funcional:

Abundancia de proteínas (Huh et. al. 2003)

Respuesta de cada gen a condiciones cambiantes

(Tirosh et. al. 2006)

Presencia de la caja TATA (Tirosh et. al. 2006)

Definir conjuntos difusos en dominios continuos

2. Conjunto de datos: levadura

Page 9: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Datos de expresión génica:

A genome-wide transcriptional analysis of the mitotic cell cycle

(Cho et. al. 1998)

Resultados de experimentos con microarrays de gran relevancia

2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.

2. Conjunto de datos: levadura

Page 10: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Datos de expresión génica:

Algoritmos de bicluster sobre la matriz de expresión

(EDA Biclustering, Gene&Sample Shaving)

Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.

Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster

Una columna indicando el bicluster(s) al q pertenece el gen

2. Conjunto de datos: levadura

Page 11: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Gene Ontology (GO)

Lista con los términos en los que está

anotado el gen

Se descartan los términos que no aportan

información (‘molecular_function’ etc.)

Information Content Theory

)log(

))(log()(

minP

nodePnodeIC

2. Conjunto de datos: levadura

Page 12: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Orf_name chr length Int lenght … GOannotations

YAL002W 1 3825 546 …GO:0016197,GO:0050875,GO:0016192,…

YAL003W 1 621 742 …GO:0003746,GO:0006414,GO:0005840,GO:0005853, …

YAL008W 1 597 280 …

GO:0005741,GO:0005739,GO:0005737,GO:0031968,GO:0031967, …

YAL009W 1 780 188 …

GO:0042175,GO:0016021,GO:0030437,GO:0007126,GO:0006997…

2. Conjunto de datos: levadura

Page 13: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

Page 14: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Regla de asociación:

A C

A, C: conjuntos de pares atributo-valor o itemsets

Soporte: probabilidad de que ocurran A y C

Confianza: probabilidad de que ocurra C dado que ha ocurrido A.

3. Reglas de asociación

Page 15: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

3. Reglas de asociación Algoritmos:

Agrawal 1994, Apriori

Savasere et. al. 1995, Partition

Wang et. al. 2002, TD FP-Growth

Zaki et. al. 1998, Eclat

Page 16: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Algoritmo muy eficiente

Solo dos escaneos de la BDs

Utiliza una estructura de datos:

FP-tree

3. Reglas de asociación

Page 17: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Necesidad de manejar conjuntos difusos

Algoritmo Fuzzy TD FP-Growth(Lopez et al. 2008)

Adaptar la forma en que se calculan el soporte y la confianza Soporte y confianzas difusas

Adaptar el contenido de los nodos del FP-tree

3. Reglas de asociación

Page 18: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)

(Delgado et al. 2003)

Certainty Factor:

)(1

)()()(

CSupp

CSuppCAConfCACF

3. Reglas de asociación

Page 19: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Fusionar reglas que contienen nodos GO Reglas que comparten todos sus items menos el término GO

3. Reglas de asociación

Page 20: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Fusionar reglas que contienen nodos GO

Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC

Cada nodo GO hereda las propiedades de todos sus ancestros

Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo

3. Reglas de asociación

Page 21: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Calcular un False Discovery Rate:

Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)

Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio

3. Reglas de asociación

Page 22: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

Page 23: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

http://genome.ugr.es/biofar

Biological Data Analysis by Fuzzy Association Rule Mining: BioFar

Entradas:

Conjunto de datos: fichero delimitado por tabulaciones, .csv

Umbrales

Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica

4. Aplicación web: BioFAR

Page 24: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

4. Aplicación web: BioFAR

Page 25: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Salida: fichero de texto

4. Aplicación web: BioFar

Page 26: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Software para el filtrado de reglas:

4. Aplicación web: BioFar

Page 27: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Salida del filtrado: fichero html

4. Aplicación web: BioFar

Page 28: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

Page 29: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

5. Resultados: experimentos

Variables

UmbralesNúmerototal dereglas

FDRConf. & CF Soporte

Variables estructurales 0.1 0.01 24 0.093

Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040

Responsiveness & Variables estructurales 0.1 0.002 10 0.044

Variables estructurales & Molecular Function 0.4 0.004 20 0.042

Variables estructurales & Biological Process 0.5 0.004 7 0.050

Variables estructurales & Cellular Component 0.5 0.004 12 0.011

Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318

Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115

Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006

Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003

Page 30: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

5. Resultados

Page 31: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

Negative correlation between length and G+C content (Spearman’s r = −0.25, p < 0.0001)

A Marin et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003

5. Resultados

Page 32: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

Intergenic GC = LOW Orientation = TANDEM 0.68 0.20 0.37

Intergenic GC = HIGH Orientation = DIVERGENT 0.65 0.19 0.18

Intergenic length = HIGH Orientation = DIVERGENT 0.62 0.18 0.23

Intergenic length = MEDIUM Orientation = TANDEM 0.56 0.22 0.14

B. Dujon, “The yeast genome project: what did we learn”, Trends Genet. 12, 263- 270, 1996.

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados

Page 33: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

Intergenic GC = LOW gct = LOW 0.68 0.20 0.37

gct = LOW Intergenic GC = LOW 0.65 0.19 0.18

gct = HIGH Intergenic GC = HIGH 0.62 0.18 0.23

Intergenic GC = HIGH gct = HIGH 0.56 0.22 0.14

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados

Page 34: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

Protein abundance = HIGH length = MEDIUM 0.748 0.092 0.12

Protein abundance = LOW length = HIGH 0.45 0.087 0.22

Protein abundance = HIGH G+C = HIGH 0.40 0.074 0.15

A. Marin, et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20: 703-711, 2003.

Coghlan A, Wolfe KH, “Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae”, Yeast 16:1131-1145, 2000.

Warringer J, Blomberg A, “Evolutionary constraints on yeast protein size”, BMC Evol Biol 15:6-51, 2006.

5. Resultados

Page 35: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Support CF

structural constituent of ribosome length = LOW 0.77 0.028 0.67

plasma membrane length = HIGH 0.57 0.023 0.39

helicase activity length = HIGH 0.78 0.01 0.69

GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.

J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.

5. Resultados

Page 36: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

bicluster = 1 GO = non-membrane-bound organelle 0.54 0.0029 0.45

bicluster = 1 GO = nucleus 0.61 0.0033 0.45

bicluster = 2 length = MEDIUM 0.68 0.0018 0.46

bicluster = 2 responsiveness = HIGH 0.80 0.0022 0.74

bicluster = 2 GO = oxidoreductase activity 0.43 0.0012 0.40

5. Resultados

Page 37: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Bicluster 1 Bicluster 2

5. Resultados

Page 38: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

REGLA Confianza Soporte CF

bicluster = 3 GO = nucleus 0.65 0.0039 0.50

bicluster = 3 GO = DNA metabolism 0.48 0.0029 0.44

bicluster = 4 length = LOW 0.81 0.0033 0.73

bicluster = 4 G+C = HIGH 0.89 0.0036 0.85

bicluster = 4 GO = non-membrane-bound organelle 0.90 0.0037 0.89

bicluster = 4 GO = biosynthesis 0.90 0.0037 0.89

bicluster = 4 GO = protein complex 0.90 0.0037 0.87

bicluster = 4 GO = organelle part 0.86 0.0035 0.78

bicluster = 4 GO = cytosol 0.86 0.0035 0.85

bicluster = 4 GO = structural molecule activity 0.86 0.0035 0.85

5. Resultados

Page 39: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

Bicluster 3 Bicluster 4

5. Resultados

Page 40: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

Page 41: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

6. Conclusiones

Metodología difusa efectiva para la integración y el análisis de datos biológicos

Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos

Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva

Page 42: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

6. Conclusiones

Definición de otras medidas de calidad de las reglas

Incluir otros tipos de información en el análisis

Aplicar la metodología a otras especies

Combinar con otras técnicas

Page 43: Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura