data mining difuso para el estudio de características estructurales y funcionales del genoma de la...

Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

F.J. López, A. Blanco, F. Garcia, C. Cano, M. CuadrosDpto. de Ciencias de la Computación e Inteligencia Artificial

Universidad de Granada

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

1. Introducción

Secuenciación de genomas

Nuevas tecnologías: microarrays

Cantidades ingentes de datos biológicos

Datos biológicos dispersos por muchas bases de datos:

Necesidad de análisis integrativos

Extracción de reglas de asociación

Datos imprecisos y con ruido:

Conjuntos difusos Extracción de reglas de asociación difusas

1. Introducción

INTRODUCCIÓN

CONJUNTO DE DATOS


BioFar

RESULTADOS

CONCLUSIONES

2. Conjunto de datos: levadura

Genoma “simple”

Organismo muy estudiado: mucha información precisa contrastar resultados

Tipos de datos incluidos en el análisis:

Información estructural

Información funcional

Expresión de los genes: microarrays

Gene Ontology (GO)

Información estructural:

Longitud de los genes

Proporción de G+C

Coordenadas de los genes

Longitud de los intergénicos

Proporción de G+C en los intergénicos etc.


Información funcional:

Abundancia de proteínas (Huh et. al. 2003)

Respuesta de cada gen a condiciones cambiantes

(Tirosh et. al. 2006)

Presencia de la caja TATA (Tirosh et. al. 2006)

Definir conjuntos difusos en dominios continuos


Datos de expresión génica:

A genome-wide transcriptional analysis of the mitotic cell cycle

(Cho et. al. 1998)

Resultados de experimentos con microarrays de gran relevancia

2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.


Datos de expresión génica:

Algoritmos de bicluster sobre la matriz de expresión

(EDA Biclustering, Gene&Sample Shaving)

Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.

Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster

Una columna indicando el bicluster(s) al q pertenece el gen


Gene Ontology (GO)

Lista con los términos en los que está

anotado el gen

Se descartan los términos que no aportan

información (‘molecular_function’ etc.)

Information Content Theory

)log(

))(log()(

minP

nodePnodeIC


Orf_name chr length Int lenght … GOannotations

YAL002W 1 3825 546 …GO:0016197,GO:0050875,GO:0016192,…

YAL003W 1 621 742 …GO:0003746,GO:0006414,GO:0005840,GO:0005853, …

YAL008W 1 597 280 …

GO:0005741,GO:0005739,GO:0005737,GO:0031968,GO:0031967, …

YAL009W 1 780 188 …

GO:0042175,GO:0016021,GO:0030437,GO:0007126,GO:0006997…


INTRODUCCIÓN

CONJUNTO DE DATOS


BioFAR

RESULTADOS

CONCLUSIONES

Regla de asociación:

A C

A, C: conjuntos de pares atributo-valor o itemsets

Soporte: probabilidad de que ocurran A y C

Confianza: probabilidad de que ocurra C dado que ha ocurrido A.

3. Reglas de asociación

3. Reglas de asociación Algoritmos:

Agrawal 1994, Apriori

Savasere et. al. 1995, Partition

Wang et. al. 2002, TD FP-Growth

Zaki et. al. 1998, Eclat

…

Algoritmo muy eficiente

Solo dos escaneos de la BDs

Utiliza una estructura de datos:

FP-tree


Necesidad de manejar conjuntos difusos

Algoritmo Fuzzy TD FP-Growth(Lopez et al. 2008)

Adaptar la forma en que se calculan el soporte y la confianza Soporte y confianzas difusas

Adaptar el contenido de los nodos del FP-tree


Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)

(Delgado et al. 2003)

Certainty Factor:

)(1

)()()(

CSupp

CSuppCAConfCACF


Fusionar reglas que contienen nodos GO Reglas que comparten todos sus items menos el término GO


Fusionar reglas que contienen nodos GO

Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC

Cada nodo GO hereda las propiedades de todos sus ancestros

Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo


Calcular un False Discovery Rate:

Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)

Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio


INTRODUCCIÓN

CONJUNTO DE DATOS


BioFAR

RESULTADOS

CONCLUSIONES

http://genome.ugr.es/biofar

Biological Data Analysis by Fuzzy Association Rule Mining: BioFar

Entradas:

Conjunto de datos: fichero delimitado por tabulaciones, .csv

Umbrales

Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica

4. Aplicación web: BioFAR

4. Aplicación web: BioFAR

Salida: fichero de texto

4. Aplicación web: BioFar

Software para el filtrado de reglas:


Salida del filtrado: fichero html


INTRODUCCIÓN

CONJUNTO DE DATOS


BioFar

RESULTADOS

CONCLUSIONES

5. Resultados: experimentos

Variables

UmbralesNúmerototal dereglas

FDRConf. & CF Soporte

Variables estructurales 0.1 0.01 24 0.093

Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040

Responsiveness & Variables estructurales 0.1 0.002 10 0.044

Variables estructurales & Molecular Function 0.4 0.004 20 0.042

Variables estructurales & Biological Process 0.5 0.004 7 0.050

Variables estructurales & Cellular Component 0.5 0.004 12 0.011

Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318

Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115

Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006

Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003

REGLA Confianza Soporte CF

gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

5. Resultados


gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

Negative correlation between length and G+C content (Spearman’s r = −0.25, p < 0.0001)

A Marin et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003

5. Resultados


Intergenic GC = LOW Orientation = TANDEM 0.68 0.20 0.37

Intergenic GC = HIGH Orientation = DIVERGENT 0.65 0.19 0.18

Intergenic length = HIGH Orientation = DIVERGENT 0.62 0.18 0.23

Intergenic length = MEDIUM Orientation = TANDEM 0.56 0.22 0.14

B. Dujon, “The yeast genome project: what did we learn”, Trends Genet. 12, 263- 270, 1996.

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados


Intergenic GC = LOW gct = LOW 0.68 0.20 0.37

gct = LOW Intergenic GC = LOW 0.65 0.19 0.18

gct = HIGH Intergenic GC = HIGH 0.62 0.18 0.23

Intergenic GC = HIGH gct = HIGH 0.56 0.22 0.14

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados


Protein abundance = HIGH length = MEDIUM 0.748 0.092 0.12

Protein abundance = LOW length = HIGH 0.45 0.087 0.22

Protein abundance = HIGH G+C = HIGH 0.40 0.074 0.15

A. Marin, et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20: 703-711, 2003.

Coghlan A, Wolfe KH, “Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae”, Yeast 16:1131-1145, 2000.

Warringer J, Blomberg A, “Evolutionary constraints on yeast protein size”, BMC Evol Biol 15:6-51, 2006.

5. Resultados

REGLA Confianza Support CF

structural constituent of ribosome length = LOW 0.77 0.028 0.67

plasma membrane length = HIGH 0.57 0.023 0.39

helicase activity length = HIGH 0.78 0.01 0.69

GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.

J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.

5. Resultados


bicluster = 1 GO = non-membrane-bound organelle 0.54 0.0029 0.45

bicluster = 1 GO = nucleus 0.61 0.0033 0.45

bicluster = 2 length = MEDIUM 0.68 0.0018 0.46

bicluster = 2 responsiveness = HIGH 0.80 0.0022 0.74

bicluster = 2 GO = oxidoreductase activity 0.43 0.0012 0.40

5. Resultados

Bicluster 1 Bicluster 2

5. Resultados


bicluster = 3 GO = nucleus 0.65 0.0039 0.50

bicluster = 3 GO = DNA metabolism 0.48 0.0029 0.44

bicluster = 4 length = LOW 0.81 0.0033 0.73

bicluster = 4 G+C = HIGH 0.89 0.0036 0.85

bicluster = 4 GO = non-membrane-bound organelle 0.90 0.0037 0.89

bicluster = 4 GO = biosynthesis 0.90 0.0037 0.89

bicluster = 4 GO = protein complex 0.90 0.0037 0.87

bicluster = 4 GO = organelle part 0.86 0.0035 0.78

bicluster = 4 GO = cytosol 0.86 0.0035 0.85

bicluster = 4 GO = structural molecule activity 0.86 0.0035 0.85

5. Resultados

Bicluster 3 Bicluster 4

5. Resultados

INTRODUCCIÓN

CONJUNTO DE DATOS


BioFar

RESULTADOS

CONCLUSIONES

6. Conclusiones

Metodología difusa efectiva para la integración y el análisis de datos biológicos

Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos

Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva

6. Conclusiones

Definición de otras medidas de calidad de las reglas

Incluir otros tipos de información en el análisis

Aplicar la metodología a otras especies

Combinar con otras técnicas

data mining difuso para el estudio de características estructurales y funcionales del genoma de la...

Technology