data mining difuso para el estudio de características estructurales y funcionales del genoma de la...

Post on 29-Jun-2015

1.143 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Javier Lopez

TRANSCRIPT

Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura

F.J. López, A. Blanco, F. Garcia, C. Cano, M. CuadrosDpto. de Ciencias de la Computación e Inteligencia Artificial

Universidad de Granada

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

1. Introducción

Secuenciación de genomas

Nuevas tecnologías: microarrays

Cantidades ingentes de datos biológicos

Datos biológicos dispersos por muchas bases de datos:

Necesidad de análisis integrativos

Extracción de reglas de asociación

Datos imprecisos y con ruido:

Conjuntos difusos Extracción de reglas de asociación difusas

1. Introducción

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

2. Conjunto de datos: levadura

Genoma “simple”

Organismo muy estudiado: mucha información precisa contrastar resultados

Tipos de datos incluidos en el análisis:

Información estructural

Información funcional

Expresión de los genes: microarrays

Gene Ontology (GO)

Información estructural:

Longitud de los genes

Proporción de G+C

Coordenadas de los genes

Longitud de los intergénicos

Proporción de G+C en los intergénicos etc.

2. Conjunto de datos: levadura

Información funcional:

Abundancia de proteínas (Huh et. al. 2003)

Respuesta de cada gen a condiciones cambiantes

(Tirosh et. al. 2006)

Presencia de la caja TATA (Tirosh et. al. 2006)

Definir conjuntos difusos en dominios continuos

2. Conjunto de datos: levadura

Datos de expresión génica:

A genome-wide transcriptional analysis of the mitotic cell cycle

(Cho et. al. 1998)

Resultados de experimentos con microarrays de gran relevancia

2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.

2. Conjunto de datos: levadura

Datos de expresión génica:

Algoritmos de bicluster sobre la matriz de expresión

(EDA Biclustering, Gene&Sample Shaving)

Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.

Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster

Una columna indicando el bicluster(s) al q pertenece el gen

2. Conjunto de datos: levadura

Gene Ontology (GO)

Lista con los términos en los que está

anotado el gen

Se descartan los términos que no aportan

información (‘molecular_function’ etc.)

Information Content Theory

)log(

))(log()(

minP

nodePnodeIC

2. Conjunto de datos: levadura

Orf_name chr length Int lenght … GOannotations

YAL002W 1 3825 546 …GO:0016197,GO:0050875,GO:0016192,…

YAL003W 1 621 742 …GO:0003746,GO:0006414,GO:0005840,GO:0005853, …

YAL008W 1 597 280 …

GO:0005741,GO:0005739,GO:0005737,GO:0031968,GO:0031967, …

YAL009W 1 780 188 …

GO:0042175,GO:0016021,GO:0030437,GO:0007126,GO:0006997…

2. Conjunto de datos: levadura

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

Regla de asociación:

A C

A, C: conjuntos de pares atributo-valor o itemsets

Soporte: probabilidad de que ocurran A y C

Confianza: probabilidad de que ocurra C dado que ha ocurrido A.

3. Reglas de asociación

3. Reglas de asociación Algoritmos:

Agrawal 1994, Apriori

Savasere et. al. 1995, Partition

Wang et. al. 2002, TD FP-Growth

Zaki et. al. 1998, Eclat

Algoritmo muy eficiente

Solo dos escaneos de la BDs

Utiliza una estructura de datos:

FP-tree

3. Reglas de asociación

Necesidad de manejar conjuntos difusos

Algoritmo Fuzzy TD FP-Growth(Lopez et al. 2008)

Adaptar la forma en que se calculan el soporte y la confianza Soporte y confianzas difusas

Adaptar el contenido de los nodos del FP-tree

3. Reglas de asociación

Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)

(Delgado et al. 2003)

Certainty Factor:

)(1

)()()(

CSupp

CSuppCAConfCACF

3. Reglas de asociación

Fusionar reglas que contienen nodos GO Reglas que comparten todos sus items menos el término GO

3. Reglas de asociación

Fusionar reglas que contienen nodos GO

Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC

Cada nodo GO hereda las propiedades de todos sus ancestros

Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo

3. Reglas de asociación

Calcular un False Discovery Rate:

Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)

Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio

3. Reglas de asociación

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFAR

RESULTADOS

CONCLUSIONES

http://genome.ugr.es/biofar

Biological Data Analysis by Fuzzy Association Rule Mining: BioFar

Entradas:

Conjunto de datos: fichero delimitado por tabulaciones, .csv

Umbrales

Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica

4. Aplicación web: BioFAR

4. Aplicación web: BioFAR

Salida: fichero de texto

4. Aplicación web: BioFar

Software para el filtrado de reglas:

4. Aplicación web: BioFar

Salida del filtrado: fichero html

4. Aplicación web: BioFar

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

5. Resultados: experimentos

Variables

UmbralesNúmerototal dereglas

FDRConf. & CF Soporte

Variables estructurales 0.1 0.01 24 0.093

Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040

Responsiveness & Variables estructurales 0.1 0.002 10 0.044

Variables estructurales & Molecular Function 0.4 0.004 20 0.042

Variables estructurales & Biological Process 0.5 0.004 7 0.050

Variables estructurales & Cellular Component 0.5 0.004 12 0.011

Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318

Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115

Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006

Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003

REGLA Confianza Soporte CF

gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

5. Resultados

REGLA Confianza Soporte CF

gct = HIGH length = LOW 0.41 0.15 0.12

length = LOW gct = HIGH 0.40 0.15 0.12

gct = LOW length = HIGH 0.38 0.13 0.12

length = HIGH gct = LOW 0.40 0.14 0.12

Negative correlation between length and G+C content (Spearman’s r = −0.25, p < 0.0001)

A Marin et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003

5. Resultados

REGLA Confianza Soporte CF

Intergenic GC = LOW Orientation = TANDEM 0.68 0.20 0.37

Intergenic GC = HIGH Orientation = DIVERGENT 0.65 0.19 0.18

Intergenic length = HIGH Orientation = DIVERGENT 0.62 0.18 0.23

Intergenic length = MEDIUM Orientation = TANDEM 0.56 0.22 0.14

B. Dujon, “The yeast genome project: what did we learn”, Trends Genet. 12, 263- 270, 1996.

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados

REGLA Confianza Soporte CF

Intergenic GC = LOW gct = LOW 0.68 0.20 0.37

gct = LOW Intergenic GC = LOW 0.65 0.19 0.18

gct = HIGH Intergenic GC = HIGH 0.62 0.18 0.23

Intergenic GC = HIGH gct = HIGH 0.56 0.22 0.14

A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.

5. Resultados

REGLA Confianza Soporte CF

Protein abundance = HIGH length = MEDIUM 0.748 0.092 0.12

Protein abundance = LOW length = HIGH 0.45 0.087 0.22

Protein abundance = HIGH G+C = HIGH 0.40 0.074 0.15

A. Marin, et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20: 703-711, 2003.

Coghlan A, Wolfe KH, “Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae”, Yeast 16:1131-1145, 2000.

Warringer J, Blomberg A, “Evolutionary constraints on yeast protein size”, BMC Evol Biol 15:6-51, 2006.

5. Resultados

REGLA Confianza Support CF

structural constituent of ribosome length = LOW 0.77 0.028 0.67

plasma membrane length = HIGH 0.57 0.023 0.39

helicase activity length = HIGH 0.78 0.01 0.69

GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.

J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.

5. Resultados

REGLA Confianza Soporte CF

bicluster = 1 GO = non-membrane-bound organelle 0.54 0.0029 0.45

bicluster = 1 GO = nucleus 0.61 0.0033 0.45

bicluster = 2 length = MEDIUM 0.68 0.0018 0.46

bicluster = 2 responsiveness = HIGH 0.80 0.0022 0.74

bicluster = 2 GO = oxidoreductase activity 0.43 0.0012 0.40

5. Resultados

Bicluster 1 Bicluster 2

5. Resultados

REGLA Confianza Soporte CF

bicluster = 3 GO = nucleus 0.65 0.0039 0.50

bicluster = 3 GO = DNA metabolism 0.48 0.0029 0.44

bicluster = 4 length = LOW 0.81 0.0033 0.73

bicluster = 4 G+C = HIGH 0.89 0.0036 0.85

bicluster = 4 GO = non-membrane-bound organelle 0.90 0.0037 0.89

bicluster = 4 GO = biosynthesis 0.90 0.0037 0.89

bicluster = 4 GO = protein complex 0.90 0.0037 0.87

bicluster = 4 GO = organelle part 0.86 0.0035 0.78

bicluster = 4 GO = cytosol 0.86 0.0035 0.85

bicluster = 4 GO = structural molecule activity 0.86 0.0035 0.85

5. Resultados

Bicluster 3 Bicluster 4

5. Resultados

INTRODUCCIÓN

CONJUNTO DE DATOS

REGLAS DE ASOCIACIÓN

BioFar

RESULTADOS

CONCLUSIONES

6. Conclusiones

Metodología difusa efectiva para la integración y el análisis de datos biológicos

Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos

Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva

6. Conclusiones

Definición de otras medidas de calidad de las reglas

Incluir otros tipos de información en el análisis

Aplicar la metodología a otras especies

Combinar con otras técnicas

top related