data mining difuso para el estudio de características estructurales y funcionales del genoma de la...
Post on 29-Jun-2015
1.143 Views
Preview:
DESCRIPTION
TRANSCRIPT
Data mining difuso para el estudio de características estructurales y funcionales del genoma de la Levadura
F.J. López, A. Blanco, F. Garcia, C. Cano, M. CuadrosDpto. de Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
1. Introducción
Secuenciación de genomas
Nuevas tecnologías: microarrays
Cantidades ingentes de datos biológicos
Datos biológicos dispersos por muchas bases de datos:
Necesidad de análisis integrativos
Extracción de reglas de asociación
Datos imprecisos y con ruido:
Conjuntos difusos Extracción de reglas de asociación difusas
1. Introducción
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
2. Conjunto de datos: levadura
Genoma “simple”
Organismo muy estudiado: mucha información precisa contrastar resultados
Tipos de datos incluidos en el análisis:
Información estructural
Información funcional
Expresión de los genes: microarrays
Gene Ontology (GO)
Información estructural:
Longitud de los genes
Proporción de G+C
Coordenadas de los genes
Longitud de los intergénicos
Proporción de G+C en los intergénicos etc.
2. Conjunto de datos: levadura
Información funcional:
Abundancia de proteínas (Huh et. al. 2003)
Respuesta de cada gen a condiciones cambiantes
(Tirosh et. al. 2006)
Presencia de la caja TATA (Tirosh et. al. 2006)
Definir conjuntos difusos en dominios continuos
2. Conjunto de datos: levadura
Datos de expresión génica:
A genome-wide transcriptional analysis of the mitotic cell cycle
(Cho et. al. 1998)
Resultados de experimentos con microarrays de gran relevancia
2879 genes en 17 instantes de tiempo del ciclo celular que cubren aproximadamente 2 ciclos completos.
2. Conjunto de datos: levadura
Datos de expresión génica:
Algoritmos de bicluster sobre la matriz de expresión
(EDA Biclustering, Gene&Sample Shaving)
Se agrupan los genes que se comportan de forma similar bajo ciertas condiciones experimentales.
Se permiten biclusters solapados: un gen puede pertenecer a más de un bicluster
Una columna indicando el bicluster(s) al q pertenece el gen
2. Conjunto de datos: levadura
Gene Ontology (GO)
Lista con los términos en los que está
anotado el gen
Se descartan los términos que no aportan
información (‘molecular_function’ etc.)
Information Content Theory
)log(
))(log()(
minP
nodePnodeIC
2. Conjunto de datos: levadura
Orf_name chr length Int lenght … GOannotations
YAL002W 1 3825 546 …GO:0016197,GO:0050875,GO:0016192,…
YAL003W 1 621 742 …GO:0003746,GO:0006414,GO:0005840,GO:0005853, …
YAL008W 1 597 280 …
GO:0005741,GO:0005739,GO:0005737,GO:0031968,GO:0031967, …
YAL009W 1 780 188 …
GO:0042175,GO:0016021,GO:0030437,GO:0007126,GO:0006997…
2. Conjunto de datos: levadura
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
Regla de asociación:
A C
A, C: conjuntos de pares atributo-valor o itemsets
Soporte: probabilidad de que ocurran A y C
Confianza: probabilidad de que ocurra C dado que ha ocurrido A.
3. Reglas de asociación
3. Reglas de asociación Algoritmos:
Agrawal 1994, Apriori
Savasere et. al. 1995, Partition
Wang et. al. 2002, TD FP-Growth
Zaki et. al. 1998, Eclat
…
Algoritmo muy eficiente
Solo dos escaneos de la BDs
Utiliza una estructura de datos:
FP-tree
3. Reglas de asociación
Necesidad de manejar conjuntos difusos
Algoritmo Fuzzy TD FP-Growth(Lopez et al. 2008)
Adaptar la forma en que se calculan el soporte y la confianza Soporte y confianzas difusas
Adaptar el contenido de los nodos del FP-tree
3. Reglas de asociación
Generar reglas de asociacion difusas que cumplan unos umbrales de calidad mínimos: Soporte, Confianza y Factores de certeza (CFs)
(Delgado et al. 2003)
Certainty Factor:
)(1
)()()(
CSupp
CSuppCAConfCACF
3. Reglas de asociación
Fusionar reglas que contienen nodos GO Reglas que comparten todos sus items menos el término GO
3. Reglas de asociación
Fusionar reglas que contienen nodos GO
Todos los nodos GO incluidos en el análisis son relevantes (suficientemente informativos), ya que todos superan el umbral de IC
Cada nodo GO hereda las propiedades de todos sus ancestros
Dado un conjunto de nodos, si hay uno del que descienden todos los demás, éste parece ser el término más descriptivo e intuitivo
3. Reglas de asociación
Calcular un False Discovery Rate:
Se generan 100 conjuntos de datos aleatorios independientes (desordenando el conjunto de datos original)
Se calcula el número medio de reglas obtenidas con cada conjunto de datos aleatorio
3. Reglas de asociación
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFAR
RESULTADOS
CONCLUSIONES
http://genome.ugr.es/biofar
Biological Data Analysis by Fuzzy Association Rule Mining: BioFar
Entradas:
Conjunto de datos: fichero delimitado por tabulaciones, .csv
Umbrales
Definiciones de los conjuntos difusos: percentiles, fuzzy cmeans, manual, valores de expresión génica
4. Aplicación web: BioFAR
4. Aplicación web: BioFAR
Salida: fichero de texto
4. Aplicación web: BioFar
Software para el filtrado de reglas:
4. Aplicación web: BioFar
Salida del filtrado: fichero html
4. Aplicación web: BioFar
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
5. Resultados: experimentos
Variables
UmbralesNúmerototal dereglas
FDRConf. & CF Soporte
Variables estructurales 0.1 0.01 24 0.093
Abundancia proteínas & Variables estructurales 0.1 0.002 4 0.040
Responsiveness & Variables estructurales 0.1 0.002 10 0.044
Variables estructurales & Molecular Function 0.4 0.004 20 0.042
Variables estructurales & Biological Process 0.5 0.004 7 0.050
Variables estructurales & Cellular Component 0.5 0.004 12 0.011
Cell Cycle - EDA 1 & rest 0.4 0.001 23 0.318
Cell Cycle - EDA 2 & rest 0.4 0.001 6 0.115
Cell Cycle - G&S SHAVING 1 & rest 0.6 0.001 45 0.006
Cell Cycle - G&S SHAVING 2 & rest 0.6 0.002 36 0.003
REGLA Confianza Soporte CF
gct = HIGH length = LOW 0.41 0.15 0.12
length = LOW gct = HIGH 0.40 0.15 0.12
gct = LOW length = HIGH 0.38 0.13 0.12
length = HIGH gct = LOW 0.40 0.14 0.12
5. Resultados
REGLA Confianza Soporte CF
gct = HIGH length = LOW 0.41 0.15 0.12
length = LOW gct = HIGH 0.40 0.15 0.12
gct = LOW length = HIGH 0.38 0.13 0.12
length = HIGH gct = LOW 0.40 0.14 0.12
Negative correlation between length and G+C content (Spearman’s r = −0.25, p < 0.0001)
A Marin et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20, 703-711, 2003
5. Resultados
REGLA Confianza Soporte CF
Intergenic GC = LOW Orientation = TANDEM 0.68 0.20 0.37
Intergenic GC = HIGH Orientation = DIVERGENT 0.65 0.19 0.18
Intergenic length = HIGH Orientation = DIVERGENT 0.62 0.18 0.23
Intergenic length = MEDIUM Orientation = TANDEM 0.56 0.22 0.14
B. Dujon, “The yeast genome project: what did we learn”, Trends Genet. 12, 263- 270, 1996.
A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.
5. Resultados
REGLA Confianza Soporte CF
Intergenic GC = LOW gct = LOW 0.68 0.20 0.37
gct = LOW Intergenic GC = LOW 0.65 0.19 0.18
gct = HIGH Intergenic GC = HIGH 0.62 0.18 0.23
Intergenic GC = HIGH gct = HIGH 0.56 0.22 0.14
A. Marin, et al., “Short-range compositional correlation in the yeast genome depends on transcriptional orientation”, Gene 333: 151-155, 2004.
5. Resultados
REGLA Confianza Soporte CF
Protein abundance = HIGH length = MEDIUM 0.748 0.092 0.12
Protein abundance = LOW length = HIGH 0.45 0.087 0.22
Protein abundance = HIGH G+C = HIGH 0.40 0.074 0.15
A. Marin, et al., “Relationship between G+C content, ORF-length and mRNA concentration in Saccharomyces cerevisiae”, Yeast 20: 703-711, 2003.
Coghlan A, Wolfe KH, “Relationship of codon bias to mRNA concentration and protein length in Saccharomyces cerevisiae”, Yeast 16:1131-1145, 2000.
Warringer J, Blomberg A, “Evolutionary constraints on yeast protein size”, BMC Evol Biol 15:6-51, 2006.
5. Resultados
REGLA Confianza Support CF
structural constituent of ribosome length = LOW 0.77 0.028 0.67
plasma membrane length = HIGH 0.57 0.023 0.39
helicase activity length = HIGH 0.78 0.01 0.69
GHPM Bollen et al., “Small-Size mRNAs Code for Ribosomal Proteins in Yeast”, Godfried H. P. Eur. J. Biochem. 105, 75 - 80, 1980.
J. Warringer, A. Blomberg, “Evolutionary constraints on yeast protein size”, BMC Evol Biol, 15;6:61, 2006.
5. Resultados
REGLA Confianza Soporte CF
bicluster = 1 GO = non-membrane-bound organelle 0.54 0.0029 0.45
bicluster = 1 GO = nucleus 0.61 0.0033 0.45
bicluster = 2 length = MEDIUM 0.68 0.0018 0.46
bicluster = 2 responsiveness = HIGH 0.80 0.0022 0.74
bicluster = 2 GO = oxidoreductase activity 0.43 0.0012 0.40
5. Resultados
Bicluster 1 Bicluster 2
5. Resultados
REGLA Confianza Soporte CF
bicluster = 3 GO = nucleus 0.65 0.0039 0.50
bicluster = 3 GO = DNA metabolism 0.48 0.0029 0.44
bicluster = 4 length = LOW 0.81 0.0033 0.73
bicluster = 4 G+C = HIGH 0.89 0.0036 0.85
bicluster = 4 GO = non-membrane-bound organelle 0.90 0.0037 0.89
bicluster = 4 GO = biosynthesis 0.90 0.0037 0.89
bicluster = 4 GO = protein complex 0.90 0.0037 0.87
bicluster = 4 GO = organelle part 0.86 0.0035 0.78
bicluster = 4 GO = cytosol 0.86 0.0035 0.85
bicluster = 4 GO = structural molecule activity 0.86 0.0035 0.85
5. Resultados
Bicluster 3 Bicluster 4
5. Resultados
INTRODUCCIÓN
CONJUNTO DE DATOS
REGLAS DE ASOCIACIÓN
BioFar
RESULTADOS
CONCLUSIONES
6. Conclusiones
Metodología difusa efectiva para la integración y el análisis de datos biológicos
Se obtienen asociaciones interesantes: muchas corroboradas por estudios previos
Las reglas de asociación difusas son una herramienta útil que describe estas asociaciones de forma intuitiva
6. Conclusiones
Definición de otras medidas de calidad de las reglas
Incluir otros tipos de información en el análisis
Aplicar la metodología a otras especies
Combinar con otras técnicas
top related