Genómica funcional para la descripción de mutaciones aplicables al diagnóstico de cáncer de seno en población colombiana: estudio a gran escala en casos no seleccionados
Thesis
Introducción: El cáncer de seno es la neoplasia más frecuente a nivel mundial y el tipo de cáncer más importante para la mujer, atribuido hasta en el 10percent-flag-change a mutaciones germinales. A nivel mundial, grandes consorcios han centrado el estudio de variantes germinales en población de origen caucásico. En América Latina, específicamente en Colombia los casos hereditarios y familiares se han estudiado de manera predominante, centrando el análisis en los genes BRCA1 y BRCA2. En nuestra población no se ha identificado el perfil genómico en casos no seleccionados en genes diferentes a los mencionados previamente. Métodos: Se analizaron 400 mujeres colombianas con cáncer de seno no seleccionado, mediante WES (whole exome sequencing-WES) para 253 genes relacionados con el cáncer de seno. Se generó un algoritmo bioinformático para identificar las variantes moleculares missense, nonsense, frameshift y de splicing, con MAF (minor allele frequency-MAF) ampersand-flag-changele;0.01. Se realizó análisis de segregación familiar para algunas de las variantes P/LP identificadas en los genes BRCA2, ATM y PALB2. Mediante MLPA (multiplex ligation-dependent probe amplification-MLPA) se evaluó la presencia de CNVs (copy number variants-CNVs) en los genes BRCA1/2. Adicionalmente se realizó la anotación de los procesos biológicos y las vías de señalización en los genes con variantes germinales P/LP (pathogenic/likely pathogenic-P/LP). A nivel estadístico realizó un análisis bivariado para establecer asociaciones entre la presencia de variantes germinales P/LP, en diez genes con impacto clínico (ATM, BRCA1, BRCA2, BARD1, CHEK2, CDH1, PALB2, TP53, RAD51C y RAD51D) y las características clinicopatológicas y de factores de riesgo recolectadas; adicionalmente se realizó un análisis de regresión multivariada (árboles de decisión) de los diferentes subtipos moleculares de cáncer de seno (Luminal A, Luminal B HER-2 negativo, Luminal B HER-2 positivo, HER-2 enriquecido y TNBC (triple negative breast cancer-TNBC)). Mediante ensayos in vitro se evaluó el efecto de tres variantes germinales. Resultados: Se identificaron 211 variantes germinales P/LP en el 41.5percent-flag-change (105/253) de los genes estudiados, las cuales se encontraron en el 56.7percent-flag-change (227/400) de los casos analizados. 21 de las 211 variantes se identificaron, en el 6percent-flag-change de los casos, en siete de los diez genes con impacto clínico (ATM, BRCA1, BRCA2, BARD1, CHEK2, PALB2 y RAD51D). Se realizó análisis de segregación familiar en las familias de los casos índice con variantes germinales P/LP en los genes BRCA2 (c.2808_2811delACAA, p.Ala938Profs*21; c.3860delA, p.Asn1287Ilefs*6; c.1763_1766delATAA, p.Asn588Serfs*25), ATM (c.5496 2_5496 5delTAAG) y PALB2 (c.3350 4Aygt;G). En total se evaluaron 36 familiares, y en 13 de ellos se identificó la variante P/LP estudiada (11 para las variantes del gen BRCA2 y dos para el gen ATM). Se identificó segregación en dos de las variantes analizadas en el gen BRCA2 (c.1763_1766delATAA, p.Asn588Serfs*25 y c.3860delA, p.Asn1287Ilefs*6). No se identificaron CNVs en los genes BRCA1/2. En los genes con variantes germinales P/LP, se identificaron varios procesos y vías de señalización relacionadas con los hallmarks del cáncer, tales como proliferación celular, angiogénesis, inestabilidad genómica (ocasionada por diferentes causas como generación de aductos-ADN debidos al metabolismo de componentes exógenos y al metabolismo de los estrógenos), alteraciones en el microambiente tumoral (secundario a hipoxia y especies reactivas de oxígeno), alteraciones en diferentes vías de reparación del ADN (reparación por recombinación homóloga, reparación mismatch, alteraciones en la vía de señalización de la Anemia de Fanconi), alteraciones metabólicas (metabolismo del colesterol, alteración del ciclo de los ácidos tricarboxílicos y de la glicólisis). Se identificó que las vías de señalización Pathways in cancer, MicroRNAs in cancer, Breast cancer y Cell cycle, entre otras, contenían el mayor número de genes portadores de variantes germinales P/LP. El análisis bivariado determinó que las pacientes con variantes P/LP en los genes BRCA1/2 tenían una edad de diagnóstico menor (mediana de edad: 36 vs 54, p=0.0003), la menor parte eran postmenopáusicas (15.35percent-flag-change vs 57.68percent-flag-change, p=0.009) y el estadio nodal 2 fue más frecuente en estas pacientes (30.77percent-flag-change vs 9.26percent-flag-change, p=0.0425), en comparación con las pacientes sin variante P/LP en los diez genes con impacto clínico. Los análisis de árboles de decisión permitieron establecer predicciones de riesgo para cada subtipo molecular de cáncer de seno; por ejemplo, las pacientes con cáncer de seno luminal B HER-2 negativo, mostraron en el árbol de decisión que la presencia de una variante P/LP en el gen IRF6 les da una predicción del 88percent-flag-change. El análisis genómico evidenció lapresencia de un tipo de variante denominada MNV (multiple nucleotide variant-MNV) en los genes POLD1 y BLM, este tipo de variante puede modificar la interpretación del cambio nucleotídico a nivel proteico y dado que no se identifica por los algoritmos bioinformáticos convencionales también puede llevar a resultados falsos positivos o falsos negativos. Los ensayos in vitro de las variantes estudiadas demostraron que la variante intrónica identificada en el gen ATM (c.5496 2_5496 5delTAAG) altera el proceso de splicing ocasionando exon skipping con un efecto deletéreo potencial en el dominio Pincer de la proteína ATM; la variante sinónima identificada en el mismo gen (c.1176Cygt;G, p.Gly392=), altera un ESS (exon splicing silencer-ESS) llevando a la disminución del transcrito con la mutación; y la variante localizada en la región 3ampersand-flag-changeacute;UTR del gen BRCA1: c.*36Cygt;G altera la interacción con el microARN miR-99a-3p, lo que potencialmente evita el desarrollo de TNBC. Conclusiones: Los resultados obtenidos resaltan la importancia de realizar estudios genómicos en nuestra población ya que cada diferentes procesos migratorios y mutacionales probablemente favorecen la selección de cierto tipo de variantes genéticas, generando un perfil mutacional particular para cada población. Adicionalmente, es importante resaltar el análisis ampliado de genes en las pacientes con cáncer de seno y no solo considerar los diez usualmente aplicados al diagnóstico molecular. En adición, nuestros hallazgos apoyan la importancia de analizar otro tipo de variantes como las sinónimas las cuales aparentemente no alteran la secuencia proteica pero si pueden afectar procesos importantes como el splicing, o como las MNVs que pueden llevar a falsos positivos o negativos en el diagnóstico, así como analizar otras regiones del genoma diferentes a las codificantes que podrían alterar la interacción con moléculas que regulan la expresión génica como es el caso de los microARNs.
Introduction: Breast cancer is the most common neoplasm worldwide and the type of cancer most important for women, with up to 10percent-flag-change attributed to germline mutations.Worldwide, large consortia have focused on the study of germline variants in the Caucasian population. In Latin America, specifically in Colombia, hereditary and familial cases have been predominantly studied, focusing the analysis on the BRCA1 and BRCA2 genes. In our population, the genomic profile has not been identified in unselected cases in genes other than those mentioned previously. Methods: 400 Colombian women with unselected breast cancer were analyzed using WES (whole exome sequencing-WES) for 253 genes related to breast cancer. A bioinformatics algorithm was generated to identify missense, nonsense, frameshift, and splicing molecular variants, with MAF ampersand-flag-changele;0.01. Family segregation was analyzed for some P/LP variants identified in the BRCA2, ATM, and PALB2 genes. Using MLPA (multiplex ligation-dependent probe amplification-MLPA) the presence of CNVs (copy number variants-CNVs) in the BRCA1/2 genes was evaluated. Additionally, the annotation of the biological processes and signaling pathways in the genes with P/LP germline variants was carried out. At a statistical level, a bivariate analysis was performed to establish associations between the presence of P/LP germline variants in the ten genes with clinical impact (ATM, BRCA1, BRCA2, BARD1, CHEK2, CDH1, PALB2, TP53, RAD51C, and RAD51D) and the clinicopathological and risk factor characteristics collected; A multivariate regression analysis (decision trees) was also performed on the different molecular subtypes of breast cancer (Luminal A, Luminal B HER-2 negative, Luminal B HER-2 positive, HER-2 enriched and TNBC (triple negative breast cancer-TNBC)). Through in vitro assays, the effect of three germline variants was evaluated; ATM: c.5496 2_5496 5delTAAG, c.1176Cygt;G (p.Gly392=) and BRCA1: c.*36Cygt;G. Results: 211 germline P/LP variants were identified in 56.7percent-flag-change (227/400) of the cases analyzed in 41.5percent-flag-change (105/253) of the genes analyzed, 21 of the 211 variants were identified in seven of the ten genes with impact clinical (ATM, BRCA1, BRCA2, BARD1, CHEK2, PALB2 and RAD51D). Family segregation analysis was performed in the families of the index cases with P/LP germline variants in the BRCA2 (c.2808_2811delACAA, p.Ala938Profs*21; c.3860delA, p.Asn1287Ilefs*6; c.1763_1766delATAA, p.Asn588Serfs*25), ATM (c.5496 2_5496 5delTAAG) and PALB2 (c.3350 4Aygt;G) genes. In total, 36 relatives were evaluated, of which 13 tested positive for the presence of the P/LP variant 11 for the BRCA2 gene variants, and two for the ATM gene. Segregation was identified in two of the variants analyzed in the BRCA2 gene (c.1763_1766delATAA, p.Asn588Serfs*25 and, c.3860delA, p.Asn1287Ilefs*6). No CNVs were identified in the BRCA1/2 genes. In the annotation of biological processes and signaling pathways, applied to genes with germline P/LP variants, several processes and signaling pathways related to the hallmarks of cancer were identified, for example, cell proliferation, angiogenesis, genomic instability (caused by different causes such as generation of DNA-adducts due to the metabolism of exogenous components and the metabolism of estrogens), alterations in the tumor microenvironment (secondary to hypoxia and reactive species of oxygen), alterations in different DNA repair pathways (repair by homologous recombination, mismatch repair, alterations in the Fanconi Anemia signaling pathway), metabolic alterations (cholesterol metabolism, alteration of the tricarboxylic acid cycle and glycolysis); within the signaling pathways annotated for genes with germline P/LP variants, those with the greatest number of genes with mutations were Pathways in cancer, MicroRNAs in cancer, Breast cancer and Cell cycle, among others. The bivariate analysis determined that patients with P/LP variants in the BRCA1/2 genes have ayounger age at diagnosis (median age: 36 vs 54, p=0.0003), the minority were postmenopausal (15.35percent-flag-change vs 57.68percent-flag-change, p =0.009) and nodal stage 2 is more frequent inthese patients (30.77percent-flag-change vs 9.26percent-flag-change, p=0.0425), compared to patients without P/LP variant in the ten genes with clinical impact. Decision tree analyzes allowed riskpredictions to be established for each molecular subtype of breast cancer. For example, patients with Luminal B HER-2 negative breast cancer showed in the decision tree that the presence of a P/LP variant in the IRF6 gene gives them a prediction of 88percent-flag-change. The genomic analysis showed the presence of a type of variant called MNV (multiple nucleotide variant-MNV) in the POLD1 and BLM genes. This type of variant can modify the interpretation of the nucleotide change at the protein level and since it is not identified by the conventional bioinformatic algorithms can also lead to false positive or false negative results. In vitro assays of the variants studied demonstrated that the intronic variant identified in the ATM gene (c.5496 2_5496 5delTAAG) alters the splicing process, causing exon skipping with a potentially deleterious effect on the Pincer domain of the ATM protein; the synonymous variant identified in the same gene (c.1176Cygt;G, p.Gly392=), alters an ESS (exon splicing silencer-ESS) leading to a decrease in the transcript with the mutation; and the variant located in the 3'UTR region of the BRCA1 gene: c.*36Cygt;G alters the interaction with the microRNA miR-99a-3p, apparently preventing the development of TNBC. Conclusions: The results obtained highlight the importance of carrying out population genomic studies since each population is subject to different migratory and mutational processes that probably favor the selection of certain types of genetic variants, generating a particular mutational profile for each population. Additionally, it is important to highlight the analysis of genes additional to those usually evaluated in breast cancer patients, such as the ten genes with clinical impact previously described; analyze other types of variants such as synonymous variants, which apparently do not alter the protein sequence but can affect important processes such as splicing, or MNVs that can lead to false positives or negatives results in the diagnosis, as well as analyzing other regions of the genome other than the coding ones that could alter the interaction with molecules that regulate gene expression, such as microRNAs.