Enciclopédias expandidas de elementos de DNA nos genomas humano e de camundongo
LarLar > Notícias > Enciclopédias expandidas de elementos de DNA nos genomas humano e de camundongo

Enciclopédias expandidas de elementos de DNA nos genomas humano e de camundongo

Jul 07, 2023

Nature volume 583, páginas 699–710 (2020)Cite este artigo

86 mil acessos

658 citações

328 Altmétrico

Detalhes das métricas

Uma correção do autor a este artigo foi publicada em 26 de abril de 2022

Este artigo foi atualizado

Os genomas humanos e de camundongos contêm instruções que especificam RNAs e proteínas e governam o tempo, a magnitude e o contexto celular de sua produção. Para melhor delinear esses elementos, a fase III do Projeto Enciclopédia de Elementos de DNA (ENCODE) expandiu a análise dos repertórios celulares e teciduais de transcrição de RNA, estrutura e modificação da cromatina, metilação do DNA, looping da cromatina e ocupação por fatores de transcrição e RNA- proteínas de ligação. Aqui resumimos esses esforços, que produziram 5.992 novos conjuntos de dados experimentais, incluindo determinações sistemáticas no desenvolvimento fetal de camundongos. Todos os dados estão disponíveis através do portal de dados ENCODE (https://www.encodeproject.org), incluindo dados ENCODE1 de fase II e Roadmap Epigenomics2. Desenvolvemos um registro de 926.535 elementos reguladores cis candidatos humanos e 339.815 camundongos, cobrindo 7,9 e 3,4% de seus respectivos genomas, integrando tipos de dados selecionados associados à regulação genética, e construímos um servidor baseado na web (SCREEN; http:// screen.encodeproject.org) para fornecer acesso flexível e definido pelo usuário a esse recurso. Coletivamente, os dados e o registro do ENCODE fornecem um recurso extenso para a comunidade científica construir uma melhor compreensão da organização e função dos genomas humanos e de camundongos.

O genoma humano compreende um vasto repositório de instruções codificadas pelo DNA que são lidas, interpretadas e executadas pelas proteínas celulares e pela maquinaria do RNA para permitir as diversas funções das células e tecidos vivos. O Projeto ENCODE visa delinear de forma precisa e abrangente os segmentos dos genomas humanos e de camundongos que codificam elementos funcionais1,3,4,5,6. Operacionalmente, os elementos funcionais são definidos como características de sequência discretas e ordenadas linearmente que especificam produtos moleculares (por exemplo, genes codificadores de proteínas ou RNAs não codificantes) ou atividades bioquímicas com papéis mecanísticos na regulação genética ou genômica (por exemplo, promotores ou intensificadores transcricionais)5 . Começando com o Projeto Piloto ENCODE em 2003 (que se concentrou em 1% definido da sequência do genoma humano4) e expandindo para todo o genoma em uma fase de produção II que começou em 20071, o ENCODE aplicou uma sucessão de tecnologias de ponta. ensaios de arte para identificar prováveis ​​​​elementos funcionais com precisão crescente em uma gama crescente de contextos celulares e biológicos. Para capitalizar o valor do rato de laboratório, Mus musculus, tanto para a análise genómica funcional comparativa como para a modelação da biologia humana, foi iniciado em 20096 um projecto Mouse ENCODE de âmbito mais limitado. Project e descreve como os dados ENCODE estão sendo usados ​​para esclarecer questões biológicas e biomédicas básicas que cruzam a estrutura e função do genoma.

A partir de 2012, os projetos ENCODE humanos e de camundongos iniciaram programas para ampliar e aprofundar seus respectivos esforços para descobrir e anotar elementos funcionais e para sistematizar a produção, curadoria e disseminação de dados ENCODE com o objetivo de capacitar amplamente a comunidade científica. Os dados ENCODE serviram como uma interface facilitadora entre a sequência do genoma humano e sua aplicação à pesquisa biomédica devido à gama de características biológicas e bioquímicas abrangidas pelos ensaios ENCODE e à amplitude e profundidade com que esses ensaios foram aplicados em contextos celulares e teciduais. . O ENCODE agora se expandiu em ambos os eixos (i) incorporando novos ensaios, como localização da proteína de ligação ao RNA e loop da cromatina; (ii) aumentar as profundidades nas quais os ensaios atuais, como imunoprecipitação e sequenciamento da cromatina do fator de transcrição (ChIP-seq), interrogam linhas celulares de referência; e (iii) recolha de dados numa gama biológica bastante alargada, com ênfase em células e tecidos primários. Além disso, o ENCODE incorporou e processou uniformemente os dados substanciais do Roadmap Epigenomics Project2 que estão em conformidade com os padrões do ENCODE (ver Métodos).

1.64 throughout, and low otherwise./p>2,000 bp for TSS-distal). We defined TSSs as the 5′ ends of all basic transcripts annotated by GENCODE (V24 for human and M18 for mouse). A cCRE was assigned to one of five mutually exclusive groups on the basis of its state and TSS proximity (Box 1): TSS-overlapping with promoter-like signatures (PLS), TSS-proximal with enhancer-like signatures (pELS), TSS-distal with enhancer-like signatures (dELS), not TSS-overlapping and with high DNase and H3K4me3 signals only (DNase–H3K4me3), not TSS-overlapping and with high DNase and CTCF signals only (CTCF-only). Note that this set of seven states and five groups is defined across all biosamples, and therefore is cell-type agnostic. We next define cell type-specific state and group classifications./p>