un cromosoma

Biología de las comunicaciones volumen 6, número de artículo: 867 (2023) Citar este artículo

212 Accesos

2 altmétrico

Detalles de métricas

Ruibarbo es el nombre colectivo de varias plantas perennes del género Rheum L. y de la familia Polygonaceae. Son una de las hierbas más antiguas, utilizadas e importantes de la medicina tradicional china. El ruibarbo es una fuente importante de antraquinonas, pero aún se desconoce en gran medida cómo se sintetizan. Aquí, generamos un ensamblaje de secuencia del genoma de un importante ruibarbo medicinal R. tanguticum a nivel cromosómico, con 2,76 Gb ensamblados en 11 cromosomas. El genoma está moldeado por dos eventos recientes de duplicación del genoma completo y explosiones recientes de retrotransposones. Los análisis metabólicos muestran que las principales antraquinonas se sintetizan principalmente en sus raíces. El análisis transcriptómico revela un módulo de coexpresión con una alta correlación con la biosíntesis de antraquinona que incluye genes clave de chalcona sintasa. Un gen CHS, cuatro CYP450 y dos BGL implicados en el metabolismo secundario muestran niveles de expresión significativamente aumentados en las raíces en comparación con otros tejidos y agrupados en el módulo de coexpresión, lo que implica que también pueden actuar como genes candidatos para la biosíntesis de antraquinonas. Este estudio proporciona información valiosa sobre las bases genéticas de la biosíntesis de antraquinona que facilitarán mejores prácticas de reproducción y propiedades agronómicas del ruibarbo en el futuro.

El ruibarbo es una hierba antigua e importante con raíces gruesas, tallos huecos y erectos y pequeñas flores de color blanco verdoso o rojo púrpura agrupadas a lo largo de sus ramas1. El nombre ruibarbo engloba aproximadamente 60 especies de plantas del género Rheum L. de la familia Polygonaceae2. El ruibarbo se ha utilizado principalmente con fines medicinales en Asia, aunque en Europa y Oriente Medio se utilizan varios ruibarbos comestibles. Del cual, el tallo de la hoja de R. rhabarbarum se usa comúnmente para hacer pastel de ruibarbo, que es un postre tradicional en los Estados Unidos y también es popular en Medio Oriente y Canadá. Además, las raíces y el rizoma de R. tanguticum Maxim. y otras dos especies (R. officinale Baill. y R. palmatum L.) han sido adoptadas oficialmente tanto en la Farmacopea China como en la Farmacopea Coreana utilizando el nombre común de fármaco “Da huang” debido a su actividad laxante3. Entre los tres ruibarbos medicinales, R. tanguticum Maxim. (Fig. 1a) posee una excelente tolerancia a los ambientes alpinos. En estado salvaje, R. tanguticum Maxim. Se distribuye principalmente en la meseta Qinghai-Tíbet y es adyacente a los márgenes de los bosques (valles o praderas arbustivas), con altitudes que oscilan entre 2300 y 4200 m4. Es una planta medicinal importante en el noroeste de China (Gansu, Qinghai y Tíbet) que resulta beneficiosa para las economías locales.

un hábitat de R. tanguticum. b Descripción general del genoma de R. tanguticum. Diferentes pistas (que se mueven hacia adentro) indican cromosomas (I); (II) densidad de elementos gitanos en ventanas corredizas de 500 kb (mínimo-máximo, 0-1,0); (III) densidad de elementos de Copia en ventanas corredizas de 500 kb (mínimo-máximo, 0-1,0); (IV) contenido de GC en ventanas deslizantes de 500 kb (mínimo-máximo, 0-0,5); (V) densidad de repetición en ventanas corredizas de 500 kb (mínimo-máximo, 0-1,0); (VI) densidad genética en ventanas deslizantes de 500 kb (mínimo-máximo, 0-50); (VII) densidad de ARN no codificante en ventanas deslizantes de 500 kb (mínimo-máximo, 0-30); (VIII) bloques sinténicos identificados.

Los estudios modernos del ruibarbo han identificado sus constituyentes químicos5,6, actividades farmacológicas7,8 y mecanismos funcionales2,9 de una manera más científica y rigurosa. Amplias investigaciones fotoquímicas han llevado al aislamiento e identificación de más de 120 compuestos de las raíces y hojas del ruibarbo, que proporcionan evidencia química de sus efectos farmacológicos10. Los principales compuestos biológicamente activos del ruibarbo son una variedad de compuestos fenólicos, que incluyen antraquinonas, antronas, estilbenos, flavonoides, diantronas, taninos, polifenoles y cromonas2,11. Si bien el ruibarbo es una fuente importante de antraquinonas, los efectos farmacológicos más abundantes del ruibarbo son el resultado de la acción conjunta de varias antraquinonas2. Las antraquinonas son los componentes activos de muchas plantas medicinales tradicionales conocidas desde hace mucho tiempo por sus efectos laxantes2,12. Por ejemplo, en un ensayo clínico aleatorizado, doble ciego y controlado con placebo realizado por Neyrinck et al.13, informaron que la suplementación con extracto crudo rico en antraquinona promueve bacterias productoras de butirato y ácido graso de cadena corta, que es un laxante eficaz. para el tratamiento del estreñimiento crónico. También demostraron que la suplementación oral diaria de extracto de ruibarbo durante 30 días era segura incluso en dosis más altas (25 mg por día, calculado como rhein). Otro ensayo clínico aleatorizado, doble ciego y controlado con placebo encontró que las cápsulas de antraquinonas se usaban como un medicamento seguro y eficaz y mostraron efectos obvios sobre la ictericia en 80 pacientes con icterohepatitis14. Además, los derivados de antraquinona del ruibarbo: emodina15, aloe-emodina16, rhein17, physcion18 y crisofanol19 son componentes biológicamente activos importantes que han demostrado de manera convincente sus capacidades para exhibir actividades hepatoprotectoras, nefroprotectoras, antiinflamatorias, antioxidantes, anticancerígenas y antimicrobianas, que respaldan la justificación detrás de varios de sus posibles usos medicinales. Sin embargo, se requiere más exploración sobre sus mecanismos, biodisponibilidad y seguridad. Además, el uso clínico y comercial actual de las antraquinonas también ha creado una demanda urgente para su biosíntesis, en lugar de la extracción natural de las plantas.

Las antraquinonas son un grupo de policétidos aromáticos que pueden ser sintetizados por bacterias, hongos, insectos y plantas20,21,22. En las plantas, las antraquinonas se encuentran en una amplia gama de especies, especialmente en las familias Rubiaceae, Polygonaceae y Rhamnaceae. La biosíntesis de antraquinona se ha estudiado principalmente en plantas Rubiaceae, especialmente en el género Rubia. Se sabía que estas especies producían cantidades sustanciales de derivados de antraquinona12,23. También se ha informado que la ruta del ácido shikimato o corismato-succinilbenzoico, que se produce mediante la adición de ácido succinoilbenzoico, se forma a partir de ácido shikímico y ácido α-cetoglutárico y produce ácido mevalónico. Esta vía se utiliza para producir antraquinonas con un solo anillo hidroxilado, como las antraquinonas 1,2-dihidroxiladas (antraquinonas tipo Rubia), y se utiliza comúnmente como tinte natural en la industria textil. Si bien la biosíntesis de antraquinonas en el ruibarbo se produce a través de una vía policétida24,25,26, produce antraquinonas que se caracterizan por dos grupos hidroxilo ubicados en los carbonos C-1 y C-8 de su anillo aromático tricíclico (antraquinonas de tipo ruibarbo). Se conocen como hidroxiantraquinonas y se caracterizan por ser los componentes activos de muchas plantas medicinales tradicionales. Sin embargo, aún se desconoce en gran medida cómo se producen las antraquinonas a través de la vía de los policétidos. Hasta la fecha, sólo se ha revelado que un gen putativo de policétido sintasa (PKS) de tipo III es responsable de la biosíntesis de una estructura de antraquinona en una planta (Senna tora)27. Además, aunque las enzimas PKS de tipo III podrían catalizar activamente siete condensaciones descarboxilativas sucesivas de malonil-CoA para producir una cadena de octacétido26,28, la cadena de policétido lineal también sufre ciclización, hidrólisis y descarboxilación para producir la unidad central de policétidos, el ácido atrocrisona carboxílico, que es descarboxilado a atrocrisona con mayor deshidratación y oxidación a emodina antrona24,26,28,29,30. Sin embargo, las bases genéticas generales para la biosíntesis de antraquinonas a través de una vía de policétidos en plantas aún necesitan más investigación.

La herbgenómica es un nuevo campo de estudio que investiga la genética y los mecanismos reguladores de las plantas medicinales a través de la genómica, lo que aclara sus mecanismos de acción y facilita el mejoramiento molecular desde la perspectiva de los genomas27,31,32. Adoptar una perspectiva genómica para analizar las rutas metabólicas de productos naturales valiosos generará activos esenciales para la síntesis y producción a gran escala de nuevas sustancias químicas a través de la biología sintética. Aunque se ha descrito previamente un genoma aproximado para Polygonum cuspidatum (Polygonaceae) basado en la secuenciación de Illumina33, las vías para la biosíntesis del andamio de antraquinona y sus derivados siguen siendo en gran medida difíciles de alcanzar debido a la baja calidad del genoma ensamblado y la mala anotación de los genes relevantes. Dado que R. tanguticum es una fuente popular de antraquinonas de tipo ruibarbo con una amplia gama de aplicaciones clínicas y un inmenso potencial para el descubrimiento de fármacos, es necesario investigar urgentemente en esta especie las distribuciones in vivo de antraquinonas y sus vías metabólicas subyacentes.

La falta de información genómica de R. tanguticum representa un obstáculo importante en la exploración de las características biológicas del ruibarbo. Para abordar este problema, generamos un genoma de referencia a nivel de cromosomas de alta calidad para R. tanguticum (2n = 22) combinando la secuenciación escopeta de todo el genoma de lecturas cortas de Illumina, lecturas largas de Oxford Nanopore Technologies (ONT) y Hi-C. datos. En conjunto, esto representa el primer genoma del ruibarbo. Basándonos en los análisis de la evolución del genoma, descubrimos dos eventos recientes de duplicación del genoma completo (WGD) y demostramos que estos WGD se compartían con el trigo sarraceno de Tartaria, otra especie de la familia Polygonaceae. El análisis comparativo con otros genomas indicó que múltiples familias de genes se han expandido en R. tanguticum. La WGD provocó expansiones en genes que están involucrados principalmente con la adaptación a ambientes alpinos, mientras que las duplicaciones en tándem y proximales causaron expansiones en genes que pueden contribuir a la notable acumulación de varios metabolitos secundarios en esta planta medicinal. Análisis adicionales del transcriptoma y del metabolismo revelaron un módulo de coexpresión genética que probablemente esté involucrado en la biosíntesis de antraquinonas, y además identificamos conjuntos de genes candidatos que pueden estar involucrados en esta vía. Nuestro estudio allana el camino para el análisis genético del ruibarbo y brinda información valiosa sobre sus características genómicas y su amplia tolerancia al estrés, además de proporcionar una mejor comprensión de las rutas metabólicas de sus productos naturales.

Se produjo una secuencia del genoma de alta calidad a nivel de cromosomas de Rheum tanguticum utilizando múltiples tecnologías. En total, se utilizaron 206,84 Gb de lecturas de Illumina (~75 × profundidad), 228,80 Gb de lecturas ONT (~84 × profundidad) y 296,45 Gb de lecturas Hi-C (~108 × profundidad) para generar este ensamblaje (Tabla complementaria 1; profundidades basadas en el tamaño estimado del genoma, figura complementaria 1). El ensamblaje contig primario de R. tanguticum es mayor que el tamaño estimado del genoma (~3,50 frente a ~2,74 Gb, respectivamente), lo que puede deberse a su alta heterocigosidad (~1,74%, estimada a partir de frecuencias de k-mer) y su alta repetición. relación (~ 85,9%, estimada a partir de frecuencias de k-mer) (Figura complementaria 1). Después de pulir y purgar los haplotigos, el tamaño del ensamblaje final de R. tanguticum (2,76 Gb, N50 = 7,16 Mb; Tabla 1) fue comparable al tamaño estimado del genoma. Para evaluar de manera integral la precisión, continuidad e integridad de nuestro genoma de R. tanguticum, se utilizaron cuatro análisis para evaluar la calidad del ensamblaje. En total, las lecturas sin procesar de los extremos emparejados de Illumina se asignaron al genoma ensamblado con tasas de mapeo del 99,64 % (Tabla complementaria 2) y el valor de calidad de consenso (puntuación QV) se evaluó en 27,8 utilizando Merqury (Tabla complementaria 3). Juntos, estos dos índices indican altas precisiones de bases para nuestro genoma de R. tanguticum. Además, el análisis de evaluación comparativa de ortólogos universales de copia única (BUSCO) indicó que el 97,3% de los genes eucarióticos de copia única conservados se capturaron completamente en el ensamblaje del genoma de R. tanguticum (Tabla complementaria 4). Finalmente, se estimó una puntuación alta del índice de ensamblaje (LAI) de repetición terminal larga (LTR) de 27,3 (Tabla complementaria 3), lo que sugirió una "calidad dorada" del ensamblaje de ruibarbo. En conjunto, los cuatro índices resaltaron la alta calidad de nuestro ensamblaje del genoma de R. tanguticum.

El conjunto de datos Hi-C de alta profundidad se utilizó para agrupar y ordenar los contigs para generar un ensamblaje del genoma a nivel de cromosoma mediante una canalización de ADN 3D. Después de la corrección manual de la agrupación y orientaciones obviamente incorrectas con Juicebox, obtuvimos el ensamblaje final a nivel de cromosoma (Figura complementaria 2). En total, el 99,13% de las secuencias de R. tanguticum ensambladas se anclaron correctamente en 11 cromosomas (Fig. 1b y Tabla complementaria 5). Las interacciones de la cromatina mostraron límites de interacción claramente altos entre todos los cromosomas e interacciones lineales fuertes entre las regiones cercanas dentro de los cromosomas (Figura complementaria 2), que mostraron una alta precisión de nuestro ensamblaje Hi-C.

Se predijo un total de 49.000 genes codificadores de proteínas después de la anotación inicial, y luego se identificaron un total de 16.535 pseudogenes y 897 genes relacionados con TE utilizando PseudogenePipeline y TransposonPSI, respectivamente. Después de eliminar estos genes de baja calidad, finalmente se obtuvo un total de 31.898 genes codificadores de proteínas (Tabla complementaria 6). Hemos comparado los caracteres genéticos del ortólogo de copia única entre R. tanguticum y otras cuatro especies de Caryophyllales (F. tataricum, Simmondsia chinensis, Beta vulgaris y Spinacia oleracea) para validar la calidad de nuestra anotación. Descubrimos que estas cinco especies de Caryophyllales mostraban un número de exones, una longitud de CDS y una longitud de ARNm similares, lo que sugería la alta calidad de nuestro conjunto de genes (Figura complementaria 3). Además, también detectamos el valor BUSCO completo del 92,9%, que también mostró una alta integridad de la anotación del gen de R. tanguticum (Tabla complementaria 7). Aproximadamente el 95,6% de los genes en R. tanguticum podrían anotarse funcionalmente mediante búsquedas Blast en cinco bases de datos funcionales (Tabla complementaria 8). Además, se identificaron 1876 factores de transcripción, así como 10,110 ARN no codificantes (ncRNA), en R. tanguticum (Tablas complementarias 9 y 10).

Se agruparon y asignaron secuencias genéticas de 15 especies (R. tanguticum y otras cuatro Caryophyllales, cuatro asteridas, cuatro rósidas y dos monocotiledóneas [arroz y maíz]) a 40.758 familias de genes. De estas, se identificaron y utilizaron 1110 familias de genes de copia única para el análisis filogenético (Fig. 2a). Se estimó que R. tanguticum divergió del trigo sarraceno de Tartaria (Fagopyrum tataricum, Polygonaceae) hace ~ 28,52 millones de años (Mya) (Fig. 2a). Nuestros resultados de datación indicaron además que las especies de Polygonaceae divergieron de Amaranthaceae (incluida la remolacha [Beta vulgaris] y las espinacas [Spinacia oleracea]) y Simmondsiaceae (incluida la jojoba [Simmondsia chinensis]) ~75,17 millones de años, y Caryophyllales divergieron de asteridas y rosidas ~111,68 millones de años. (Figura 2a).

un árbol filogenético de R. tanguticum y otras 14 especies de plantas y fechas de eventos WGD identificados en este estudio (estrellas rojas). Las ganancias y pérdidas de familias de genes en subramas se resaltan en rojo y azul, respectivamente. b Análisis de enriquecimiento funcional de genes de familias de genes expandidas y genes que fueron expandidos por TD o PD. El color de cada círculo representa la significancia estadística de los términos GO enriquecidos. El tamaño de cada círculo representa el número de genes dentro del término GO. El “ajuste de P” es el valor de P ajustado de la tasa de descubrimiento falso (FDR) de Benjamini-Hochberg. c Distribución de sustituciones sinónimas promedio (Ks) entre bloques sinténicos después de la corrección de la tasa evolutiva. d Gráfico de puntos homólogo dentro del genoma de R. tanguticum y entre cromosomas seleccionados de C. japonicum y R. tanguticum. Los bloques colineales dentro del genoma de R. tanguticum se resaltaron en círculos rojos, y la proporción de bloques sinténicos de 1:4 de las dos especies también se destacó mediante un rectángulo (un color correspondiente a un cromosoma de C. japonicum).

El análisis de expansión y contracción basado en el árbol filogenético construido identificó 2158, 2155 y 144 familias de genes que se expandieron y contrajeron y experimentaron una rápida evolución en R. tanguticum, respectivamente (Fig. 2a). Según los análisis de enriquecimiento de Gene Ontology (GO) y Kyoto Encyclopedia of Genes and Genomes (KEGG), tanto los genes expandidos como los genes de rápida evolución se asociaron con varios procesos biosintéticos de metabolitos secundarios, como la “biosíntesis de cutina, suberina y cera” (map00073 y GO :0010025), “síntesis de terpenoides” (GO:0046246, GO:0051762), “biosíntesis de alcaloides de tropano, piperidina y piridina” (mapa00960) y “biosíntesis de flavonoides” (mapa00940 y GO:0009698) (Fig. 2b). Otras expansiones de familias de genes estaban relacionadas con la reparación de daños en el ADN, incluyendo “map03430: reparación de desajustes”, “map03440: recombinación homóloga”, “map03420: reparación por escisión de nucleótidos” y “GO:0006283: reparación por escisión de nucleótidos acoplada a transcripción” (Fig. . 2b), lo que sugiere que R. tanguticum tiene capacidades mejoradas para reparar el ADN a partir de su colonización de regiones alpinas34. Estos resultados implican que los componentes activos responsables de las propiedades medicinales del ruibarbo, incluidas familias de genes enormemente expandidas, están involucrados en la biosíntesis de varios metabolitos secundarios, así como en mecanismos que responden al estrés.

Además, encontramos que el 98,3% (5972) de los genes en familias de genes ampliadas se podían clasificar en cinco categorías diferentes: 2534 eran duplicados del genoma completo (duplicados WGD, 41,7%), 705 eran duplicados en tándem (TD, 8,6%), 408 fueron duplicados proximales (PD, 6,7%), 852 fueron duplicados transpuestos (TRD, 14,0%) y 1651 fueron duplicados dispersos (27,2%) (Figura complementaria 4 y Tabla complementaria 11). Aunque WGD fue el principal impulsor de la expansión de la familia de genes, estos genes se asociaron principalmente con la respuesta al estrés y el desarrollo de las plantas, que son procesos que pueden estar relacionados con su amplia distribución y adaptación a grandes altitudes. Sin embargo, se sabe que los genes que se originan en la TD y la EP actúan como impulsores importantes que aumentan la dosis del producto genético35 y aceleran el flujo metabólico para pasos limitantes de la velocidad en ciertas vías biosintéticas36. De acuerdo con la expansión de la familia de genes, la expansión de las familias de genes por TD y PD en el genoma de R. tanguticum mostró un enriquecimiento de las categorías GO implicadas principalmente en la biosíntesis de metabolitos secundarios, incluidas las vías de biosíntesis de estilbenos, flavonoides, tropanos y terpenoides (Fig. 2b). En resumen, las duplicaciones proximales y en tándem recién generadas actúan como las principales fuentes de expansión de la familia de genes para propiedades medicinalmente relevantes, y cada una estaba relacionada con los principales constituyentes del ruibarbo, lo que refleja la biosíntesis de ingredientes farmacéuticos activos en esta planta medicinal11. Estos resultados sugieren que la retención de genes duplicados es una fuente importante de expansión de la familia de genes y es responsable de altos niveles de tolerancia al estrés abiótico que permite la acumulación significativa de metabolitos secundarios en el ruibarbo. En última instancia, los genes que se originaron a partir de TD/PD actúan como un recurso valioso y necesitan más investigación para estos procesos biológicos.

Se cree que las poliploidizaciones son una fuerza impulsora importante en la evolución, ya que proporciona material genético adicional que luego es más susceptible a la divergencia y la adaptación37,38. Para descubrir las reliquias evolutivas de la poliploidización en R. tanguticum, primero analizamos las tasas de sustitución sinónima (Ks) de pares de genes colineales intragenómicos dentro de bloques de síntesis (Tabla complementaria 12). Se observaron tres picos de Ks en las dos especies de Polygonaceae, R. tanguticum y F. tataricum (trigo sarraceno tartario), lo que sugiere que se produjeron dos rondas de poliploidización después del evento γ (tripulación del genoma completo, compartido por todas las eudicotiledóneas centrales) (Fig. .2a,c). Además, se observó un pico de Ks en las especies de Amaranthaceae, espinacas, lo que sugiere que se produjo una poliploidización reciente en esta especie, y las 13 eudicotiledóneas mostraron el pico compartido de hexaploidía común de Eudicot (evento Ech, γ) (Fig. 2c y Fig. complementaria 5). )39,40.

Se adoptaron además análisis de profundidad de sintenia intra o intergenómica para revelar las historias detalladas de poliploidización en las especies de Polygonaceae (Fig. 2d y Fig. 6 y 7 complementarias). A pesar de la pérdida significativa de genes frecuentemente asociada con el evento WGD, la reliquia de poliploidía fragmentaria mostró relaciones cromosómicas 1:4 todavía presentes en la mayoría de los cromosomas en los dos genomas de las especies de Polygonaceae. Para el análisis profundo de la sintenia intergenómica, dado que los genomas de la remolacha y la espinaca sufrieron eventos complejos de reordenamiento cromosómico41,42, seleccionamos Cercidiphyllum japonicum y Vitis vinifera como nuestros genomas de referencia porque ambas especies tienen solo una poliploidización en su historia (el evento γ) y pocas reordenamientos posteriores43. Y también obtuvimos proporciones de profundidad de sintenia de 4:1 entre las especies de Polygonaceae y C. japonicum, V. vinifera. Ambos resultados sugirieron que los dos eventos recientes de poliploidización redonda fueron ambos WGD (Fig. 2d y Figs. Suplementarias 5 y 6). Además, para examinar si estos dos WGD eran compartidos por las dos especies de Polygonaceae o no, realizamos los dos enfoques siguientes. Primero, se extrajeron los genes colineales que mostraban un patrón 4:4 o 4:3 (permite perder una copia después de WGD) entre R. tanguticum y F. tataricum para construir los árboles de genes de cada grupo de genes colineales, luego se utilizó el software Astral. se utilizó para generar una topología filogenética de consenso y la puntuación del cuarteto se calculó adicionalmente para cada nodo interno (Figura complementaria 8). Y los resultados mostraron que las dos especies compartían más del 84% (144 de 171) de los árboles genéticos que respaldaban los dos eventos del WGD. En segundo lugar, también se realizaron análisis de diagramas de puntos entre estas dos especies y el resultado mostró que, para cada región cromosómica en una especie, hay una región colineal más cercana (valores Ks más bajos) y otras tres regiones colineales copiadas en la otra especie. , que también sugirió que compartieron todos los eventos del WGD (Figura complementaria 9). Nuestros resultados fueron diferentes de los genomas de Fagopyrum publicados44,45 que solo detectaron un evento WGD reciente basándose únicamente en el resultado de la distribución de Ks, lo que también sugirió que se deben aplicar múltiples métodos para revelar la evolución actuarial del genoma43.

El tamaño del genoma también juega un papel importante en la configuración de la evolución de un organismo46,47,48 y varía mucho entre las plantas con flores y se ve afectado por presiones selectivas impuestas por las condiciones ambientales. Por ejemplo, los bajos niveles de CO2 atmosférico, la disponibilidad de agua y/o la disponibilidad de nutrientes (N y/o P) favorecen tamaños de genoma pequeños48. Descubrimos que R. tanguticum tiene un genoma sustancialmente más grande que el trigo sarraceno de Tartaria, y su tamaño es aproximadamente 6 veces mayor (2,76 frente a 0,49 Gb). Dado que estas dos especies tienen historias idénticas de WGD, nos centramos principalmente en las diferencias entre las dos especies en la abundancia de elementos transponibles (TE), que generalmente desempeñan un papel importante en la variación del tamaño del genoma entre organismos46,49. En total, identificamos 2,41 Gb de TE en R. tanguticum, que comprende el 87,13% de la secuencia total del genoma (Tabla complementaria 13 y Figura complementaria 8). Los elementos repetidos terminales largos (LTR) fueron el tipo más abundante de TE y representaron el 94,47% del total de secuencias de TE en R. tanguticum (Tabla complementaria 13). Los elementos Copia y Gypsy fueron las dos familias de LTR más comúnmente observadas y ocuparon 0,60 Gb y 1,39 Gb en el genoma de R. tanguticum, respectivamente. Ambos tipos de TE fueron mucho más abundantes en R. tanguticum que en el trigo sarraceno de Tartaria (Figura 10 complementaria) y sustancialmente más altos que en otros genomas de plantas46. Por lo tanto, la acumulación sustancial de TE, especialmente retrotransposones LTR/Gypsy, contribuye en gran medida a una mayor diferencia en el tamaño del genoma entre estas dos especies.

La inserción y eliminación de TE implican procesos dinámicos que están influenciados por varios factores, incluida la selección natural y la actividad inherente de TE49,50,51. Analizamos la acumulación de LTR de longitud completa y descubrimos que se insertaron principalmente después de la divergencia de las dos especies (Fig. 2a y Fig. 10 complementaria). Tanto las familias Copia como Gypsy explotaron ~ 4 millones de años en R. tanguticum (Figura complementaria 10), y la acumulación de TE en el trigo sarraceno de Tartaria fue extremadamente débil en comparación con R. tanguticum (Figura complementaria 10). La recombinación desigual (UR) es otro mecanismo importante de eliminación de LTR-RT en plantas50; la UR entre LTR conduce a la eliminación de secuencias intermedias y a la formación de LTR individuales. Por lo tanto, investigamos más a fondo las tasas relativas de UR asociada a LTR-RT como la eficiencia de la eliminación de TE midiendo la abundancia de restos de LTR solo dentro de los genomas de R. tanguticum y trigo sarraceno Tartario. Estos se generaron mediante eventos de recombinación homóloga (HR) desigual entre LTR intactas y pueden usarse como evidencia de un mecanismo de eliminación de ADN inherentemente eficiente. La proporción de LTR individuales a LTR intactas fue considerablemente menor en R. tanguticum (es decir, 3,81; 98.465 LTR individuales: 25.792 LTR intactas) en comparación con el trigo sarraceno de Tartaria (5,09; 5444: 1069). Por lo tanto, la mayor frecuencia de LTR individuales en el trigo sarraceno de Tartaria también puede haber contribuido a la reducción del genoma del trigo sarraceno de Tartaria. En conjunto, la combinación de la actividad de inserción reciente y la baja eficiencia de la eliminación de LTR en R. tanguticum dieron forma y mantuvieron el gran tamaño de su genoma desde el último evento WGD.

Uno de los principales objetivos de este estudio fue analizar los posibles mecanismos moleculares que contribuyen a la biosíntesis de antraquinonas e identificar genes candidatos en R. tanguticum. Aquí, medimos las distribuciones in vivo de antraquinonas utilizando metabolómica dirigida. Medimos las concentraciones de cinco derivados principales de antraquinona (aloeemodina, reína, crisofanol, fiscion y emodina) en ocho tejidos diferentes, incluyendo raíz, hoja tierna, hoja joven, hoja madura, vena de la hoja, tallo, ápice del tallo y fruto. utilizando tecnología de cromatografía líquida de alta resolución (Fig. 3a, b). El dendrograma de la muestra y el mapa de calor de rasgos sugieren una alta repetibilidad entre tres réplicas biológicas independientes, y nuestros resultados indican que estos cinco metabolitos se sintetizaron y acumularon principalmente en las raíces, seguidos por el ápice del tallo, la fruta y luego las hojas en diferentes etapas de crecimiento, lo que produjo niveles similares de acumulación de antraquinona. Sin embargo, las venas de las hojas y los tallos tenían las cantidades más bajas de antraquinonas (Fig. 3a, b). Las distribuciones in vivo de antraquinonas variaron en cada tejido, pero fueron similares en diferentes etapas de desarrollo de las hojas, y estos resultados son consistentes con la noción de que el tejido de la raíz de ruibarbo sirve como una fuente importante de derivados de metabolitos bioactivos.

a Concentraciones medias de cinco antraquinonas en ocho tejidos diferentes de R. tanguticum (n = 3 muestras biológicamente independientes). b El dendrograma de muestra y el mapa de calor de rasgos indicaron la similitud de los patrones de acumulación de antraquinona entre ocho tejidos. c La matriz de similitud de la muestra como reflejo de la expresión génica en todo el transcriptoma.

En la raíz, el contenido total de antraquinonas (es decir, el contenido total de los cinco principales derivados de antraquinona detectados en este estudio) (~27 mg g-1) fue ~2,5 veces mayor que el del ápice del tallo (~11 mg g-1). −1) y ~34 veces mayor que en la vena de la hoja (0,8 mg g−1). Aunque el contenido total de antraquinonas en el ápice del tallo es similar al de la raíz, se debe principalmente al alto contenido de emodina en el ápice del tallo, ya que las concentraciones de los otros cuatro metabolitos se mantuvieron bajas en los demás tejidos. Las otras cuatro antraquinonas mostraron una acumulación significativamente mayor en las raíces y fueron de 2 a 3 órdenes de magnitud más altas que los otros tejidos, especialmente para rhein y physcion. La concentración de estas dos antraquinonas fue de ~8 mg g-1 en las raíces, pero solo promedió 0,002 mg g-1 en los otros siete tejidos. La concentración de aloeemodina fue significativamente menor que la de las otras cuatro antroquinonas en cada tipo de tejido (promedio ≤0,06 mg g-1). Estos resultados revelaron que las antraquinonas se sintetizaban principalmente en las raíces, lo que concuerda con informes anteriores52,53. Estudios anteriores sobre el ruibarbo sólo se han centrado en sus raíces. Aquí, nuestro estudio fue el primero en recolectar casi todos los tipos de tejido del ruibarbo y encontró una acumulación abundante de aloeemodina en la fruta, y es similar a los niveles en las raíces. También encontramos que el contenido de emodina en el ápice del tallo era 2 veces mayor que en la raíz. En conjunto, estos resultados permiten la extracción de componentes específicos de compuestos medicinales, que deberían usarse en el desarrollo futuro de fármacos.

Para descubrir los genes clave involucrados en la producción de antraquinonas, realizamos un análisis del transcriptoma para perfilar los patrones de expresión de los genes en nuestros ocho tejidos de ruibarbo (Fig. 3c, n = 3 réplicas biológicas). Obtuvimos aproximadamente 7 Gb de datos limpios para cada muestra, y más del 93% de las lecturas promedio se alinearon de manera única con el genoma de R. tanguticum (Tabla complementaria 14). En total, se detectaron 21.206 genes entre estos tejidos con niveles de expresión de fragmentos por kilobase de transcripción por millón de fragmentos mapeados (FPKM) ≥1 en al menos una muestra. Descubrimos que las muestras del mismo tejido o de las primeras etapas de desarrollo estaban estrechamente agrupadas y mostraban una fuerte correlación (Fig. 3c).

Con base en nuestro contenido de antraquinona de los ocho tejidos, calculamos su expresión diferencial (DEG) realizando un análisis comparativo del transcriptoma entre raíces y tejidos aéreos en función de su ensamblaje genómico y la información de anotación genética. El análisis de expresión diferencial reveló que había 11.153 genes significativamente regulados positivamente y 13.871 genes significativamente regulados negativamente (tasa de descubrimiento falso [FDR] <0,05) en las raíces en relación con otros tejidos (Figura complementaria 11). Entre estos DEG, había 821 genes regulados positivamente y 1354 regulados negativamente compartidos por todos los tejidos. Para predecir las funciones funcionales de los DEG, realizamos análisis de enriquecimiento GO y KEGG para cada gen que se expresaba preferentemente en la raíz de ruibarbo. Los términos GO relacionados con el desarrollo de la raíz, como la histogénesis del procambium y el desarrollo del tejido del meristemo primario, se enriquecieron significativamente (P ajustado <0,05). Además, se enriquecieron los términos GO que incluían la biosíntesis de flavonoides, que están altamente asociados con el valor medicinal del ruibarbo (Figura complementaria 12).

Estos DEG se utilizaron además para identificar genes candidatos involucrados en la biosíntesis de antraquinona mediante un análisis de red de coexpresión de genes ponderados (WGCNA). Dado que la biosíntesis de antraquinonas ocurre principalmente en los tejidos de las raíces, se construyeron módulos de coexpresión utilizando los valores de expresión de DEG en las raíces. Se utilizó un total de 21,206 DEG en el análisis WGCNA y se agruparon en 17 módulos (Fig. 4a y Figs. complementarias 13-15). El análisis de la relación módulo-rasgo reveló que el módulo "turquesa" contenía 3759 genes que estaban altamente correlacionados con el contenido total de antraquinona (r = 0,78, valor de p = 8 × 10-6) (Fig. 4b y Figs. complementarias 13-15). Además, la mayoría de los genes en el módulo "azul" estaban significativamente regulados positivamente en la raíz. Los módulos "verde" y "púrpura" contenían un total de 1530 y 787 genes, respectivamente, y mostraron correlaciones moderadas con el contenido de aloeemodina y crisofanol (Fig. 4b y Figs. complementarias 13-15).

un dendrograma de agrupamiento muestra los módulos de coexpresión reconocidos por WGCNA. Diferentes colores indican diferentes módulos. La distancia longitudinal indica la distancia entre genes, mientras que la distancia horizontal no tiene sentido. b Los colores de la izquierda representan los 18 módulos de la red de coexpresión genética. Para cada módulo, el mapa de calor muestra las correlaciones del gen propio (ME) del módulo con los rasgos (contenido de cinco antraquinonas y contenido total de ellas). Los números en cada celda indican los coeficientes de correlación y el valor P asintótico de Student (paréntesis) para relaciones significativas entre rasgos ME. La barra de escala, a la derecha, indica el rango de posibles correlaciones desde positiva (rojo, 1) hasta negativa (azul, –1). c Árbol filogenético y patrón de expresión de genes CHS de R. tanguticum. Los rectángulos redondeados azules y rojos al lado del árbol filogenético indican clasificaciones de genes CHS y similares a CHS, respectivamente. En el mapa de calor se muestran los perfiles de expresión de los genes de la familia CHS en diferentes tejidos. Los tamaños y colores de los puntos representan los diferentes niveles de expresión, como se ilustra en la leyenda. Los rectángulos en el lado derecho y los números dentro de ellos indican el color del módulo de cada gen y su asociación dentro de su módulo de coexpresión, respectivamente.

Sin embargo, la mayoría de los genes en los otros módulos estaban significativamente regulados positivamente en la raíz, el fruto o la hoja tierna. También se realizaron análisis de enriquecimiento para conjuntos de genes de estos módulos, pero no se enriquecieron términos relacionados. Debido a que la biosíntesis de antraquinonas en la vía de los policétidos vegetales se desconoce en gran medida, no estaban disponibles en las bases de datos GO o KEGG. Sin embargo, las PKS de tipo III, como las chalcona sintasas (CHS), participan en la biosíntesis de metabolitos vegetales especializados, en particular flavonoides, estilbenos y polifenoles aromáticos derivados de la vía del acetato. En el genoma de R. tanguticum, se identificaron un total de 28 genes CHS, que contenían 20 genes CHS y ocho genes CHS-L. De estos, 26 genes CHS con FPKM ≥1 en al menos una muestra de transcriptoma (Fig. 4c). Además, el gen RtaG0007463.1 mostró la expresión más alta en las raíces y se agrupó en el módulo "azul", donde sirvió como gen central (|kME| >0,97) dentro de él. Estos resultados indican que este gen CHS tenía una alta conectividad en el módulo "turquesa" y, por lo tanto, se esperaba que desempeñara un papel importante en la biosíntesis de antraquinonas (Fig. 4c).

Dado que los TF desempeñan funciones importantes en la regulación de los procesos biológicos básicos, analizamos los genes de TF que se expresaron específicamente en las raíces para determinar si funcionan en la regulación del desarrollo de las raíces en R. tanguticum. De hecho, varios factores de transcripción (TF) importantes relacionados con la regulación de los genes CHS y la biosíntesis de metabolitos secundarios se agruparon en el módulo "turquesa". Incluyeron siete genes bHLH, que participan en el desarrollo del pelo radicular y son importantes reguladores de la biosíntesis de metabolitos. También se encontraron un total de 12 MYB agrupados en el módulo "turquesa", que también son importantes reguladores de la biosíntesis de metabolitos, y dos eran genes centrales. Todos estos factores de transcripción interactuaron con el gen CHS, RtaG0007463.1. Además, también hay dos genes CHS agrupados en el módulo "púrpura" que son genes candidatos potenciales implicados en la biosíntesis de antraquinonas. En conjunto, estos resultados proporcionan una base para análisis funcionales adicionales de genes que contribuyen a la formación de la arquitectura radicular y la producción de derivados de metabolitos bioactivos en las raíces de ruibarbo.

Como se mencionó anteriormente, la cadena policétida lineal se generó después de sucesivas condensaciones descarboxilativas de ocho moléculas de malonil-CoA mediante enzimas CHS, que además sufre una serie de modificaciones (ciclación, hidrólisis y descarboxilación) para producir la unidad central del andamio de antraquinona y la Componentes oficiales finales. Sin embargo, aún se desconoce en gran medida cómo se sintetizan los precursores de antraquinona en las plantas y aún no se ha estudiado la modificación posterior de los precursores de antraquinona. Por lo tanto, analizamos el genoma de R. tanguticum para identificar preliminarmente familias de genes candidatos para la adaptación de la síntesis de antraquinonas.

La familia de genes vegetales CYP450 se define típicamente como una monooxigenasa y desempeña funciones críticas en las vías de biosíntesis de metabolitos secundarios, pero catalizan reacciones extremadamente diversas y tienen identidades de secuencia compartidas relativamente bajas54. Aquí, analizamos las familias de genes CYP450 de R. tanguticum e identificamos 248 genes CYP450 utilizando el modelo HMM informado (PF00067). Juntos, estos genes se dividieron en dos clases: tipo A y no tipo A (Fig. 5). Los CYP450 de tipo A incluían solo los genes CYP71 y constaban de 20 familias de 153 genes (Fig. 5a), mientras que los CYP450 que no eran de tipo A contenían 12 clanes que estaban compuestos por 27 familias y 95 genes (Fig. 5b). Los análisis de expresión indicaron que 172 genes CYP450 se expresaron con un FPKM promedio ≥1. Entre estos genes CYP450 expresados, 61 genes exhibieron niveles de expresión significativamente más altos en la raíz que en los otros tejidos (FDR <0,01) (Fig. 5c), mientras que hubo 83 CYP significativamente regulados negativamente. Curiosamente, estos DEG incluían 29 y 28 genes agrupados en módulos de coexpresión "turquesa" y "verde", respectivamente, y ambos mostraron patrones de expresión con altas correlaciones con el contenido total de antraquinonas. Por ejemplo, los cuatro miembros del módulo "turquesa", RtaG0030644.1, RtaG0014375.1, RtaG0014376.1 y RtaG0026174.1 actuaron como genes centrales para este módulo y se expresaron altamente en las raíces (Fig. 5c y Tabla complementaria 15). Además, estos genes centrales también residían en familias que se expandieron significativamente en el genoma de R. tanguticum (Fig. 5a, b). Sin embargo, otros DEG de la familia CYP450 se consideraron genes candidatos que no pudieron analizarse y deben estudiarse más a fondo en el futuro. En última instancia, descubrimos que había una mayor cantidad de genes que pueden codificar enzimas clave responsables de adaptar la síntesis de antraquinonas, lo que se combinó con una mayor transcripción en las raíces que acumularon abundantes derivados de antraquinonas. Sin embargo, estos procesos complican sus funciones en la vía de biosíntesis del índigo.

a Análisis filogenético de familias CYP450 tipo A (izquierda) y no tipo A (derecha). Las ramas roja y azul indican las secuencias de R. tanguticum y Arabidopsis thaliana, respectivamente. El color de fondo rojo de cada ID de gen también indica secuencias de R. tanguticum. El rectángulo redondo al lado de cada ID de gen representa el color del módulo del gen del análisis WGCNA. El círculo más externo indica la familia de genes CYP450. El círculo más externo del árbol filogénico CYP450 que no es de tipo A indica el clan familiar del gen CYP450. b El patrón de expresión de todos los miembros de CYP450 tipo A. La barra de color indica el rango de niveles de expresión de los genes. Los colores de los rectángulos redondeados representan los diferentes niveles de expresión como lo ilustra la leyenda. c Árbol filogenético de BGL basado en las alineaciones de secuencias de proteínas de R. tanguticum y Arabidopsis. d Análisis de expresión de genes BGL en ocho tejidos diferentes. Los tamaños y colores de los puntos representan los diferentes niveles de expresión como se ilustra en la leyenda.

Las β-glucosidasas (BGL), que pertenecen a la familia glucósido hidrolasa 1 (GH1), participan en gran medida en diversas respuestas de desarrollo y estrés en las plantas55,56,57,58. Aquí, identificamos sistemáticamente los BGL en el genoma de R. tanguticum. En total, se descubrió que 27 genes codificaban supuestos genes BGL (Fig. 5c), y el análisis filogenético de los BGL de R. tanguticum y A. thaliana mostró 10 subgrupos distintos, a saber, los de BGL-a a BGL-j (Fig. .5c). Sin embargo, no se detectaron miembros de R. tanguticum en los subgrupos cf. El análisis de la familia de genes también reveló que los miembros de BGL-b experimentaron una expansión significativa y se pensaba que estaban involucrados en la utilización de flavonoides55. El análisis de expresión mostró que 20 miembros de BGL se expresaron con un FPKM promedio ≥1 (Fig. 5d). Entre estos genes expresados, dos miembros, RtaG0022724.1 y RtaG0009186.1, se expresaron significativamente más alto en la raíz que los otros tejidos y se agruparon en el módulo de coexpresión "turquesa", lo que puede indicar una participación en la biosíntesis de antraquinonas u otros. metabolitos secundarios (Fig. 5d). Estos genes podrían tratarse como genes candidatos clave para futuros experimentos funcionales.

Para caracterizar la evolución del genoma del ruibarbo e identificar genes candidatos para la biosíntesis de antraquinonas, generamos un ensamblaje a escala cromosómica de alta calidad de una especie clave de ruibarbo medicinal, R. tanguticum, y es el primer recurso genómico del ruibarbo. La expansión de la familia de genes impulsada por TD y PD puede haber acelerado la evolución de varias vías de biosíntesis de metabolitos secundarios que también pueden estar relacionadas con la respuesta al estrés de esta planta. De manera similar a los genes dispuestos en tándem en el arroz, los genomas de Arabidopsis y Miscanthus lutarioriparius se enriquecieron en la función de "estrés biótico y abiótico", que retuvo los genes duplicados como una estrategia conservadora para adaptarse a sus entornos. Sin embargo, esto también hace que el ruibarbo sea más valioso con fines medicinales. Nuestro análisis de la evolución del genoma reveló evidencia de dos eventos de WGD que compartían el linaje de Polygonaceae. También encontramos una explosión específica de LTR junto con la dinámica del genoma asociada con una baja frecuencia de eliminación de LTR, lo que condujo a un aumento del tamaño del genoma de R. tanguticum.

Uno de nuestros principales objetivos fue analizar los posibles mecanismos moleculares que subyacen a la biosíntesis de antraquinona e identificar genes específicos involucrados en estos procesos en R. tanguticum. Por lo tanto, combinamos una gran cantidad de datos transcriptómicos y metabólicos que proporcionan la base para los recursos genómicos del ruibarbo. Con base en nuestros datos multiómicos, hemos identificado genes candidatos para la biosíntesis de antraquinonas a través de una vía de policétidos de las familias de genes CHS, CYP450 y BGL. Juntos, nuestros recursos y resultados facilitarán la caracterización de las vías metabólicas, así como el mejoramiento molecular, de esta importante planta medicinal. A diferencia de los flavonoides, terpenoides, estilbenos u otros metabolitos secundarios cuyas vías de biosíntesis se han dilucidado con éxito, las vías biosintéticas de las antraquinonas son en gran medida desconocidas. Juntos, estos genes candidatos sientan las bases para futuros experimentos in vivo que deben investigar más a fondo las vías de biosíntesis de la antraquinona.

Se tomaron muestras de tejido foliar fresco de un individuo silvestre maduro de R. tanguticum que crecía en el depósito de germoplasma vegetal de la Universidad de Lanzhou, provincia de Gansu, China (35°56′30.59″ N, 104°9′16.51″ E, 1747 m) e inmediatamente almacenado en nitrógeno líquido antes de ser enviado a Grandomics (Wuhan, China) para su secuenciación genómica. Se preparó ADN genómico de alto peso molecular utilizando el método CTAB y luego se purificó con un kit de ADN genómico QIAGEN® (n.º de catálogo 13343, QIAGEN). Para obtener lecturas cortas de Illumina, se construyeron y secuenciaron bibliotecas de ADN con inserciones de 500 pb utilizando una plataforma Illumina HiSeq 4000. Además, se preparó ADN de alto peso molecular y se construyeron y secuenciaron bibliotecas genómicas con inserciones de 20 kb utilizando un instrumento PromethION (ONT). Las lecturas sin procesar se filtraron utilizando criterios estándar (es decir, presencia de secuencias adaptadoras, bases de baja calidad y "mean_qscore <7"). La secuenciación Hi-C (captura de conformación cromosómica de alto rendimiento) se realizó de la siguiente manera: el ADN muestreado se entrecruzó con formaldehído al 1% para capturar segmentos de ADN que interactúan, la cromatina se digirió con la enzima de restricción DpnII y las bibliotecas se construyeron y secuenciaron utilizando el Plataforma Illumina HiSeq 4000.

Antes de estimar el tamaño del genoma, se filtraron lecturas cortas de Illumina utilizando fastp (v.0.20.0)59 con parámetros predeterminados. Luego, Jellyfish (v.2.2.10)60 utilizó lecturas limpias para generar frecuencias K-mer (21 pb), y el histograma resultante se exportó a GenomeScope (v.1.0.0)61. Nextdenovo (v.2.1) (https://github.com/Nextomics/Nextdenovo) se utilizó para la corrección y el ensamblaje de novo de lecturas ONT con parámetros “read_cutoff = 8k, seed_cutoff = 12k, blocksize=8 g, random_round = 100” . Los contigs preliminares de R. tanguticum se pulieron aún más alineando las lecturas cortas de Illumina con los contigs utilizando Nextpolish (v.1.1)62 en tres rondas. También se aplicó Purge Haplotigs63 para eliminar haplotigs redundantes en el genoma de R. tanguticum con el parámetro "-a 70". La calidad del ensamblaje se evaluó exhaustivamente mediante el uso de cuatro métodos: (i) el mapeo de las lecturas de extremos emparejados de Illumina a nuestro ensamblaje final muestra una alta integridad del genoma cuando se obtienen altas tasas de mapeo; (ii) se utilizó BUSCO (v.5.2.1)64 con la base de datos embriphyta_odb10 y un alto porcentaje de BUSCO completos también indica una alta integridad del genoma; (iii) el valor de calidad de consenso (puntuación QV) evaluado utilizando Merqury65 indica altas precisiones de base del genoma con una puntuación QV alta; (iv) el LAI evaluado utilizando LTR_retriver66 sirve como estándar de oro para la evaluación comparativa del genoma cuando LAI> 20. Los datos limpios de Hi-C se asignaron a secuencias contig mediante BWA-MEM (0.7.10-r789)67 y se extrajeron pares de interacción válidos. Sobre la base de esas interacciones de cromatina, se empleó 3D-DNA (v.180922)68 para agrupar, ordenar y orientar automáticamente los cóntigos en pseudocromosomas. Se utilizó Juicebox69 para visualizar las interacciones de la cromatina entre los pseudocromosomas ensamblados, y luego corregimos y validamos manualmente los errores obvios de ensamblaje de Hi-C para generar el ensamblaje cromosómico final.

Se utilizaron RepeatMasker (v.4.1.0)70 y RepeatProteinMasker (v.4.1.0)70 para identificar elementos repetitivos en el genoma de ruibarbo en función de alineamientos de homología entre nuestras secuencias de ensamblaje y Repbase (v.16.10). Luego aplicamos el enfoque de novo en el genoma del ruibarbo para mejorar la sensibilidad de la identificación repetida antes de aplicarlo a nuestro ensamblaje de R. tanguticum. Brevemente, se utilizaron RepeatModeler71 y LTR_Finder (v.1.06)72 para construir una biblioteca de repetición. Luego se empleó RepeatMasker70 para generar predicciones de novo.

Se utilizó una combinación de enfoques basados en transcriptomas, homologías y de novo para predecir con precisión genes codificadores de proteínas de alta calidad. Para predecir genes ab initio, se emplearon Augustus (v.3.2.3) 73, GenScan74 y GlimmerHMM (v.3.0.4) 75 con el conjunto de entrenamiento de Arabidopsis thaliana. Se utilizó GeMoMa76 para la predicción basada en homología, junto con secuencias de proteínas de A. thaliana77, Beta vulgaris41, Fagopyrum tataricum78, Prunus persica79, Vitis vinifera80 y Spinacia oleracea (Tabla complementaria 16)42. Para la predicción basada en transcriptomas, se alinearon conjuntos de transcriptomas de novo con los genomas para resolver estructuras genéticas utilizando PASA. Luego se utilizó EVidenceModeler (EVM, v.1.1.1)81 para generar conjuntos de consenso de modelos genéticos obtenidos de los tres enfoques (enfoques basados en transcriptomas, basados en homología y de novo). Para obtener modelos genéticos altamente confiables, filtramos los genes de un solo exón respaldados únicamente por la predicción basada en el transcriptoma, así como aquellos respaldados únicamente por el proceso ab initio con menos de tres exones. Aunque las regiones repetidas fueron enmascaradas y filtradas durante la anotación genética mediante enfoques de novo, una gran cantidad de genes aún no están anotados debido a la alta complejidad de este genoma. Para mejorar aún más la confiabilidad de nuestros genes anotados, utilizamos TransposonPSI (https://github.com/NBISweden/TransposonPSI) para identificar la secuencia de genes con homología con proteínas codificadas por diversas familias de TE. Además, se utilizó PseudogenePipeline (https://github.com/ShiuLab/PseudogenePipeline) para identificar el pseudogén. Posteriormente, los pseudogenes y el gen relacionado con TE con FPKM <1 en los datos transcriptómicos se excluyeron de nuestro conjunto de genes anotados. Para los genes codificadores de proteínas finales, funcionalmente anotados, se ejecutaron utilizando búsquedas BLASTP (v.2.7.1+) 82 (valor E <1 × 10-5) en las bases de datos SwissProt y TrEMBL. Luego se utilizó InterProScan (v.5.28) 83 para anotar dominios de proteínas mediante la búsqueda en las bases de datos de InterPro. Los términos GO para cada gen se obtuvieron a partir de los resultados correspondientes de InterProScan. Las vías en las que cada gen podría estar involucrado se asignaron mediante búsquedas BLAST en la base de datos KEGG84. Los factores de transcripción en el genoma del ruibarbo se detectaron utilizando iTAK85. Los ncRNA se anotaron utilizando cmscan de INFERNAL (v1.1.2) (//eddylab.org/infernal).

Para investigar las trayectorias evolutivas de R. tanguticum, seleccionamos otras 14 especies para análisis filogenético (Tabla complementaria 16): Arabidopsis thaliana77, Beta vulgaris41, Camellia sinensis86, Fragaria vesca87, Fagopyrum tataricum44, Helianthus annuus88, Oryza sativa89, Prunus persica79, Simmondsia chinensis90 , Solanum lycopersicum91, Spinacia oleracea42, Solanum tuberosum92, Vitis vinifera80 y Zea mays93. Para obtener el conjunto de genes ortólogos, inicialmente se empleó una búsqueda BLASTP82 todos contra todos (valor de corte E: 1 × 10-5) para generar información de similitud para los genes. Luego identificamos genes de copia única de alta calidad aplicando OrthoMCL (v. 2.0.9-4)94 y construimos un árbol de concatenación y grupos de árboles de genes usando IQ-TREE (v. 2.0.3-h176a8bc_0, con "-m MFP –bb 1000” configuración)95. Además, estimamos los tiempos de divergencia entre especies con MCMCtree (v.4.8) del paquete PAML (v.4.8)96. Los tiempos de divergencia entre A. thaliana y V. vinifera (115–130 millones de años) y B. vulgaris y S. oleracea (22–30 millones de años) se adquirieron de TimeTree (http://www.timetree.org/) y se utilizaron como calibración. puntos. CAFÉ (v.4.2)97 estimó además las expansiones y contracciones de la familia de genes utilizando la información del grupo de genes y el árbol de tiempo estimado. El parámetro λ se estimó a lo largo de cada rama con el modelo aleatorio y las familias de genes se clasificaron en cuatro tipos: expandidas, contraídas, únicas o sin cambios.

Para revelar la historia de WGD de R. tanguticum, se realizaron distribuciones de Ks, análisis de diagramas de puntos y análisis filogenéticos de genes sinténicos, consulte los métodos de procedimientos anteriores publicados para los genomas de Chloranthus y Ceratophyllum98,99. Para los análisis de WGD se utilizaron dos especies de Polygonaceae (Rheum tanguticum y Fagopyrum tataricum), junto con Spinacia oleracea, Vitis vinifera y Cercidiphyllum japonicum. Para determinar si el ruibarbo y otras especies relacionadas sufrieron algún evento de WGD, primero trazamos las distribuciones de Ks, razonando que si ocurriera un WGD reciente en cualquier especie, esperaríamos que el pico de distribución de Ks reflejara esto como un pico de Ks obvio. Por lo tanto, utilizamos WGDI (v.0.5.3)100 para identificar bloques de síntesis y genes colineales con "-icl" dentro de cada especie y entre especies de Polygonaceae. El número de sustituciones sinónimas por sitio sinónimo (Ks) entre genes colineales también se estimó mediante "-ks" en WGDI, y se seleccionó un valor medio de Ks para representar cada bloque sinténico, y WGDI también realizó un ajuste de picos de Ks con "-pf" . En segundo lugar, se utilizaron diagramas de puntos de genes colineales y bloques de sintenia para obtener proporciones sinténicas entre las especies para confirmar el nivel de poliploidía de cada especie. Además, los genes colineales se extrajeron y utilizaron para construir los árboles de genes mediante WGDI con "-a" y "-at" para examinar si los eventos de WGD se compartieron entre especies o no.

La actividad dinámica de LTR contribuye a la gran diversidad del tamaño y la arquitectura del genoma entre las plantas44,45,47. Por ejemplo, la expansión de las LTR durante el último millón de años conducirá al aumento del tamaño de un genoma, mientras que las LTR-RT de longitud completa con un par de repeticiones directas idénticas (LTR pareadas) favorecen la eliminación del ADN a través de eventos UR que conducen a la reducción del tamaño de un genoma. el genoma. La eliminación frecuente de ADN mediada por HR puede dar como resultado una gran abundancia de restos de LTR individuales en un genoma, lo que puede usarse como evidencia para demostrar la existencia de un mecanismo de eliminación de ADN inherentemente eficiente. Por lo tanto, para determinar el efecto de la dinámica de LTR en la estructura del genoma, estimamos los tiempos de inserción de TE e identificamos el solo-LTR con el genoma de R. tanguticum. Si el genoma de R. tanguticum ha sufrido una explosión reciente de LTR y mostró una eliminación ineficiente de LTR, esto sugeriría que la actividad dinámica de LTR contribuye a su gran tamaño del genoma y su alta proporción de repeticiones, y viceversa.

Para la estimación de los tiempos de inserción de TE, solo se utilizaron secuencias LTR identificadas con una 5′-LTR y una 3′-LTR completas, ya que la 5′-LTR suele ser idéntica a la 3′-LTR cuando se inserta un retrotransposón. Las secuencias flanqueantes 5′-LTR y las secuencias flanqueantes 3′-LTR se alinearon usando MUSCLE (v.3.8.31)101 con parámetros predeterminados, y las distancias evolutivas de las secuencias alineadas se calcularon usando disMat (EMBOSS: v.6.6.0.0, con parámetros -nucmethod 2)102. Los tiempos de inserción se calcularon utilizando la fórmula T = K/2r, donde K representa la divergencia entre LTR y r representa la tasa de mutación de R. tanguticum de 2,5 × 10−9 por base por año.

Utilizamos la definición y detección de LTR individuales y LTR intactas de procedimientos anteriores publicados para el genoma de Welwitschia. Los LTR-RT iniciales detectados por LTR-FINDER se compararon con la base de datos RefSeq “Cores Seq” en Gypsy Database v2.0 usando blastall (v.2.2.26, con parámetros -m 8 -a 4 -F -v 500 -b 250 - mi 1e−5)82. Cada explosión fue vinculada por Solar (versión 0.9.6). Las alineaciones se mantuvieron cuando tanto la cobertura como la identidad eran >30%. Las LTR-RT con alineaciones con los dominios "GAG" (proteína de la cápside), "AP" (proteasa aspártica), "INT" (integrasa), "RT" y "RH" (RNasaH) se consideraron LTR-RT intactas. Utilizando las secuencias LTR (5'LTR o 3'LTR) de LTR-RT intactas, se realizó una búsqueda BLAST de nucleótidos en el genoma para encontrar posibles LTR individuales. Los falsos LTR en solitario se filtraron aún más siguiendo estos criterios: (a) LTR que se superponían con LTR-RT truncados; (b) LTR ubicadas dentro de 5 kb del borde del andamio; (c) LTR con cobertura <0,7 y límite de identidad <0,7; (d) LTR identificadas dentro de 500 pb a cada lado de una secuencia de espacio en los ensamblajes. Para detectar LTR-RT truncadas, todas las secuencias LTR-RT informadas por LTR-FINDER (v.1.07) se compararon con sus genomas, y se consideró que las alineaciones con >80 % de cobertura y >60 % de identidad correspondían a la presencia de LTR truncadas. -RT.

Para ayudar en las predicciones genéticas y analizar la base molecular que subyace a la biosíntesis de antraquinona en R. tanguticum, realizamos la secuenciación del transcriptoma de ocho tejidos diferentes, incluidos raíces, hojas tiernas, hojas jóvenes, hojas maduras, venas de las hojas, tallos, ápices de los tallos y frutos. Se utilizaron tres réplicas biológicas para cada muestra. BGI-Shenzhen Company (Wuhan, China) realizó la extracción total de ARN, la construcción de la biblioteca y la secuenciación utilizando una plataforma MGI2000 con ejecuciones de extremos emparejados de 2 × 150 pb. Después de filtrar lecturas de baja calidad mediante fastp, se asignaron lecturas limpias al ensamblaje del genoma de R. tanguticum utilizando HISAT2 (v.2.2.1)103. Se utilizó StringTie (v.2.1.2)104 para predecir nuevas transcripciones, que se combinaron con anotaciones genéticas para obtener un conjunto de transcriptomas final. Se utilizó DEseq2 (v.1.22.2)105 para identificar DEG, definidos como aquellos con |log2(cambio veces)| >1 y puntuación de significancia FDR (Padj) <0,05. Los DEG se sometieron a análisis de enriquecimiento KEGG y GO utilizando clusterProfiler106. Las redes de coexpresión genética se construyeron utilizando el paquete WGCNA107 en el software R. Los DEG principales se dividieron en tres módulos utilizando WGCNA y se calcularon las correlaciones de cada módulo con el contenido de antraquinona. Las asociaciones módulo-rasgo se estimaron utilizando la correlación entre el gen propio del módulo y los tratamientos raíz/control. Se construyó una red firmada en WGCNA con configuraciones de parámetros específicas de potencia = 9, tipo de red = "firmado", TOMType = "sin firmar" y minModuleSize = 200.

Recolectamos tejidos frescos de las raíces, hojas tiernas, hojas jóvenes, hojas maduras, venas de las hojas, tallos, ápices de los tallos y frutos, y determinamos las concentraciones de aloeemodina, rhein, crisofanol, fiscion y emodina en R. tanguticum. Brevemente, estos tejidos se congelaron inmediatamente en nitrógeno líquido y los metabolitos se extrajeron de aproximadamente 0,1 g de material con 1,5 ml de solución de metanol-formato de amonio 2 mM (9:1), seguido de oscilación en vórtice durante 1 min y trituración durante 3 min. A continuación, se realizó una oscilación ultrasónica durante 40 minutos, seguida de agitación durante 30 segundos y luego una incubación de 1 hora a 4 °C. Luego, la solución se centrifugó a 4 °C durante 15 minutos a 12.000 rpm y la capa acuosa se filtró a través de una membrana filtrante de 0,22 µm. Se prepararon tres muestras replicadas para cada tipo de tejido. Las concentraciones de estos cinco compuestos se determinaron mediante un sistema de cromatografía líquida de alta resolución. Se realizaron tres réplicas de cada tejido27.

Los miembros de las familias de genes CHS, CYP450 y BGL probablemente estén involucrados en la producción de antraquinonas24,25,26. Por lo tanto, identificamos a todos los miembros de estas familias de genes a nivel de todo el genoma en R. tanguticum. Para la identificación y clasificación de genes CHS, se utilizó hmmsearch para identificarlos en el genoma de R. tanguticum utilizando PF02797 y PF00195 de la base de datos Pfam. Los genes CHS de Senna tora también se utilizaron como secuencias de consulta en la base de datos de proteínas de R. tanguticum mediante búsquedas BLASTP (valor e de 1e-5, >40% del valor de identidad y >40% de cobertura). Los genes CHS candidatos se clasificaron además por integridad, y los genes CHS con uno o dos dominios fragmentarios se identificaron como genes similares a CHS. Para la identificación y clasificación de los genes CYP450, PF00067 utilizó hmmsearch108 de la base de datos Pfam. También descargamos las secuencias de la proteína Arabidopsis CYP450 del sitio web (http://www.p450.kvl.dk/). Luego, estas proteínas se usaron como secuencias de consulta en la base de datos de proteínas de R. tanguticum usando BLASTP con los mismos parámetros que antes. La clasificación de los genes CYP450 se realizó mediante alineación con la base de datos CYP450 utilizando límites de similitud de secuencia estándar, con estándares definidos de 97%, 55% y 40% para variantes alélicas, subfamiliares y familiares, respectivamente. De acuerdo con la nomenclatura estandarizada de CYP450, los CYP450 se dividieron en CYP450 de tipo A y no A, y se realizó un análisis filogenético de los genes CYP450 para los CYP450 de tipo A y no A. Las secuencias de proteínas de los miembros de BGL se descargaron de TAIR (//www.arabidopsis.org/tools/bulk/sequences/index.jsp). Para identificar a los miembros de la familia BGL, se utilizó PF00232 de la base de datos Pfam para consultar todas las supuestas secuencias de proteínas de R. tanguticum utilizando hmmsearch. Los genes de cada familia de genes se alinearon utilizando MAFFT109 y luego la alineación resultante se entregó a IQ-TREE para construir un árbol filogenético.

El análisis de enriquecimiento funcional se realizó utilizando ClusterProfile. La significación estadística de los términos GO se evaluó utilizando la prueba exacta de Fisher en combinación con la corrección FDR para pruebas múltiples (P <0,05). Todos los experimentos se llevaron a cabo al menos tres veces, de forma independiente, con resultados similares. Todos los valores se presentan como medias ± DE. La significación estadística se basó en pruebas t.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

El archivo de ensamblaje del genoma y los archivos de anotación del genoma (nivel de cóntigo y nivel de cromosoma) están disponibles en Figshare (10.6084/m9.figshare.19663062). Todos los datos genómicos (datos de secuenciación de lecturas cortas, datos de secuenciación de lecturas largas y datos de secuenciación Hi-C) se han depositado en NCBI con el número de acceso de BioProject PRJNA746014. Todos los datos del transcriptoma se han depositado en NGDC con el número de acceso de BioProject PRJCA009275. Los datos fuente detrás de los gráficos de las Figs. 2b, cy 3a están disponibles en Figshare (https://doi.org/10.6084/m9.figshare.19663062) como Datos complementarios 1 a 3, respectivamente. Todos los demás datos están disponibles a través de los autores correspondientes previa solicitud razonable.

Lee, M., Hutcheon, J., Dukan, E. y Milne, I. Ruibarbo (especie Rheum): el papel de Edimburgo en su cultivo y desarrollo. Col. J.R. Médicos Edinb. 47, 102-109 (2017).

Artículo CAS PubMed Google Scholar

Cao, Y.-J. et al. Avances en componentes bioactivos, farmacología y aplicaciones clínicas del ruibarbo. Mentón. Medicina. 12, 36 (2017).

Artículo PubMed PubMed Central Google Scholar

VanMen, C. y col. Clasificación de especies de ruibarbo basada en sustancias químicas mediante la determinación simultánea de cinco sustancias bioactivas mediante análisis HPLC y LDA. Fitoquímica. Anal. 23, 359–364 (2012).

Artículo CAS PubMed Google Scholar

Tan, L., Geng, D., Hu, F. & Dong, Q. Rápida identificación y cuantificación de antioxidantes naturales en las semillas de ruibarbo de diferentes hábitats en China mediante extracción acelerada con solventes y HPLC-DAD-ESI–MS n- Ensayo DPPH. J. Cromatogr. Ciencia. 54, 48–57 (2016).

Jin, W. y col. Desarrollo de huella cromatográfica líquida de alta resolución para el control de calidad de Rheum tanguticum Maxim. ex Balf. J. Cromatogr. A 1132, 320–324 (2006).

Artículo CAS PubMed Google Scholar

Luo, D. y col. Integrar la estrategia de elaboración de perfiles rápidos de constituyentes y el análisis estadístico multivariado para la investigación de ingredientes de hierbas, con el ruibarbo oficial chino y el ruibarbo tibetano como ejemplo. Árabe. J. química. 14, 103269 (2021).

Artículo CAS Google Scholar

Chen, D. & Wang, L. Mecanismos de los efectos terapéuticos del ruibarbo en la sepsis de origen intestinal. Mentón. J. Traumatol. 12, 365–369 (2009).

PubMed Google Académico

Chen, D., Ma, L. y Liu, S. Efectos del ruibarbo sobre la flora intestinal y la translocación bacteriana en ratas con sepsis. Zhongguo Wei Zhong Bing. Ji Jiu Yi Xue 21, 17-20 (2009).

PubMed Google Académico

Chen, J.-Q. et al. Una estrategia metabolómica integrada para revelar la relación dosis-efecto y los mecanismos terapéuticos de diferente eficacia del ruibarbo en ratas con estreñimiento. J. Farmacéutica. Biomédica. Anal. 177, 112837 (2020).

Artículo CAS PubMed Google Scholar

Wang, YU et al. Avances de la investigación sobre la composición química y efectos farmacológicos de Rhei Radix et Rhizoma y análisis predictivos sobre marcadores de calidad. Mentón. Tradición. Hierba. Drogas 50, 4821–4837 (2019).

Xiang, H., Zuo, J., Guo, F. y Dong, D. Lo que ya sabemos sobre el ruibarbo: una revisión exhaustiva. Mentón. Med 15, 88 (2020).

Artículo PubMed PubMed Central Google Scholar

Diaz-Muñoz, G., Miranda, IL, Sartori, SK, de Rezende, DC & Diaz, MAN Capítulo 11 – Antraquinonas: una descripción general. en Estudios de Química de Productos Naturales (ed. Atta-ur-Rahman) 58, 313–338 (Elsevier, 2018).

Neyrinck, AM et al. La mitigación del estreñimiento con extracto de ruibarbo en adultos de mediana edad está relacionada con la modulación del microbioma intestinal: un ensayo doble ciego, aleatorizado y controlado con placebo. En t. J. Mol. Ciencia. 23, 14685 (2022).

Guo, D. Observación clínica de las antraquinonas totales del ruibarbo. Clínico. J. Chin. Medicina. 8, 114-115 (2016).

Google Académico

Dong, X. y col. Emodin: una revisión de su farmacología, toxicidad y farmacocinética. Fitoter. Res. 30, 1207-1218 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Dong, X. y col. Aloe-emodina: una revisión de su farmacología, toxicidad y farmacocinética. Fitoter. Res. 34, 270–281 (2020).

Artículo CAS PubMed Google Scholar

Zhou, Y.-X. et al. Rhein: una revisión de las actividades farmacológicas. Evidente. Complemento basado. Alternativo. Medicina. 2015, 578107 (2015).

Artículo de Google Scholar

XunLi et al. Physcion y physcion 8-O-β-glucopiranósido: una revisión de su farmacología, toxicidades y farmacocinética. Química. Biol. Interactuar. 310, 108722 (2019).

Artículo CAS PubMed Google Scholar

Su, S. y col. Las propiedades farmacológicas del crisofanol, los avances recientes. Biomédica. Farmacóter. 125, 110002 (2020).

Artículo CAS PubMed Google Scholar

Shamim, G., Ranjan, SK, Pandey, DM y Ramani, R. Bioquímica y biosíntesis de pigmentos de insectos. EUR. J. Entomol. 111, 149-164 (2014).

Artículo CAS Google Scholar

Chiang, YM y cols. Caracterización del grupo de genes de monodictifenona de Aspergillus nidulans. Aplica. Reinar. Microbiol. 76, 2067–2074 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Zhou, H., Li, Y. & Tang, Y. Ciclación de policétidos aromáticos de bacterias y hongos. Nat. Pinchar. Rep. 27, 839 (2010).

Artículo CAS PubMed PubMed Central Google Scholar

Malik, EM & Müller, CE Antraquinonas como herramientas farmacológicas y fármacos. Medicina. Res. Rev. 36, 705–748 (2016).

Artículo CAS PubMed Google Scholar

Abdel-Rahman, IAM et al. Formación in vitro de la estructura de antranoides mediante extractos libres de células de cultivos celulares de Cassia bicapsularis tratados con extracto de levadura. Fitoquímica 88, 15-24 (2013).

Artículo CAS PubMed Google Scholar

Foyer, CH & Noctor, G. Ascorbato y glutatión: el corazón del Redox Hub1. Fisiol vegetal. 155, 2-18 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Mizuuchi, Y. et al. Nuevas policétido sintasas tipo III de Aloe arborescens. FEBS J. 276, 2391–2401.

Artículo CAS PubMed Google Scholar

Kang, S.-H. et al. Descubrimiento de la biosíntesis de antraquinonas en Senna tora gracias al genoma. Nat. Comunitario. 11, 5875 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Karppinen, K., Hokkanen, J., Mattila, S., Neubauer, P. y Hohtola, A. La policétido sintasa tipo III productora de octacétida de Hypericum perforatum se expresa en glándulas oscuras que acumulan hipericinas. FEBS J. 275, 4329–4342 (2008).

Artículo CAS PubMed Google Scholar

Abe, I., Oguro, S., Utsumi, Y., Sano, Y. y Noguchi, H. Biosíntesis diseñada de policétidos vegetales: control de la longitud de la cadena en una policétido sintasa tipo III de planta productora de octacétidos. Mermelada. Química. Soc. 127, 12709–12716 (2005).

Artículo CAS PubMed Google Scholar

Pillai, PP & Nair, AR Biosíntesis de hipericina en Hypericum hookerianum Wight y Arn: investigación de vías bioquímicas utilizando inhibidores de metabolitos y supresión de la hibridación sustractiva. CR Biol. 337, 571–580 (2014).

Artículo PubMed Google Scholar

Wuyun, T. y col. El resistente genoma del árbol del caucho proporciona información sobre la evolución de la biosíntesis de poliisopreno. Mol. Planta 11, 429–442 (2018).

Artículo CAS PubMed Google Scholar

Kang, M. y col. Un ensamblaje del genoma a escala cromosómica de Isatis indigotica, una importante planta medicinal utilizada en la medicina tradicional china: un genoma de Isatis. Hortico. Res 7, 18 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Zhang, Y. et al. Ensamblaje y anotación de un borrador del genoma de la planta medicinal Polygonum cuspidatum. Frente. Ciencia vegetal. 10, 1274 (2019).

Artículo PubMed PubMed Central Google Scholar

Hu, Y. et al. Las funciones potenciales de la estructura foliar única para la adaptación de Rheum tanguticum Maxim. ex Balf. en Qinghai-meseta tibetana. Plantas 11, 512 (2022).

Artículo PubMed PubMed Central Google Scholar

Conant, GC y Wolfe, KH Convertir un pasatiempo en un trabajo: cómo los genes duplicados encuentran nuevas funciones. Nat. Rev. Genet. 9, 938–950 (2008).

Artículo CAS PubMed Google Scholar

Bekaert, M., Edger, PP, Pires, JC y Conant, GC La resolución en dos fases de la poliploidía en la red metabólica de Arabidopsis da lugar a restricciones de dosis relativas y absolutas. Célula vegetal 23, 1719-1728 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

Otto, SP Las consecuencias evolutivas de la poliploidía. Celda 131, 452–462 (2007).

Artículo CAS PubMed Google Scholar

Soltis, PS, Marchant, DB, Van de Peer, Y. & Soltis, DE Poliploidía y evolución del genoma en plantas. actual. Opinión. Gineta. Desarrollo. 35, 119-125 (2015).

Artículo CAS PubMed Google Scholar

Jiao, Y. et al. Una triplicación del genoma asociada con la diversificación temprana de las eudicotiledóneas centrales. Genoma Biol. 13, R3 (2012).

Artículo PubMed PubMed Central Google Scholar

Vekemans, D. y col. Paleohexaploidía gamma en el linaje madre de eudicotiledóneas principales: importancia para el gen MADS-box y la diversificación de especies. Mol. Biol. Evolución. 29, 3793–3806 (2012).

Artículo CAS PubMed Google Scholar

Dohm, JC y col. El genoma de la remolacha azucarera (Beta vulgaris) recientemente domesticada. Naturaleza 505, 546–549 (2014).

Artículo CAS PubMed Google Scholar

Xu, C. y col. Proyecto de genoma de espinacas y diversidad transcriptómica de 120 muestras de Spinacia. Nat. Comunitario. 8, 15275 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, Z. y col. Un genoma de Buxus austro-yunnanensis (Buxales) de alta calidad proporciona nuevos conocimientos sobre la evolución del cariotipo en las primeras eudicotiledóneas. BMC Biol. 20, 216 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Zhang, L. y col. El genoma del trigo sarraceno tartar proporciona información sobre la biosíntesis de la rutina y la tolerancia al estrés abiótico. Mol. Planta 10, 1224-1237 (2017).

Artículo CAS PubMed Google Scholar

Él, M. et al. La comparación de los genomas del trigo sarraceno revela la base genética de la divergencia metabolómica y la diferenciación de ecotipos. N. fitol. 235, 1927-1943 (2022).

Artículo CAS Google Scholar

Wang, D. y col. ¿Qué factores contribuyen más a la variación del tamaño del genoma dentro de las angiospermas? Ecológico. Evolución. 11, 2660–2668 (2021).

Artículo PubMed PubMed Central Google Scholar

Blommaert, J. Evolución del tamaño del genoma: hacia nuevos sistemas modelo para viejas preguntas. Proc. R. Soc. B. 287, 20201441 (2020).

Artículo PubMed PubMed Central Google Scholar

Faizullah, L. et al. Explorando la selección ambiental sobre el tamaño del genoma en angiospermas. Tendencias de ciencia vegetal. 26, 1039-1049 (2021).

Artículo CAS PubMed Google Scholar

Zhang, S.-J., Liu, L., Yang, R. y Wang, X. Evolución del tamaño del genoma mediada por retrotransposones gitanos en brassicaceae. Genoma. Proteoma. Bioinformación. 18, 321–332 (2020).

Artículo de Google Scholar

Niu, S. y col. El genoma y el metiloma del pino chino revelan características clave de la evolución de las coníferas. Celda 185, 204–217.e14 (2022).

Artículo CAS PubMed Google Scholar

Wan, T. y col. El genoma de Welwitschia revela una biología única que sustenta la longevidad extrema en los desiertos. Nat. Comunitario. 12, 4247 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Liu, J. y col. Análisis de componentes principales en diferentes partes de Rheum palmatum. Mentón. Tradición. Hierba. Drogas 48, 567–572 (2017).

Chen, Y.-Y. Progreso de la investigación y estrategia de utilización de la química de recursos de Rhei Radix et Rhizoma. Mentón. Tradición. Hierba. Drogas 49, 5170–5178 (2018).

Yu, J. y col. La historia evolutiva y la divergencia funcional de la superfamilia del gen del citocromo P450 entre las especies de Arabidopsis thaliana y Brassica revelan efectos del genoma completo y duplicaciones en tándem. Genoma de BMC. 18, 733 (2017).

Artículo de Google Scholar

Xu, Z. y col. Análisis genómico funcional de la familia 1 de glucósido hidrolasa de Arabidopsis thaliana. Plant Mol. Biol. 55, 343–367 (2004).

Artículo CAS PubMed Google Scholar

Chandrasekar, B. y col. Perfil de actividad de glicosidasa de amplio rango. Mol. Celúla. Proteoma. 13, 2787–2800 (2014).

Artículo CAS Google Scholar

Henrissat, B. Una clasificación de glicosilhidrolasas basada en similitudes de secuencia de aminoácidos. Bioquímica. J. 280, 309–316 (1991).

Artículo CAS PubMed PubMed Central Google Scholar

Opassiri, R. y col. Análisis de la familia 1 de glicosil hidrolasa de arroz y expresión de β-glucosidasa Os4bglu12. BMC Planta Biol. 6, 1-19 (2006).

Artículo de Google Scholar

Chen, S., Zhou, Y., Chen, Y. & Gu, J. fastp: un preprocesador FASTQ todo en uno ultrarrápido. Bioinformática 34, i884 – i890 (2018).

Artículo PubMed PubMed Central Google Scholar

Marçais, G. & Kingsford, C. Un enfoque rápido y sin bloqueos para el recuento paralelo eficiente de apariciones de k-mers. Bioinformática 27, 764–770 (2011).

Artículo PubMed PubMed Central Google Scholar

Vurture, GW et al. GenomeScope: creación rápida de perfiles del genoma sin referencias a partir de lecturas breves. Bioinformática 33, 2202–2204 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Hu, J., Fan, J., Sun, Z. y Liu, S. NextPolish: una herramienta de pulido del genoma rápida y eficiente para el ensamblaje de lectura larga. Bioinformática 36, 2253–2255 (2020).

Artículo CAS PubMed Google Scholar

Roach, MJ, Schmidt, SA y Borneman, AR Purge Haplotigs: reasignación de contig alélicos para ensamblajes de genomas diploides de tercera generación. BMC Bioinforma. 19, 460 (2018).

Artículo CAS Google Scholar

Simão, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV y Zdobnov, EM BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma con ortólogos de copia única. Bioinformática 31, 3210–3212 (2015).

Artículo PubMed Google Scholar

Rhie, A., Walenz, BP, Koren, S. y Phillippy, AM Merqury: evaluación de calidad, integridad y fases sin referencias para ensamblajes de genomas. Genoma Biol. 21, 245 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Ou, S. & Jiang, N. LTR_retriever: un programa sensible y de alta precisión para la identificación de retrotransposones repetidos terminales largos. Fisiol vegetal. 176, 1410-1422 (2018).

Artículo CAS PubMed Google Scholar

Li, H. y Durbin, R. Alineación de lectura corta rápida y precisa con la transformada de Burrows-Wheeler. Bioinformática 25, 1754-1760 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Dudchenko, O. y col. El ensamblaje de novo del genoma de Aedes aegypti utilizando Hi-C produce andamios de longitud cromosómica. Ciencia 356, 92–95 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Durand, NC y cols. Juicer proporciona un sistema de un solo clic para analizar experimentos Hi-C con resolución de bucle. Sistema celular. 3, 95–98 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Tarailo-Graovac, M. & Chen, N. Uso de RepeatMasker para identificar elementos repetitivos en secuencias genómicas. actual. Protocolo. Bioinformación. Capítulo 4, Unidad 4.10 (2009).

Google Académico

Bao, W., Kojima, KK y Kohany, O. Repbase Update, una base de datos de elementos repetitivos en genomas eucariotas. Multitud. ADN 6, 11 (2015).

Artículo PubMed PubMed Central Google Scholar

Xu, Z. & Wang, H. LTR_FINDER: una herramienta eficaz para la predicción de retrotransposones LTR de longitud completa. Ácidos nucleicos res. 35, W265-W268 (2007).

Artículo PubMed PubMed Central Google Scholar

Stanke, M. & Morgenstern, B. AUGUSTUS: un servidor web para la predicción de genes en eucariotas que permite restricciones definidas por el usuario. Ácidos nucleicos res. 33, W465-W467 (2005).

Artículo CAS PubMed PubMed Central Google Scholar

Burge, C. y Karlin, S. Predicción de estructuras genéticas completas en el ADN genómico humano. J. Mol. Biol. 268, 78–94 (1997).

Artículo CAS PubMed Google Scholar

Majoros, WH, Pertea, M. & Salzberg, SL TigrScan y GlimmerHMM: dos buscadores de genes eucariotas ab initio de código abierto. Bioinformática 20, 2878–2879 (2004).

Artículo CAS PubMed Google Scholar

Keilwagen, J., Hartung, F. y Grau, J. GeMoMa: predicción de genes basada en homología utilizando conservación de la posición de los intrones y datos de secuencia de ARN. Métodos Mol. Biol. 1962, 161-177 (2019).

Artículo CAS PubMed Google Scholar

Zapata, L. et al. El ensamblaje a nivel de cromosomas de Arabidopsis thaliana L er revela el alcance de los polimorfismos de translocación e inversión. Proc. Nacional. Acad. Ciencia. EE.UU. 113, E4052-E4060 (2016).

Matsui, K. & Yasui, Y. Autoincompatibilidad heteromórfica del trigo sarraceno: genética, genómica y aplicación al mejoramiento. Criar. Ciencia. 70, 32–38 (2020).

Artículo PubMed PubMed Central Google Scholar

Verde, I. et al. Lanzamiento de Peach v2.0: el mapeo de enlaces de alta resolución y la resecuenciación profunda mejoran el ensamblaje y la contigüidad a escala de cromosomas. Genoma de BMC. 18, 225 (2017).

Artículo de Google Scholar

El consorcio público franco-italiano para la caracterización del genoma de la vid. La secuencia del genoma de la vid sugiere una hexaploidización ancestral en los principales filos de angiospermas. Naturaleza 449, 463–467 (2007).

Artículo de Google Scholar

Haas, BJ y cols. Anotación automatizada de la estructura de genes eucarióticos utilizando EVidenceModeler y el programa para ensamblar alineaciones empalmadas. Genoma Biol. 9, R7 (2008).

Artículo PubMed PubMed Central Google Scholar

Altschul, SF y cols. Gapped BLAST y PSI-BLAST: una nueva generación de programas de búsqueda de bases de datos de proteínas. Ácidos nucleicos res. 25, 3389–3402 (1997).

Artículo CAS PubMed PubMed Central Google Scholar

Quevillon, E. et al. InterProScan: identificador de dominios proteicos. Ácidos nucleicos res. 33, W116–W120 (2005).

Artículo CAS PubMed PubMed Central Google Scholar

Ogata, H. y col. KEGG: Enciclopedia de genes y genomas de Kioto. Ácidos nucleicos res. 27, 29–34 (1999).

Artículo CAS PubMed PubMed Central Google Scholar

Zheng, Y. et al. iTAK: un programa para la predicción y clasificación de todo el genoma de factores de transcripción, reguladores transcripcionales y proteínas quinasas de plantas. Mol. Planta 9, 1667-1670 (2016).

Artículo CAS PubMed Google Scholar

Xia, E.-H. et al. El genoma del árbol del té proporciona información sobre el sabor del té y la evolución independiente de la biosíntesis de cafeína. Mol. Planta 10, 866–877 (2017).

Artículo CAS PubMed Google Scholar

Buti, M. y col. La secuencia del genoma y el transcriptoma de Potentilla micrantha y su comparación con Fragaria vesca (la fresa del bosque). Gigaciencia 7, giy010 (2017).

PubMed Central Google Académico

Badouin, H. y col. El genoma del girasol proporciona información sobre el metabolismo del aceite, la floración y la evolución de las Asteridas. Naturaleza 546, 148-152 (2017).

Artículo CAS PubMed Google Scholar

Goff, SA y cols. Un borrador de secuencia del genoma del arroz (Oryza sativa L. ssp. japonica). Ciencia 296, 92-100 (2002).

Artículo CAS PubMed Google Scholar

Sturtevant, D. y col. El genoma de la jojoba (Simmondsia chinensis): una especie taxonómicamente aislada que dirige la acumulación de ésteres de cera en sus semillas. Ciencia. Adv. 6, fácil3240 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

El Consorcio del Genoma del Tomate. La secuencia del genoma del tomate proporciona información sobre la evolución del fruto carnoso. Naturaleza 485, 635–641 (2012).

Artículo de Google Scholar

Barchi, L. et al. Una secuencia del genoma de la berenjena anclada en cromosomas revela eventos clave en la evolución de las solanáceas. Ciencia. Rep. 9, 11769 (2019).

Artículo PubMed PubMed Central Google Scholar

Jiao, Y. et al. Genoma de referencia del maíz mejorado con tecnologías de molécula única. Naturaleza 546, 524–527 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Li, L., Stoeckert, CJ y Roos, DS OrthoMCL: identificación de grupos de ortólogos para genomas eucariotas. Genoma Res. 13, 2178–2189 (2003).

Artículo CAS PubMed PubMed Central Google Scholar

Nguyen, L.-T., Schmidt, HA, von Haeseler, A. & Minh, BQ IQ-TREE: un algoritmo estocástico rápido y eficaz para estimar filogenias de máxima verosimilitud. Mol. Biol. Evolución. 32, 268–274 (2015).

Artículo CAS PubMed Google Scholar

Yang, Z. PAML 4: análisis filogenético por máxima verosimilitud. Mol. Biol. Evolución. 24, 1586-1591 (2007).

Artículo CAS PubMed Google Scholar

De Bie, T., Cristianini, N., Demuth, JP & Hahn, MW CAFE: una herramienta computacional para el estudio de la evolución de la familia de genes. Bioinformática 22, 1269-1271 (2006).

Artículo PubMed Google Scholar

Ma, J. y col. El genoma de Chloranthus sessilifolius proporciona información sobre la diversificación temprana de las angiospermas. Nat. Comunitario. 12, 6929 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Yang, Y. et al. Los genomas del nenúfar espinoso y del hornwort rígido arrojan luz sobre la evolución temprana de las angiospermas. Nat. Plantas 6, 215–222 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Sol, P. et al. WGDI: un conjunto de herramientas fácil de usar para análisis evolutivos de duplicaciones de genoma completo y cariotipos ancestrales. Mol. Planta 15, 208–222 (2021).

Edgar, RC MUSCLE: alineación de secuencias múltiples con alta precisión y alto rendimiento. Ácidos nucleicos res. 32, 1792-1797 (2004).

Artículo CAS PubMed PubMed Central Google Scholar

Rice, P., Longden, I. y Bleasby, A. EMBOSS: el paquete europeo de software abierto de biología molecular. Tendencias Genet 16, 276–277 (2000).

Artículo CAS PubMed Google Scholar

Kim, D., Langmead, B. & Salzberg, SL HISAT: un alineador empalmado rápido con bajos requisitos de memoria. Nat. Métodos 12, 357–360 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Pertea, M. et al. StringTie permite una reconstrucción mejorada de un transcriptoma a partir de lecturas de RNA-seq. Nat. Biotecnología. 33, 290–295 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Love, MI, Huber, W. & Anders, S. Estimación moderada del cambio de pliegue y la dispersión para datos de RNA-seq con DESeq2. Genoma Biol. 15, 550 (2014).

Artículo PubMed PubMed Central Google Scholar

clusterProfiler: un paquete R para comparar temas biológicos entre grupos de genes. https://www.liebertpub.com/doi/epdf/10.1089/omi.2011.0118 o https://doi.org/10.1089/omi.2011.0118.

Langfelder, P. & Horvath, S. WGCNA: un paquete R para análisis de redes de correlación ponderada. BMC Bioinforma. 9, 559 (2008).

Artículo de Google Scholar

Johnson, LS, Eddy, SR y Portugaly, E. Procedimiento de búsqueda HMM iterativo y heurístico de velocidad del modelo oculto de Markov. BMC Bioinforma. 11, 431 (2010).

Artículo de Google Scholar

Katoh, K., Misawa, K., Kuma, K. y Miyata, T. MAFFT: un método novedoso para el alineamiento rápido de múltiples secuencias basado en la transformada rápida de Fourier. Ácidos nucleicos res. 30, 3059–3066 (2002).

Artículo CAS PubMed PubMed Central Google Scholar

Descargar referencias

El apoyo financiero fue proporcionado por el Programa de Investigación Prioritaria Estratégica de la Academia de Ciencias de China (XDB31000000 a YY), el Fondo Científico para Grupos de Investigación Creativa de la Provincia de Gansu (21JR7RA533 a YY) y los Fondos de Investigación Fundamental para las Universidades Centrales (lzujbky-2022- ey07 a YY). el Proyecto de Desarrollo de Talentos Jóvenes del Laboratorio Estatal Clave de Mejoramiento de Herbarios y Agroecosistemas de Pastizales (No. 2021+02 al Año Año) y el Programa de Colaboración Internacional 111 (BP0719040). Todos los trabajos de cálculo contaron con el apoyo del Centro de Supercomputación de la Universidad de Lanzhou y la Plataforma de Computación de Big Data para el Medio Ambiente Ecológico y el Desarrollo Regional Occidental.

Laboratorio Estatal Clave de Agroecosistemas de Pastizales, Facultad de Ecología, Universidad de Lanzhou, Lanzhou, 730000, China

Ying Li, Zhenyue Wang, Mingjia Zhu, Zhimin Niu, Minjie Li, Zeyu Zheng, Hongyin Hu, Jin Zhang, Dongshi Wan y Yongzhi Yang

Laboratorio clave de ecología de bosques tropicales de CAS, Jardín Botánico Tropical Xishuangbanna, Academia China de Ciencias, Mengla, Yunnan, 666303, China

Zhiqiang Lu

Facultad de Farmacia, Universidad de Lanzhou, Lanzhou, 730000, China

qiao chen

También puedes buscar este autor en PubMed Google Scholar.

YY y QC dirigieron y diseñaron este proyecto. YL, ML, ZZ, HH y ZL realizaron la recolección de muestras. YL y ZN realizaron todo el trabajo de campo y los experimentos. YL y ZW llevaron a cabo el ensamblaje y la anotación del genoma. MZ y ZW realizaron análisis de duplicación del genoma completo. ZZ, ZN y JZ realizaron los análisis de evolución del genoma y de la familia de genes. YY, QC y DW escribieron el manuscrito y pulieron la escritura en inglés. Todos los autores leyeron y aprobaron el manuscrito final.

Correspondencia a Qiao Chen o Yongzhi Yang.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a los revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales: Matteo Dell'Acqua y David Favero.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado al autor(es) original(es) y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Li, Y., Wang, Z., Zhu, M. et al. Un ensamblaje del genoma del ruibarbo (Rheum tanguticum) a escala cromosómica proporciona información sobre la evolución de la biosíntesis de antraquinonas. Común Biol 6, 867 (2023). https://doi.org/10.1038/s42003-023-05248-5

Descargar cita

Recibido: 10 de noviembre de 2022

Aceptado: 15 de agosto de 2023

Publicado: 23 de agosto de 2023

DOI: https://doi.org/10.1038/s42003-023-05248-5

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

Blog