banner

Blog

Dec 25, 2023

Secuencia del genoma y sedosómica de la polilla del armiño del huso, Yponomeuta cagnagella, que representa el linaje divergente temprano de los lepidópteros ditrisios

Biología de las comunicaciones volumen 5, número de artículo: 1281 (2022) Citar este artículo

1294 Accesos

2 citas

9 altmétrica

Detalles de métricas

Muchas especies de lepidópteros producen seda, capullos, tubos de alimentación o nidos para proteger a las orugas y pupas de los depredadores y parásitos. Sin embargo, el número de especies de lepidópteros cuya composición de la seda se ha estudiado en detalle es muy pequeño, porque los genes que codifican las principales proteínas estructurales de la seda tienden a ser grandes y repetitivos, lo que dificulta su ensamblaje y análisis de secuencia. Aquí hemos analizado la seda de Yponomeuta cagnagella, que representa uno de los primeros linajes divergentes de los lepidópteros ditrisios, mejorando así la cobertura del orden. Para obtener una lista completa de los genes de la seda de Y. cagnagella, secuenciamos y ensamblamos un borrador del genoma utilizando las tecnologías Oxford Nanopore e Illumina. Utilizamos un transcriptoma de glándulas de seda y un proteoma de seda para identificar los componentes principales de la seda y verificamos la especificidad tisular de la expresión de genes individuales. Se proporciona una anotación detallada de los genes principales y sus supuestos productos, incluidas sus secuencias completas y estructuras exón-intrón. También se muestra la morfología de las glándulas y fibras de seda. Este estudio llena un vacío importante en nuestra creciente comprensión de la estructura, evolución y función de los genes de la seda y proporciona recursos genómicos para futuros estudios de la ecología química de las especies de Yponomeuta.

La seda es un término funcional utilizado para describir las fibras proteicas hiladas por varios linajes de artrópodos y abarca una amplia gama de materiales diferentes1. La creciente aplicación de tecnologías ómicas para caracterizar las secuencias de nucleótidos y proteínas específicas de los componentes de la seda está revelando una sorprendente variabilidad en las propiedades de la seda entre los taxones de artrópodos2,3,4,5. Se ha planteado la hipótesis de que las sedas con diferentes estructuras proteicas dominantes tienen diferentes orígenes evolutivos. Un número creciente de estudios en arañas6, polillas2,7, caddis8,9 y abejas melíferas10,11 sugieren que la producción de seda ha evolucionado de forma independiente en diferentes grupos. Los insectos utilizan diferentes tipos de glándulas para la secreción de seda y producen una variedad de secreciones de proteínas. De hecho, la seda de los insectos puede haber evolucionado de forma independiente en 23 linajes1. Sin embargo, las larvas de Lepidoptera y Trichoptera (grupos hermanos que forman el supraorden Amphiesmenoptera) producen fibras de seda que contienen fibroínas L y H en sus glándulas labiales y sus principales proteínas de seda tienen un origen común12. Se ha sugerido que la producción de este tipo de seda se conserva desde hace más de 300 millones de años13.

La seda producida por las orugas de los lepidópteros es secretada por un par de glándulas labiales (salivales) especializadas llamadas glándulas de seda (SG). Una mezcla de proteínas de seda se almacena en una luz de la glándula de seda como una solución espesa que se solidifica después del hilado. Si bien la estructura general de la seda es similar, las proteínas individuales pueden variar mucho en los lepidópteros. Dependiendo de la solubilidad, las proteínas de la seda se dividen tradicionalmente en dos grupos: proteínas de fibroína insolubles, que forman dos filamentos centrales, y proteínas de sericina solubles en agua caliente que forman una capa hidrófila y sellan los filamentos en una fibra14,15. Las fibroínas son producidas por la parte posterior de las glándulas de la seda (PSG), mientras que las proteínas de recubrimiento se añaden progresivamente a la seda almacenada en las glándulas de la seda medias (MSG). La parte anterior de las glándulas de seda (ASG) aparentemente no produce ningún componente de seda y sirve como salida de la glándula14. Las proteínas de recubrimiento muestran una gran heterogeneidad entre especies, tanto en el número de proteínas que contienen como en las secuencias de los componentes individuales16.

Se han realizado análisis detallados de los componentes de la seda en varios representantes de las familias de polillas Bombycidae17, Saturniidae18, Pyralidae19, Nolidae5, Tineidae7 y Psychidae20, y la mayoría de las especies pertenecen a la Ditrysia superior, que comprende más del 98% de la diversidad de lepidópteros existente12. Sin embargo, la detección de proteínas de seda en especies recientemente estudiadas se ve obstaculizada por la naturaleza repetitiva de sus secuencias y la baja similitud de secuencias incluso entre especies de la misma familia. Las pérdidas y duplicaciones de genes combinadas con cambios rápidos en la secuencia hacen que la identificación de genes individuales que codifican proteínas de cubierta basándose en similitudes sea bastante difícil16. En consecuencia, a menudo faltan secuencias completas y la arquitectura exón-intrón de los genes de la seda.

La superfamilia Yponomeutoidea pertenece a uno de los primeros linajes ditrisios divergentes21. Se conocen miembros de la familia Yponomeutidae del Cretácico Inferior22,23, lo que lo convierte en uno de los primeros grupos en pasar de la alimentación interna a la externa24 colonizando hierbas, arbustos y árboles a gran escala25. Las polillas armiño europeas del género Yponomeuta se han estudiado durante mucho tiempo en términos de la ecología química de las asociaciones de insectos y plantas y la especiación ecológica mediante el cambio de huésped26,27,28,29.

El género Yponomeuta incluye 76 especies descritas distribuidas por todo el mundo (excepto América del Sur y las regiones árticas)30. Las pequeñas polillas armiño son bien reconocidas por sus extensas redes protectoras, producidas por larvas de algunas especies. Durante brotes ocasionales, las larvas pueden defoliar árboles o arbustos enteros y cubrirlos con seda en cuestión de días. Estas redes consisten en hilos de seda entretejidos alrededor de las ramas de plantas alimenticias. Las larvas pupan en los nidos protectores en capullos que son ligeramente transparentes y consisten en una sola capa de seda (Fig. S1)31,32. Un estudio previo en la polilla armiño de la cereza, Yponomeuta evonymella, examinó abundantes ADNc específicos de las glándulas de la seda y descubrió transcripciones para la cadena ligera de fibroína (L-Fib), fibrohexamerina (Fhx o P25) y una secuencia parcial para la cadena pesada. cadena de fibroína (H-Fib), lo que sugiere que la composición del núcleo del hilo de seda está conservada33. Sin embargo, no se identificaron otros componentes de la seda.

En el presente estudio, mostramos un análisis detallado de los genes de la seda y sus productos en una polilla de armiño estrechamente relacionada, Yponomeuta cagnagella, y ampliamos el análisis anterior de Y. evonymella. Para identificar y caracterizar todos los genes que codifican los principales componentes de la seda, secuenciamos y ensamblamos el genoma de Y. cagnagella y combinamos los resultados con análisis transcriptómicos y proteómicos y búsquedas de homología utilizando proteínas detectadas en Y. evonymella.

El tamaño del genoma de Y. cagnagella se determinó mediante citometría de flujo. Se utilizaron cuatro cabezas de machos adultos con estándares de Ephestia kuehniella en réplicas independientes. El tamaño del genoma resultante fue 709,54 ± 6,52 Mbp (media ± error estándar, N = 4). En la figura S2 se muestra un ejemplo de análisis de citometría de flujo. Además, el tamaño del genoma se estimó a partir de espectros de k-mer, alcanzando en este caso 508,47 Mbp (Fig. S3). Cuando nos referimos al tamaño del genoma a continuación, utilizamos el resultado de la citometría de flujo porque lo consideramos más preciso.

En general, la secuenciación de ADN produjo lecturas largas de Oxford Nanopore (ONT) de 26 Gbp (N50 = 19,1 kb) y lecturas cortas de Illumina de 43,8 Gb, que corresponden a una cobertura del genoma de aproximadamente 37 y 62 veces, respectivamente. Después del preprocesamiento de los datos sin procesar, el conjunto de datos final consistió en lecturas largas corregidas de 25,5 Gb con N50 = 19,5 kb, lo que corresponde a una cobertura del genoma de aproximadamente 36 veces.

El ensamblaje del genoma primario generado con Flye dio como resultado 30.252 fragmentos que comprenden 978,3 Mb y un N50 de 67,3 kb. BUSCO evaluó la integridad del ensamblaje utilizando la base de datos Insecta Core Orthologue y reveló una alta proporción de genes duplicados (44,4%). Junto con la longitud del ensamblaje que excede el tamaño del genoma y los resultados del análisis de k-mer que muestran una alta heterocigosidad (1,29%; Fig. S3), esto sugirió una presencia significativa de duplicaciones haplotípicas.

Después de la deduplicación con el proceso de purga dups y un mayor pulido con datos de Illumina, el ensamblaje final del genoma de Y. cagnagella constaba de 11.790 contigs que comprendían 626,3 Mb con contig N50 = 96,5 kb. El fragmento más largo tenía 931,2 kb de longitud. En el montaje final, el 96,9% de los ortólogos de BUSCO estaban completos, el 1,6% estaban fragmentados y sólo faltaba el 1,5%. El número de genes duplicados disminuyó al 10,5%, lo que indica que los haplótigos duplicados causados ​​por una alta heterocigosidad se redujeron significativamente. La búsqueda de contaminantes de Kraken 2 en la biblioteca estándar identificó 9 contigs que fueron asignados a humanos y 23 que fueron asignados a bacterias (Tabla S2). Sin embargo, una inspección manual detallada no confirmó ninguna contaminación ya que la mayoría de los k-mers de estos contigs permanecieron sin clasificar, lo que sugiere que estas secuencias pueden derivarse de repeticiones. Además, la búsqueda explosiva de las secuencias en la base de datos nt reveló que las secuencias de lepidópteros eran las coincidencias más cercanas en todos los casos.

Anotar el ensamblaje final de Y. cagnagella mostró que el 46,75% de la secuencia estaba enmascarada como elementos repetitivos, con un contenido de GC del genoma del 39,21%. La clase repetida más abundante fueron los elementos nucleares intercalados largos (LINE; 10,69% del genoma), seguidos de los elementos nucleares intercalados cortos (SINE; 5,06%) y los elementos de ADN (3,33%). Solo el 0,57% del conjunto se clasificó como ADN satélite (Tablas S3 y S4). El conjunto con máscara suave se depositó en el repositorio de Dryad (https://doi.org/10.5061/dryad.4j0zpc8d3). En total, el proceso BRAKER predijo 30.003 modelos de genes codificadores de proteínas, con una longitud media de gen de 8.331 pb y una media de 5,9 exones por modelo de gen. La evaluación de integridad de BUSCO mostró que el 93,5% de los ortólogos de Insecta estaban presentes en el conjunto de genes.

Finalmente, comparamos el conjunto de la polilla armiño con otros genomas de lepidópteros (Tabla 1). Y. cagnagella representa uno de los genomas más grandes y heterocigotos de la lista. La diferencia en el tamaño del genoma y la longitud del ensamblaje en Y. cagnagella es cercana a la de S. exigua (88,3% y 88,2%, respectivamente) y la estadística N50 es similar a la obtenida para ensamblajes del genoma de otros lepidópteros no modelo, a saber, D. arcuata. , E. variegata y M. jurtina, secuenciados mediante una estrategia de secuenciación rentable de baja cobertura sin técnicas de andamiaje adicionales como HiC. Como solo faltaba el 1,5% de los ortólogos BUSCO de insectos, el ensamblaje del genoma de Y. cangnagella representa un recurso valioso para estudios posteriores.

Las glándulas de seda de Y. cagnagella muestran una morfología característica con partes distintas de ASG, MSG y PSG. La Figura 1a muestra tres compartimentos de glándulas de seda con una parte anterior delgada, la parte media más gruesa con una luz ancha y una parte posterior ligeramente más delgada que consta de grandes células secretoras que rodean la luz delgada. Para estudiar la morfología de SG en relación con su posición en el cuerpo, realizamos una serie de secciones transversales a través de las larvas en el último estadio. Las secciones transversales revelaron más diferencias morfológicas en las diferentes partes de las glándulas, así como la estructura de la luz con una localización central de los componentes de fibroína cubiertos por capas envolventes compuestas principalmente de sericinas (Fig. 1b-d). La relación entre el espesor de las capas de fibroína y sericina varía a lo largo del SG. La capa de sericina no está presente en la PSG (Fig. 1d, e). La seda en la luz de la glándula muestra variaciones de color entre los diferentes compartimentos glandulares cuando se tiñe con tinción tricrómica de Masson. El color refleja cambios en la estructura o pH de los componentes de la seda.

una descripción general de todo el SG montado. Las puntas de flecha azules muestran los límites de los compartimentos SG, donde ASG (SG anterior), MSG (SG medio) y PSG (glándula de seda posterior) forman parte. Las líneas negras marcadas con letras pequeñas en cursiva b – e se refieren a las secciones de todo el cuerpo y muestran la posición aproximada donde se cortaron las glándulas en las respectivas secciones transversales de paraplasto. b – e Secciones transversales de paraplasto a través del cuerpo del quinto estadio larvario teñido con tinción tricrómica de Masson (Sigma-Aldrich). Las imágenes insertadas muestran una mayor ampliación de la sección SG señalada por las flechas y las puntas de flecha. b, c Sección a través del cuerpo y la glándula de seda anterior. d Glándula de seda media. e Glándula de seda posterior. Las puntas de flecha representan la sección de la glándula de seda posterior, las flechas en byc muestran ASG y las flechas en d representan la sección de la parte posterior de la glándula de seda media. Las áreas rojas y azules difieren en estructura. Barras de escala: (a) 1000 μm; ( b - e ) 200 μm; imágenes insertadas, 20 μm.

Se utilizó microscopía electrónica de barrido para examinar la estructura externa e interna del capullo. Los filamentos de seda son relativamente delgados (2,6 a 2,8 µm) y forman dobletes como producto de glándulas pareadas. A diferencia de B. mori o G. mellonella, en las que los filamentos de seda forman una red densa con una gran cantidad de material adhesivo que cubre la superficie interna del capullo, la seda de Y. cagnagella tiene un carácter más bien de rejilla, ocasionalmente conectada por un mechón de adhesivo (Fig. 2a – d). El contenido de adhesivo relativamente bajo también es evidente en secciones transversales teñidas con azul de toluidina y examinadas mediante microscopía óptica (Fig. 2e, f). Según la diferente intensidad de tinción, se puede distinguir entre el núcleo de fibroína oscuro y la envoltura de sericina clara. A modo de comparación, la figura 2f también muestra una sección de un capullo de polilla de cera (G. mellonella), que contiene una alta proporción de sericinas. Además, las fibras de seda de Y. cagnagella son sorprendentemente más delgadas en comparación con las de G. mellonella, aunque las larvas tienen un tamaño bastante similar (Fig. 2e, f).

a, b Microscopía electrónica de barrido de diferentes aumentos del lado exterior del capullo de Y. cagnagella. c, d Imágenes del lado interior del capullo de Y. cagnagella. e, f Comparación de sedas de Y. cagnagella y G. mellonella. Secciones de capullo semifino de Y. cagnagella (e) y G. mellonella (f) teñidas con azul de toluidina. Tenga en cuenta los diferentes espesores de fibra y el contenido de material similar al pegamento (violeta claro). Barras de escala: 10 μm.

Carriles: SG YC: glándulas sedosas de Y. cagnagella que giran la larva del último estadio; CA YC: carcasa (SG con ablación) de Y. cagnagella, PU YC: pupa de Y. cagnagella, SG YE: glándulas de seda de Y. evonymella que giran la larva del último estadio; CA YE—Y. evonymella carcasa sin SG. El ARN total (5 μg) se separó en un gel de agarosa mediante electroforesis, se transfirió a una membrana de nailon y se sondeó con fragmentos de ADNc marcados con [32P] de los genes de Y. cagnagella indicados. Se indica el tamaño de las transcripciones detectadas. Los nombres de los genes se muestran en la Tabla 2.

Para identificar genes candidatos que codifican proteínas de seda, preparamos un transcriptoma específico de glándulas de seda. Se obtuvieron un total de 7,85 millones de lecturas de extremos pares y se utilizaron para ensamblar el transcriptoma después de la limpieza. El conjunto del transcriptoma se depositó en el repositorio Dryad (https://doi.org/10.5061/dryad.4j0zpc8d3). En la asamblea se identificaron un total de 1155 (84,4%) de 1367 BUSCO. 1045 (76,4%) de ellos estaban presentes como copias únicas, mientras que 110 (8,0%) existían como copias múltiples en la asamblea. Se encontraron 66 BUSCO (4,8%) en forma fragmentada, mientras que faltaban 146 BUSCO (10,8%). Concluimos que los 146 BUSCO que faltan son probablemente el resultado de una alta especialización de SG para la producción de seda. En la asamblea se encontraron 26.054 marcos de lectura abiertos (ORF). Dentro de estos ORF, se identificaron 987 péptidos señal. Varias transcripciones muy abundantes mostraron homología con las proteínas de seda conocidas de B. mori, incluidas las cadenas pesadas de fibroína H-Fib, L-Fib, Fhx y las seroínas 1, 2 y 3.

Para identificar todo el conjunto de componentes de la seda, analizamos las proteínas del capullo mediante espectrometría de masas (MS). Las proteínas de la seda se identificaron mediante mapeo de péptidos trípticos. Detectamos más de 500 péptidos asignados a 120 proteínas. Algunas de las proteínas detectadas carecían del péptido señal y representaban principalmente enzimas y proteínas de mantenimiento. Un total de las 79 proteínas descubiertas contenían supuestos péptidos señal. Algunos de ellos tenían homólogos cercanos en otras especies que no estaban asociadas con la seda y fueron excluidos de análisis posteriores. Como asumimos que las proteínas estructurales de la seda son muy abundantes, excluimos a varios candidatos que estaban subrepresentados. Las 30 transcripciones candidatas restantes se utilizaron para análisis adicionales.

Para identificar las proteínas de la seda de Y. evonymella, realizamos un análisis proteómico de la seda del capullo como se describe para Y. cagnagella y descubrimos 130 proteínas, 39 de las cuales contenían péptidos señal. La comparación con los datos de Y. cagnagella reveló un conjunto de proteínas muy similar al análisis anterior y tres proteínas adicionales. Estas proteínas no fueron detectadas en el análisis proteómico en Y. cagnagella. Sin embargo, las secuencias homólogas que codifican estas proteínas estaban presentes en la base de datos transcriptómica de la polilla del armiño del huso y se enumeran en la Tabla 2.

Las supuestas proteínas secretoras detectadas en la seda del capullo aún podrían contener componentes no específicos producidos fuera del SG (por ejemplo, material depositado en el tracto digestivo) o proteínas producidas en niveles más altos en varios otros tejidos. Debido a que la expresión tisular específica de las proteínas homólogas de H-Fib y Fhx (P25) ya se ha estudiado en detalle en otras especies de polillas, nos centramos en otros candidatos. Primero, examinamos 11 productos genéticos candidatos mediante transferencia Northern.

Para comparar el tamaño de las transcripciones homólogas y verificar la conservación evolutiva de los genes estudiados, también incluimos ARN de Y. evonymella relacionada como control. Preparamos sondas marcadas de ADNc de Y. cagnagella utilizando RT-PCR con los cebadores enumerados en la Tabla S1. Las señales en Y. cagnagella fueron casi tan fuertes como las de Y. evonymella, lo que indica una alta similitud de las secuencias examinadas entre las dos especies (Fig. 3). El tamaño de Ser1 y Ser2 es similar en ambas especies, mientras que Muc1 y Ser4 fueron más pequeños en Y. evonymella. La señal de Ser3 fue más débil en Y. cagnagella, lo que sugiere una expresión más baja. Por el contrario, el tipo fibrilina 1 (FB1L) mostró una menor intensidad en Y. evonymella., lo que podría estar relacionado con un menor nivel de expresión o diversificación de secuencia entre Y. cagnagella e Y. evonymella.

Además de las transferencias Northern, comparamos la expresión de un total de 17 genes candidatos en SG, intestinos, cuerpos grasos y tegumentos mediante PCR en tiempo real (Fig. 4). El análisis Northern y los resultados de qPCR confirmaron la especificidad de SG de 21 genes, incluido Fhx (P-25), el péptido SG pequeño 1 y genes que codifican varias enzimas como la proteinasa, la sulfatasa y la peroxidasa. Por el contrario, la antiquimotripsina1 (ACHP1), la tripsina a (TRPLa), la fibrilina2 (FB2L), los brazaletes y cuentas (BNB) y la agrina (AGRL) no eran específicas de las glándulas de seda. Nuestra lista final también incluye los componentes conocidos de la seda H-Fib y seroínas, lo que hace que el número final de componentes de la seda sea 25 (Tabla 2).

(glándulas de seda: azul, intestino: naranja, cuerpo graso: amarillo y tegumento: verde) usando qPCR (n = 3, media ± sd). Los niveles de expresión de ARNm de estos genes se normalizaron con un gen de control externo (factor de elongación 1-α) y se calcularon con cuantificación relativa 2-ΔCt. Los nombres completos de los genes se muestran en la Tabla 2.

Finalmente, estimamos la divergencia evolutiva y la similitud entre el ADN y las secuencias de aminoácidos comparando los homólogos de ocho proteínas y sus ADNc detectados en las sedas de Y. cagnagella e Y. evonymella. En la Tabla S5 se proporciona un resumen que muestra una identidad del 96-99% entre las secuencias de las dos especies. Esto respalda la idea de que los componentes individuales de la seda pueden identificarse fácilmente entre las dos especies del mismo género basándose en similitudes. Curiosamente, las cuatro secuencias que codifican los componentes estructurales de la seda tendieron a tener una mayor distancia genética de sus contrapartes de Tineola bisselliella que los cuatro genes metabólicos utilizados como controles (Tabla S5).

El número resultante de transcripciones que codifican los principales componentes de la seda en Y. cagnagella parece ser similar al de G. mellonella o T. bisselliella7,16. Para aprender más sobre la estructura de estos genes y su relación con los genes de la seda de otras especies de polillas, determinamos su organización exón-intrón y secuencias completas, incluidas las UTR, colocando el CDS en la secuencia genómica.

Como se muestra en la Tabla 2, hemos identificado las secuencias completas de 25 genes que codifican los componentes de seda de Y. cagnagella más abundantes, incluida la cadena pesada de fibroína, la cadena ligera de fibroína, P25/Fhx, cuatro o cinco sericinas putativas, tres seroínas, cuatro proteínas similares a zonadhesina, dos mucinas y varias otras proteínas, incluidas la sulfatasa (SLP), la peroxidasa (PXD), la proteína similar a la serina proteasa (SPL), la proteína similar a la dentina (DTL), la proteína similar al citocromo b5 (CB5L), la fosfatidiletanolamina- homólogo de proteína de unión (PEBP) y similar a fibrilina1 (FB1L). Sus secuencias anotadas se depositaron en GenBank y en la Fig. S4 se muestran dibujos esquemáticos de las estructuras de cada gen. Se detectaron tres secuencias adicionales de Y. cagnagella asociadas a la seda en función de la homología con Y. evonymella, incluida la serina proteasa 34 del veneno, la proteinasa T2a similar a la tripsina, la b similar a la antiquimotripsina-1 y la similar a la antiquimotripsina-2. Es posible que dos de ellos no sean específicos de las glándulas de la seda, ya que los genes similares a la antiquimotripsina 2 (ACHP2) y los similares a la tripsina b (TRPLb) son ortólogos muy cercanos de los genes de Y. cagnagella, que se examinaron anteriormente mediante PCR como no específicos de la seda.

H-Fib codifica la proteína de seda más grande de 486 kDa, caracterizada por un alto contenido de glicina y alanina (29,4 y 26%, respectivamente). El gen consta de dos exones y un intrón. El primer exón es muy corto y codifica 10 residuos de aminoácidos N-terminales del péptido señal. El segundo exón es muy grande y su ORF codifica 5753 residuos de aminoácidos. El intrón tiene una longitud de 340 pb. La parte central de la molécula H-Fib consiste en una secuencia repetitiva imperfecta que codifica entre 27 y 31 motivos repetidos largos. Estos motivos contienen una secuencia SSAAA que recuerda a las repeticiones de fibroína de G. mellonella o Antheraea yamamai que forman las regiones cristalinas responsables de la resistencia de la fibra (Fig. S5).

Hay al menos cuatro genes principales de sericina que codifican grandes proteínas hidrófilas localizadas en la superficie de la fibra de seda. Se caracterizan por un alto contenido de residuos de serina y secuencias repetitivas. La sericina2 (Ser2) y la sericina3 (Ser3) contienen la mayor proporción de residuos de serina y comparten una estructura organizativa común con tres exones y dos intrones. Además, el gen Ser2 se encuentra cerca de Ser3, lo que sugiere que derivan de un único gen progenitor. Además, la sericina 1 contiene una secuencia que codifica un motivo CVCY característico ubicado a 17 residuos de aminoácidos del extremo C-terminal. También se encuentra un motivo similar en los homólogos de sericina 1 de B. mori, A. yamamai o G. mellonella (Fig. S6)16,34.

También encontramos varios otros componentes estructurales candidatos de la seda que contienen motivos repetitivos imperfectos, incluidos dos supuestos homólogos de mucinas, cuatro proteínas similares a zonadhesina, una proteína similar a fibrilina 1 (FB1L) y una proteína similar a dentina (DTL), consulte la Tabla 2. Mucin1 (Muc1) es la segunda proteína de seda más grande y contiene un 22% de residuos de serina. Los genes que codifican Muc1 y mucina2 (Muc2) parecen contener una gran cantidad de exones (32 y 24, respectivamente; Fig. S4).

Encontramos tres genes de seroína dispuestos en un grupo apretado localizado en un único contig genómico (contig_36475). También detectamos homólogos de B. mori para venenos similares a alérgenos (VAL) y varias enzimas, cuyas funciones en la seda no están claras. Finalmente, confirmamos la especificidad tisular de la expresión del péptido SG 1 corto (SSP1) de función desconocida, que contiene una cadena de residuos de glutamina (Tabla 2).

Con el fin de realizar un análisis completo de la seda, secuenciamos y ensamblamos el borrador del genoma y el transcriptoma de la polilla del armiño del huso, Y. cagnagella, un representante de la familia divergente temprana de lepidópteros ditrisios. Utilizando un enfoque rentable que combina lecturas de Oxford Nanopore e Illumina de baja cobertura, obtuvimos un borrador de la secuencia del genoma, que nos permitió identificar la arquitectura exón-intrón completa de 25 genes que codifican la seda en esta especie.

El tamaño del genoma medido por citometría de flujo (710 Mb) difirió de la estimación del estudio k-mer (508 Mb), pero este último enfoque puede haberse visto afectado por la calidad de los datos o la profundidad de la secuenciación35. Por lo tanto, asumimos que los resultados de la citometría de flujo son más precisos. Sin embargo, ambas mediciones sugieren que el tamaño del genoma de Y. cagnagella es mayor que el promedio (1C = 430 Mb) o el tamaño ancestral (1C = 489 Mb) propuesto para Lepidoptera36. Este alto valor puede explicarse por la expansión de las repeticiones, ya que casi la mitad del conjunto fue anotado como elementos repetitivos, y/o por el gran tamaño del intrón, como lo sugirieron Chen et al.37 en el gusano web Hyphantria cunea. La longitud del ensamblaje del genoma primario fue de 978,3 Mb, que fue significativamente mayor que el tamaño del genoma esperado y probablemente fue el resultado de la retención de haplotipos causada por los altos niveles de heterocigosidad revelados en la muestra mediante el análisis de k-mer. Después de la deduplicación, la longitud final del ensamblaje de 626,3 Mb fue casi el 90% del tamaño esperado del genoma y contenía un 96,9% de ortólogos BUSCO. En el conjunto se predijeron aproximadamente 30.000 modelos de genes codificadores de proteínas, comparable al rango encontrado en otros conjuntos de lepidópteros. La longitud media del gen fue de 8,3 kB, como se esperaba para el tamaño del genoma de Y. cagnagella38. El número promedio de 5,9 exones por modelo genético fue similar a 6,0 y 6,1 exones en Plutella xylostella39 y Bombyx mori40, respectivamente. El 93,5% de los ortólogos de BUSCO estaban presentes en el conjunto de genes final. En general, la calidad del genoma de la polilla armiño obtenido es comparable a otros ensamblajes de Lepidoptera que no son modelo y sin un andamiaje mayor41,42 y representa un recurso valioso para análisis genómicos, incluso para estudios de genes grandes con dominios repetitivos como las fibroínas, que a menudo presentan una gran desafío.

Como se mencionó anteriormente, la seda contiene dos filamentos centrales cubiertos por una capa hidrófila, que sella los filamentos en una fibra. En estudios previos se ha demostrado que el núcleo de seda contiene H-Fib, L-Fib y Fhx producidos y ensamblados en PSG43,44,45. El complejo de tres componentes de fibroínas de seda se conserva en la mayoría de los lepidópteros46,47,48.

La fibrilación auricular es el principal módulo estructural del núcleo de fibroína. Está codificado por un gen grande de copia única que contiene secuencias conservadas en ambos extremos y una región de secuencias repetidas en la parte central de la molécula que son altamente específicas de cada especie y codifican componentes estructurales llamados bloques cristalinos separados por regiones amorfas (Fig. S5). ). Estos bloques son generalmente responsables de la resistencia a la tracción de las fibras de seda y consisten principalmente en residuos de aminoácidos glicina, alanina y serina49. Las cadenas adyacentes de dominios cristalinos se mantienen unidas mediante fuertes enlaces de hidrógeno en una disposición antiparalela, formando láminas β50. Las diferentes sedas de lepidópteros se pueden clasificar en tres categorías principales según la distancia entre las láminas β, que dependen de la disposición de los tres residuos de aminoácidos principales. Las repeticiones de clase I constan de aminoácidos alternados Gly y Ala, las de clase II constan de ((Gly-Ala)x -Ala)n y las repeticiones de clase III se componen predominantemente de cadenas Ala o Ala y/o Ala-Ser46,47,48 ,49,51 (Figura S5). La región central de la fibrilación H de Y. cagnagella contiene motivos de secuencia SSAAA similares a los de la fibrilación H de A. yamamai o G. mellonella, y la fibrilación H de las tres especies pertenece a la clase de rayos X III49 ,52 (Figura S5).

Las secuencias conservadas en ambos extremos de H-Fib (Fig. S7 y S8) probablemente estén involucradas en interacciones con las proteínas L-Fib y Fhx53. Se demostró que B. mori ortólogo de L-Fib se une al extremo C de H-Fib mediante un enlace disulfuro y este complejo es necesario para el transporte de fibroína desde el retículo endoplasmático54. Tanto L-Fib como Fhx no contienen secuencias repetitivas (Fig. S9 y S10). Se ha informado que L-Fib está presente en sedas de casi todos los lepidópteros (excepto las polillas de la familia Saturniidae en las que se perdió), así como en especies de caddisfly46,55. Y. cagnagella L-Fib está codificada por un gen de copia única y la proteína muestra un 47% de identidad con L-Fib de T. bisselliella y un 39% de identidad con B. mori (alineación de varias secuencias de proteínas L-Fib de diferentes especies de lepidópteros y un caddisfly se muestra en la Fig. S9).

Y. cagnagella Fhx muestra un 62% de identidad con Fhx de T. bisselliella y un 39% con B. mori (la alineación de varios genes Fhx de diferentes especies de lepidópteros se muestra en la Fig. S10). Anteriormente se informó que el ortólogo de Fhx de B. mori se une de forma no covalente a la parte N-terminal de H-Fib y participa en su transporte desde el retículo endoplásmico y también participa en el mantenimiento de la solubilidad de los gránulos secretores de fibroína en la luz de SG56. . En Pseudoips prasinana hay 6 parálogos del gen Fhx, mientras que los ortólogos de Fhx parecen faltar en P. californicus y en miembros de la familia Saturniidae33,46. Además de las verdaderas proteínas Fhx, la mayoría de las polillas también poseen proteínas similares a Fhx lejanamente relacionadas de función desconocida que forman una subfamilia separada5, por ejemplo, dos de ellas en T. bisselliella, ocho en P. prasinana y seis en B. mori5. Curiosamente, no hemos encontrado un homólogo de dicho gen similar a Fhx en Y. cagnagella.

Las proteínas que recubren la seda, que se producen en el glutamato monosódico, están representadas principalmente por sericinas y mucinas. Sufren cambios evolutivos aún más profundos que las subunidades de fibroína, incluidas frecuentes duplicaciones y pérdidas de genes. Las estructuras genómicas de las mucinas y sericinas de Y. cagnagella sugieren que utilizan diferentes estrategias para codificar regiones repetitivas. La Fig. S6 muestra un ejemplo de la enorme divergencia de la supuesta proteína Ser1, que puede ser reconocida por el motivo CXCY cerca de su extremo C (Fig. S6). De manera similar, los miembros de la familia similar a la mucina-1 contienen el motivo CXCYCZ de tres cisteínas (Fig. S11). Curiosamente, mientras que las repeticiones de sericina están dispuestas en tándem en exones grandes, la mucina 1 tiende a duplicar exones completos (Fig. S4). Las alineaciones de proteínas similares a sericina-1 y mucina-1 que se muestran en las figuras S6 y S11 revelan secuencias consenso, que pueden permitir la detección de ortólogos en otros lepidópteros ditrisios. La alineación precisa de otras repeticiones de sericina y mucina para estudios evolutivos es muy difícil y requerirá más datos. La ramificación específica de especie de las proteínas sericina (especialmente aquellas que contienen un alto porcentaje de residuos de serina) en cladogramas reportados previamente sugiere que hubo múltiples eventos de duplicación independientes en la evolución de estos genes. Estas duplicaciones se sugirieron previamente para las sericinas en G. mellonella, A. yamamai o Samia cynthia ricini16.

Varias proteínas, incluidas mucinas y secuencias similares a zonadhesina detectadas en la capa de seda de Y. cagnagella, tienen homólogos en las sedas de otras especies de polillas y, por lo tanto, parecen ser componentes regulares de la seda de Lepidoptera. Tanto las mucinas como las proteínas similares a la zonadhesina podrían tener funciones adhesivas o participar en la protección antimicrobiana. Las proteínas similares a zonadhesina se caracterizan por dominios Til y EGF y por secuencias altamente repetitivas con cisteína como el residuo de aminoácido más abundante, que representa del 12 al 14% del total de residuos de aminoácidos (Tabla 2). Los genes que codifican proteínas similares a zonadhesina varían en tamaño, de modo que los más grandes (Zon3) parecen ser productos duplicados de formas precursoras más cortas (similares a Zon1) (Fig. S4). También se han encontrado mucinas en glándulas labiales de otros insectos y contienen secuencias repetidas en tándem ProThrSer57.

El papel de proteínas menos abundantes anotadas como proteínas similares a fibrilina-1, similares a dentina o similares a alérgenos de veneno en la estructura de la seda de Y. cagnagella no está clara, y sus supuestos homólogos en otras especies, incluida B. mori, no han sido previamente identificados. asociado con la seda. Su especificidad de las glándulas de seda, su hidrofilicidad y sus secuencias repetitivas las vinculan con otras proteínas de revestimiento estructural. Aún no se ha dilucidado la función de otros componentes, incluidos el citocromo b5 (Cyt b5), la sulfatasa (SLP) y la peroxidasa (PXD), que contienen péptidos señal y están presentes en la seda de algunas otras polillas. Necesitamos datos de especies de lepidópteros adicionales para determinar si representan un rasgo primitivo, una adaptación específica de la superfamilia Yponomeutoidea o componentes regulares de la seda.

No todas las proteínas detectadas en los capullos son componentes estructurales de la seda producidos por la SG; la seda también puede contener proteínas del tracto digestivo o proteínas domésticas de las células SG que ingresan a la luz mediante una secreción similar a la apocrina, similar a las glándulas salivales de Drosophila melanogaster58. Se requieren análisis adicionales de productos genéticos candidatos para la expresión específica de SG mediante qPCR y/o transferencia Northern. En este estudio, eliminamos 6 proteínas candidatas de 31 proteínas secretoras detectadas por proteómica como no específicas de las glándulas de seda. En un enfoque similar en T. bisseliella, se encontró que hasta el 50% de las proteínas secretoras detectadas en el capullo eran inespecíficas7.

Más información sobre las sedas producidas por representantes de los principales clados evolutivos de Lepidoptera nos permitirá mejorar nuestro conocimiento de la estructura de la seda, nuestra búsqueda de nuevos biomateriales y anotaciones genéticas más precisas en futuros proyectos de secuenciación. En general, secuenciamos y ensamblamos el genoma de Y. cagnagella y combinamos los resultados con análisis transcriptómicos y proteómicos para identificar todos los genes principales que codifican los componentes de la seda. Además de los análisis ómicos incorporamos información sobre la seda de una especie relacionada, Y. evonymella analizada simultáneamente, lo que nos permitió complementar los resultados mediante búsquedas de homología. Esto resultó en la identificación de tres genes adicionales. Proporcionamos una anotación detallada de 25 genes estructurales principales de la seda, incluidas sus secuencias completas y estructuras exón-intrón. Los métodos ómicos permiten comparaciones detalladas de las sedas de diferentes polillas para buscar los orígenes evolutivos y las adaptaciones funcionales de los componentes individuales de la seda. Este estudio llena un vacío importante en nuestra creciente comprensión de la estructura, evolución y función del gen de la seda y sienta las bases para futuros estudios comparativos detallados.

Para la citometría de flujo se utilizaron machos de Yponomeuta cagnagella (Hübner, 1813) procedentes de una cría masiva en laboratorio iniciada con larvas recogidas en Levin (República Checa). Para la secuenciación y los análisis proteómicos, se recolectaron lotes de huevos de Y. cagnagella en Watergraafsmeer (Ámsterdam, Países Bajos). Las larvas nacidas se criaron en ramitas de su planta alimenticia, Euonymus europaeus (Linnaeus, 1753), hasta la pupa. Las pupas se sexaron por su morfología, se congelaron en nitrógeno líquido y se almacenaron para la extracción de ADN a -80 °C. Se recolectaron larvas de Yponomeuta evonymella (Linnaeus, 1758) en Ámsterdam (Países Bajos) y Vrabce (República Checa). Los adultos de la polilla mediterránea de la harina Ephestia kuehniella (Zeller, 1879; Lepidoptera, Pyralidae) se obtuvieron de la cepa de laboratorio de tipo salvaje WT-C59. Las larvas de la polilla de cera Galleria mellonella (Linnaeus, 1758; Lepidoptera, Pyralidae) procedían de una cepa de laboratorio establecida originalmente a partir de especímenes encontrados en Ceske Budejovice (República Checa).

Preparación completa del SG: Los SG se diseccionaron y se transfirieron a una gota de solución tamponada con fosfato en un portaobjetos de microscopía, se cubrieron con un cubreobjetos y se tomaron imágenes con un microscopio Olympus BX63 (Olympus, Hamburgo, Alemania) equipado con una cámara CCD (Olympus DP74). . La fotografía final se reconstruyó uniendo un conjunto de fotogramas que representan la proyección de varias imágenes de pila Z utilizando el software CellSens (Olympus).

Seccionamiento con Paraplast de las larvas del quinto estadio: La cutícula de las larvas anestesiadas con agua se perforó bajo el fijador a base de ácido pícrico saturado, 3,6% de formaldehído y 2,3% de acetato de cobre suplementado con cloruro de mercurio (solución de Bouin-Hollande)60. Después de una hora de fijación, las larvas se cortaron en tres partes y posteriormente se fijaron durante la noche a 4 °C. Se utilizaron técnicas estándar para la deshidratación del tejido, la inclusión en paraplast, el corte a 7-10 μm, la desparafinización y la rehidratación. Las secciones se trataron con yodo de Lugol seguido de una solución de tiosulfato de sodio al 7,5% para eliminar los iones de metales pesados ​​residuales y luego se lavaron con agua destilada. La tinción se realizó con el kit HT15 Trichrome Stain (Masson) (Sigma-Aldrich, Burlington, EE. UU.) de acuerdo con el protocolo del fabricante. Las secciones teñidas se deshidrataron y se montaron en medio de montaje DPX (Fluka, Buchs, Suiza). Se capturaron imágenes de alta resolución uniendo varios fotogramas utilizando un microscopio BX63, una cámara CMOS DP74 y el software cellSens (Olympus).

Secciones semifinas de capullos: Se cortaron partes de capullos incrustados en resina (Epon) con un cuchillo de vidrio y se tiñeron con azul de toluidina. Las muestras se observaron y se tomaron imágenes bajo el microscopio BX51 (Olympus, Hamburgo, Alemania) equipado con la cámara CMOS DP74 (Olympus, Hamburgo, Alemania).

Ultraestructura de la seda: Se pegaron trozos de capullo a soportes de aluminio, se recubrieron con oro y se analizaron utilizando un microscopio electrónico de barrido Jeol JSM-7401F (Jeol, Akishima, Japón).

El tamaño del genoma masculino de Y. cagnagella se determinó a partir de tejido cerebral mediante citometría de flujo61 utilizando machos de E. kuehniella como estándar interno (1C = 440 Mbp;62). Brevemente, se cortó una cabeza fresca de Y. cagnagella macho junto con una cabeza de E. kuehniella estándar usando una hoja de afeitar en 500 μL de tampón de aislamiento de núcleos (Tris-HCl 0,1 M, pH 7,5, MgCl2 2 mM, Triton X-1%). 100; 62. La suspensión se filtró y se agregaron 500 µL de tampón de aislamiento de núcleos. Las muestras se tiñeron con yoduro de propidio (50 µg/mL) durante 20 minutos y se analizaron con un citómetro de flujo Sysmex CyFlow Space (Sysmex Partec, Münster, Alemania). equipado con un láser de estado sólido (verde) de 100 mW y 532 nm. La intensidad de la fluorescencia y la luz dispersa lateral (SSC) de al menos 8.000 núcleos se registraron y analizaron utilizando el software FlowJo 10 (TreeStar, Inc., Ashland, OR, EE. UU.). Se registraron la media, el coeficiente de variación y el número de núcleos analizados para los picos de 2C tanto de la muestra como del estándar, y se calculó la relación estándar/muestra de fluorescencia media.

El ADN genómico para el ensamblaje del genoma y la secuenciación de Illumina se extrajo de una única pupa masculina mediante extracción CTAB63. Se extrajo ADN de alto peso molecular para la secuenciación de Nanopore de tres pupas masculinas utilizando el kit MagAttract HMW DNA (Qiagen, Hilden, Alemania) de acuerdo con las instrucciones del fabricante.

Para el análisis de genes relacionados con la seda, se aisló el ARN total de las glándulas de seda del último estadio larval utilizando el reactivo TRIzol (Invitrogen, Carlsbad, CA), seguido del aislamiento del ARNm utilizando el kit de purificación de ARNm Dynabeads Oligo (dT)25 (Thermo Fisher Scientific, Waltham , EE. UU.), y el ADNc se preparó utilizando el kit NEXTflex Rapid RNA-Seq (Bioo Scientific, Austin, EE. UU.). Además, para anotar el genoma, se extrajo el ARN de las cabezas, el tórax y las gónadas de tres imagos masculinos y femeninos con TRI-Reagent (Sigma-Aldrich) de acuerdo con el protocolo proporcionado. Las réplicas biológicas se combinaron antes del aislamiento, lo que dio como resultado tres muestras de tejido específico para cada sexo.

Para ensamblar el genoma de Y. cagnagella, Novogene (HK) Co, Ltd. (Hong Kong, China) secuenció las lecturas de Oxford Nanopore en la plataforma Nanopore PromethION. Además, el Genomics Core Facility del Laboratorio Europeo de Biología Molecular (Heidelberg, Alemania) preparó y secuenció una biblioteca Illumina con un tamaño de inserción de 700 pb en el Illumina HiSeq 2500 con lecturas de extremos emparejados de 250 pb. Las lecturas sin procesar se depositaron en NCBI con los números de acceso de la SRA SRR15714088 y SRR15714089.

Primero, las secuencias de adaptadores y las bases de baja calidad se filtraron de los datos de Illumina utilizando Trimmomatic (versión 0.36;64) con los siguientes parámetros: “ILLUMINACLIP: /PATH/TruSeq3-PE-2.fa:2:30:10:1: true SLIDINGWINDOW:4:20 MINLEN:100” y la calidad de las lecturas se inspeccionó con FastQC (versión 0.11.5;65). El tamaño del genoma y la heterocigosidad se estimaron a partir de los datos filtrados utilizando GenomeScope (versión 1.0;35). Las medusas contaron los K-mers de longitud 31 (versión 2.3.0;66).

Las lecturas de nanoporos de menos de 500 pb y con un puntaje de calidad inferior a 7 se eliminaron del conjunto de datos con NanoFilt (versión 2.7.1;67) y las lecturas se visualizaron usando NanoPlot (versión 1.33.1;59). A continuación, se utilizó el corrector de lectura larga del índice FM (FMLRC versión 1.0.0; 41) con la configuración predeterminada para corregir las lecturas largas utilizando las secuencias de Illumina filtradas. Según lo recomendado, se utilizaron ropebwt268 y fmlrc-convert para construir la estructura de datos BWT de cadenas múltiples requerida por la canalización FMLRC. Luego, las lecturas largas preprocesadas se ensamblaron con Flye (versión 2.8;69) con la configuración ajustada a la entrada corregida, el tamaño del genoma de Y. cagnagella y tres iteraciones de pulido ("--nano-corr -genome-size 750 m --iterations 3" ).

Para eliminar las duplicaciones haplotípicas del ensamblaje primario, se aplicó la tubería purge_dups (versión 1.0.1;70), seguido de pulido con POLCA (MaSuRCA versión 3.4.2;42). La evaluación de la calidad del borrador del genoma se realizó utilizando QUAST (versión 4.6.371, conjunto de herramientas BUSCO (versión 5.2.2, el conjunto de datos para el linaje Insecta; 72) y se verificó la contaminación del genoma final con Kraken 2 (versión 1.0; 40 ).

La composición repetida y el contenido promedio de GC se analizaron con los paquetes de software RepeatModeler (versión 1.0 (ref.39, 2008-2015) y RepeatMasker (versión 4.039). Para lograr un enmascaramiento más preciso, los satélites principales (Tab S3) se identificaron con TAREAN (versión 0.3). .8-451;73) a partir de datos de Illumina submuestreados a una cobertura del genoma de 0,25 ×. En el proceso de repetición de Masker se utilizó una biblioteca de repetición personalizada creada a partir de la secuencia del genoma con RepeatModeler con dímeros satélite añadidos para estudiar el panorama de elementos repetitivos y generar una versión enmascarada de la Y. .montaje cagnagella.

Para la anotación del genoma, todos los datos de RNA-seq (números de acceso de SRA SRX17830525-SRX17830530) se concatenaron en un único conjunto de datos, incluido el RNA-seq de la glándula de seda (ver más abajo). La calidad de la secuenciación se verificó mediante FastQC (versión 0.11.5;65). Los 2,87 Gb de datos resultantes se alinearon con el ensamblaje del genoma enmascarado utilizando STAR (versión 2.7.7a;74). El índice del genoma se generó con el siguiente parámetro reducido al tamaño del genoma de Y. cagnagella: “--genomeSAindexNbases 13”. Los genes se predijeron con BRAKER (versión 2.1.5;75) y se anotaron usando BLASTp con la base de datos de proteínas de invertebrados NCBI RefSeq76, todo implementado en la plataforma GenSAS (versión 6.0;77). BUSCO (versión 5.2.2; 72) evaluó la integridad del conjunto de genes con el conjunto de datos insecta_odb10 y los resúmenes descriptivos se calcularon utilizando el script gff3_stats.py de la suite GenomeGC78.

Finalmente, la calidad del ensamblaje de Y. cagnagella se comparó con estadísticas resumidas de otros ensamblajes de lepidópteros basados ​​en datos de Oxford Nanopore, a saber, la punta arqueada del anzuelo Drepana arcuata79, la polilla del cacao Ephestia elutella80, el gusano del saco Eumeta variegata2, el gusano del tabaco Manduca sexta81, el marrón de pradera Maniola jurtina82, el barrenador mediterráneo del maíz Sesamia nonagrioides83 y el gusano cogollero de la remolacha Spodoptera exigua84, así como con un genoma de referencia de Bombyx mori85 y un genoma del pariente cercano P. xylostella86 (Tabla 1).

El aislamiento de ARN, la síntesis de bibliotecas de ADNc y la secuenciación de ARN se realizaron como se describió anteriormente7 (consulte la sección “Especificidad de transcripción de proteínas candidatas de seda y similitud entre genes de seda candidatos de Y. cagnagella e Y. 200 evonymella”). La biblioteca de ADNc se secuenció en la plataforma Illumina 2 × 150 pb (lecturas de extremos emparejados) con MiSeq. La eliminación y el recorte de las secuencias del adaptador se realizaron utilizando BBDUK (BBtools suite) con las siguientes configuraciones: ordenado = t; ktrim = r; k = 23; visón = 11; hdist = 1; qtrim = rl; trimq = 20; longitud mínima = 35; tipo; tbo. Se realizó un paso adicional de contaminación por ARNr utilizando BBDUK con el archivo ribokmers.fa87 asociado, para eliminar la contaminación por ARNr del paso de enriquecimiento de ARNm de la preparación de la biblioteca. Las lecturas limpias se ensamblaron en un transcriptoma utilizando el ensamblador multi k-mer rnaSPAdes (versión 3.13.1; 88). Se eligieron tamaños de K-mer de 25, 35, 45, 55, 65 y 75 para el ensamblaje de novo para aumentar la probabilidad de recuperación máxima de la transcripción89. Se utilizó salmón (versión 1.0.0; 90) para cuantificar la abundancia de transcripciones. Las transcripciones con un valor de TPM <1 se consideraron artefactos y, por lo tanto, se eliminaron del ensamblaje final. Se utilizó BUSCO (versión 5.2.2;72,91) para evaluar la integridad del ensamblaje, utilizando el conjunto de datos Insecta odb10 (https://busco.ezlab.org/). Las lecturas sin procesar utilizadas para generar el ensamblaje están disponibles a través del NCBI (número de acceso de la SRA: SRR15714087).

Para la comparación de secuencias, utilizamos datos de secuenciación de ARN de larvas de Y. evonymella del BioProject PRJNA788289. Las lecturas sin procesar de Illumina se procesaron y ensamblaron siguiendo a Yoshido et al.92.

El transcriptoma se anotó utilizando el alineador de proteínas DIAMOND (versión 0.9.27.128;;93) con las últimas versiones NCBI Non-Redundant (nr) y Uniprot-Swissprot (consultada el 26/11/19). La función BlastX se utilizó con la configuración predeterminada y un valor e de 1,0 × 10-5. Luego, los impactos explosivos se clasificaron según la puntuación de bits, el valor electrónico y el porcentaje de identidad. Se retuvo el mejor resultado para cada transcripción. Los ORF se predijeron utilizando el Transdecoder. Script LongOrfs de Transdecoder (versión 5.5;94). Luego se buscaron péptidos señal en los ORF utilizando SignalP5.0b en modo eucariota95.

La transferencia Northern se realizó como se describió anteriormente16. Tejidos de Y. cagnagella: glándulas de seda, cadáveres de larvas con glándulas de seda extirpadas y pupas, glándulas de seda de Y. evonymella y cadáveres de larvas se homogeneizaron y se aisló el ARN total utilizando ARN azul (Top-Bio, Vestec, República Checa). Se separaron 5 µg de ARN total en un gel de agarosa y se transfirieron a una membrana de nailon. Las sondas se prepararon mediante PCR, se marcaron con [α-32P]dATP y luego las membranas se hibridaron y se autorradiografiaron como se describe16. La lista de cebadores se muestra en la Tabla S1.

Se analizaron mediante qPCR cuatro tipos de tejidos de Y. cagnagella (glándulas de seda, intestino, cuerpo graso y tegumento) en tres réplicas biológicas. Los cebadores (Tabla S2) se diseñaron con el software Lasergene PrimerSelect (DNASTAR, Madison, EE. UU.) para lograr la función óptima. El volumen de la reacción de PCR fue de 20 µl y contenía 0,1 µg de ADNc diluido, cebadores 250 nM y 4 µl de la mezcla HOT FIREPol EvaGreen qPCR Mix Plus (Solis BioDyne, Tartu, Estonia). Después del paso inicial de desnaturalización/activación de Pol (95 °C durante 15 min), se llevaron a cabo 45 ciclos (95 °C durante 15 s; temperatura de hibridación ajustada al par de cebadores durante 30 s; 72 °C durante 20 s) usando el instrumento Rotor-Gene Q MDx 2plex HRM (Qiagen, Hilden, Alemania). Cada muestra fue analizada en tres réplicas técnicas. Los datos se procesaron mediante el cálculo de 2ΔCt utilizando el factor de alargamiento 1-α como normalizador. La significación estadística se determinó mediante la prueba de suma de rangos de Kruskal-Wallis y la prueba de suma de rangos de Wilcoxon.

Para calcular las diferencias genéticas entre Y. cagnagella e Y. evonymella utilizamos ADNc que codifican ocho proteínas detectadas en la seda. La alineación y los cálculos de las diferencias genéticas (distancia p) se realizaron utilizando el software MEGA-X96. Para el análisis sólo se utilizaron regiones codificantes sin espacios ni codones de parada.

Se prepararon muestras de proteínas para espectrometría de masas como se describió anteriormente7. Se disolvieron muestras de capullos de seda (5 mg) en urea 8 M, se tripsinizaron y se acidificaron con ácido trifluoroacético (hasta una concentración final del 1%). Los péptidos se desalinizaron y analizaron mediante cromatografía líquida a nanoescala acoplada a espectrometría de masas en tándem (nLC-MS/MS). Los péptidos se analizaron y cuantificaron utilizando algoritmos MaxQuant (versión 1.5.3.8)97. La tasa de descubrimiento falso (FDR) se fijó en el 1% tanto para proteínas como para péptidos. Se utilizó el motor de búsqueda Andromeda integrado en MaxQuant98 para identificar péptidos mediante la búsqueda de espectros MS/MS en una base de datos derivada del transcriptoma descrito anteriormente.

Más información sobre el diseño de la investigación está disponible en el Resumen del informe de Nature Portfolio vinculado a este artículo.

Los datos experimentales que respaldan los resultados de este estudio están disponibles en este artículo o en los materiales complementarios. Los datos sin procesar se han depositado en NCBI con los números de acceso del bioproyecto PRJNA760528 y PRJNA788289. El transcriptoma y el conjunto del genoma con máscara suave se depositaron en el repositorio Dryad (//doi.org/10.5061/dryad.4j0zpc8d3). Para la anotación del genoma, se concatenaron todos los datos de RNA-seq (números de acceso de SRA SRX17830525-SRX17830530). La lista de candidatos al gen de la seda y sus códigos de acceso a GenBank se muestran en la Tabla 2. Los datos subyacentes a los gráficos de la Fig. 4 están disponibles como datos complementarios (Tabla S6). Las imágenes de transferencia/gel sin recortar y sin editar se incluyen como Figura complementaria S12.

Sutherland, TD, Young, JH, Weisman, S., Hayashi, CY & Merritt, DJ Seda de insectos: un nombre, muchos materiales. Año. Rev. Entomol. 55, 171–188 (2010).

Artículo CAS PubMed Google Scholar

Kono, N. y col. El genoma del gusano de bolsa revela un gen de fibroína único que proporciona una alta resistencia a la tracción. Comunitario. Biol. 2, 148 (2019).

Artículo PubMed PubMed Central Google Scholar

Kono, N. y col. La araña de corteza de Darwin comparte un repertorio de espidroína con Caerostris extrusa, pero logra una extraordinaria dureza de la seda mediante la expresión genética. Biol abierto. 11, 210242 (2021).

Luo, SQ, Tang, M., Frandsen, PB, Stewart, RJ y Zhou, X. El genoma de un arquitecto submarino, el caddisfly Stenopsyche tienmushanensis Hwang (Insecta: Trichoptera). Gigaciencia 7, giy143 (2018).

Rindos, M. et al. La comparación de sedas de pseudoips prasinana y bombyx mori muestra convergencia molecular en las cadenas pesadas de fibroína, pero grandes diferencias en otros componentes de la seda. En t. J. Mol. Ciencia. 22, 8246 (2021).

Kono, N. y col. La naturaleza multicomponente subyace a las extraordinarias propiedades mecánicas de la seda de dragalina de araña. Proc. Acad. Nacional. Ciencia. Estados Unidos 118, e2107065118 (2021).

Rouhova, L. et al. Seda de la polilla común de la ropa, Tineola bisselliella, una plaga cosmopolita perteneciente a la línea basal de la polilla ditrisia. Bioquímica de insectos. Mol. Biol. 130, 103527 (2021).

Artículo CAS PubMed Google Scholar

Frandsen, PB y cols. Explorando las arquitecturas sedosas submarinas de los gusanos caddis: sedosómica comparada entre dos subórdenes de caddisfly. Filos. Trans. R. Soc. B 374, 20190206 (2019).

Rouhová, L. et al. Utilizando el enfoque multiómico para revelar la composición de la seda en Plectrocnemia conspersa. Frente. Mol. Biosci. 9, https://doi.org/10.3389/fmolb.2022.945239 (2022).

Sutherland, TD y cols. Biocompatibilidad y respuesta inmunogénica al material de seda de abeja recombinante. J. Biomed. Madre. Res A 107, 1763-1770 (2019).

CAS PubMed Google Académico

Sutherland, TD y cols. Conservación de características esenciales del diseño en sedas enrolladas. Mol. Biol. Evolución 24, 2424–2432 (2007).

Artículo CAS Google Scholar

Kristensen, NP, Scoble, MJ y Karsholt, O. Filogenia y sistemática de lepidoptera: el estado del inventario de la diversidad de polillas y mariposas. Zootaxa 699–747 (2007).

Thomas, JA, Frandsen, PB, Prendini, E., Zhou, X. y Holzenthal, RW Una filogenia multigénica y cronología de Trichoptera (Insecta. Syst. Entomol. 45, 670–686 (2020).

Sehnal, F. & Akai, H. Glándulas de seda de insectos: sus tipos, desarrollo y función, y efectos de los factores ambientales y las hormonas morfogenéticas sobre ellas. En t. J. Insecto Morfol. 19, 79-132 (1990).

Artículo de Google Scholar

Sehnal, F. & Zurovec, M. Construcción de un núcleo de fibra de seda en lepidópteros. Biomacromoléculas 5, 666–674 (2004).

Artículo CAS PubMed Google Scholar

Kludkiewicz, B. y col. La expansión de genes que codifican componentes solubles de la seda en la polilla de la cera mayor, Galleria mellonella. Bioquímica de insectos. Mol. Biol. 106, 28–38 (2019).

Artículo CAS PubMed Google Scholar

Zhang, Y. et al. Análisis comparativo del proteoma del capullo multicapa del gusano de seda Bombyx mori. MÁS UNO 10, e0123403 (2015).

Artículo PubMed PubMed Central Google Scholar

Tsubota, T., Yamamoto, K., Mita, K. y Sezutsu, H. Análisis de la expresión genética en la glándula de seda larvaria del gusano de seda eri Samia ricini. Ciencia de insectos. 23, 791–804 (2016).

Artículo CAS PubMed Google Scholar

Zurovec, M., Sehnal, F., Scheller, K. y Kumaran, AK Cdnas específicas de glándulas de seda de Galleria-Mellonella L. Insect Biochem. Mol. 22, 55 (1992).

Artículo CAS Google Scholar

Tsubota, T. y col. El análisis transcriptómico de la glándula de la seda de la polilla del gusano de bolsa revela una serie de genes de la seda conservados dentro de los lepidópteros. Ciencia de insectos. 28, 885–900 (2021).

Artículo CAS PubMed Google Scholar

Sohn, JC y cols. Una filogenia molecular de yponomeutoidea (insectos, lepidópteros, ditrisia) y sus implicaciones para la clasificación, biogeografía y la evolución del uso de plantas hospedantes. MÁS UNO 8, e55066 (2013).

Artículo CAS PubMed PubMed Central Google Scholar

Común, polillas IFB de Australia (Melbourne University Press, 1990).

Kuznetsov, NY Una revisión de Amber Lepidoptera. (Instituto Paleontológico, Academia de Ciencias de la URSS, 1941).

Powell, JA, Mitter, C. y Farrell, BD en Handbook of Zoology 4 vol. vol. 1: Evolución, sistemática y biogeografía (ed Kristensen, NP) 403–422 (Walter de Gruyter, 1998).

Grimaldi, DA y Engel, MS Evolución de los insectos (Cambridge University Press, 2005).

Löfstedt, C., Herrebout, WM & Menken, SBJ Feromonas sexuales y su papel potencial en la evolución del aislamiento reproductivo en pequeñas polillas armiño (Yponomeutidae). Quimioecología 2, 20–28 (1991).

Artículo de Google Scholar

Menken, SBJ, Herrebout, WM & Wiebes, JT Pequeñas polillas de armiño (Yponomeuta): sus relaciones de acogida y evolución. Año. Rev. Entomol. 37, 41–66 (1992).

Artículo de Google Scholar

Roessingh, P., Xu, S. y Menken, SB Receptores olfativos en los palpos maxilares de pequeñas larvas de polilla armiño: historia evolutiva de la sensibilidad al benzaldehído. J.Comp. Fisiol. R: Neuroetol. Sens. Comportamiento neuronal. Fisiol. 193, 635–647 (2007).

Artículo CAS PubMed Google Scholar

Hora, KH Arquitectura genética de especialización de huéspedes en Yponomeuta. (2014).

Ulenberg, SA Filogenia de las especies de Yponomeuta (Lepidoptera, Yponomeutidae) y la historia de sus asociaciones con plantas hospedantes. Tijdschr. para Entomologie 152, 187–207 (2009).

Artículo de Google Scholar

Turner, H., Lieshout, N., Van Ginkel, WE y Menken, SB Filogenia molecular de la pequeña polilla armiño del género Yponomeuta (Lepidoptera, Yponomeutidae) en el paleártico. MÁS UNO 5, e9933 (2010).

Artículo PubMed PubMed Central Google Scholar

Gershenson, ZS, Pavlicek, T., Kravchenko, V. & Nevo, E. Polillas yponomeutoides (Lepidoptera: Yponomeutidae, Plutellidae, Argyresthiidae) de Israel. vol. 58 (Pensoft Editores, 2006).

Yonemura, N. & Sehnal, F. El diseño de la composición de la fibra de seda en las polillas se ha conservado durante más de 150 millones de años. J. Mol. Evolución 63, 42–53 (2006).

Artículo CAS Google Scholar

Zurovec, M. et al. Conservación funcional y diversificación estructural de sericinas de seda en dos especies de polillas. Biomacromoléculas 14, 1859–1866 (2013).

Artículo CAS PubMed Google Scholar

Vurture, GW et al. GenomeScope: creación rápida de perfiles del genoma sin referencias a partir de lecturas breves. Bioinformática 33, 2202–2204 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Liu, GC y cols. Variación del tamaño del genoma en mariposas (Insecta, Lepidotera, Papilionoidea): una comparación filogenética exhaustiva. Sistema. Entomol. 45, 571–582 (2020).

Artículo de Google Scholar

Chen, Q. y col. El genoma del gusano telaraña Hyphantria cunea revela adaptaciones genéticas que respaldan su rápida invasión y propagación. Bmc Genomics 21, 242 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Yandell, M. & Ence, D. Una guía para principiantes sobre la anotación del genoma eucariota. Nat. Rev. Genet. 13, 329–342 (2012).

Artículo CAS PubMed Google Scholar

Smit, AFA, Hubley, R. y Green, P. RepeatMasker Open-4.0. (2013-2015).

Wood, DE, Lu, J. & Langmead, B. Análisis metagenómico mejorado con Kraken 2. Genome Biol. 20, 257 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Wang, JR, Holt, J., McMillan, L. & Jones, CD FMLRC: Corrección de errores de lectura larga híbrida mediante un índice FM. Bioinformación de BMC. 19, 50 (2018).

Artículo CAS Google Scholar

Zimin, AV & Salzberg, SL La herramienta de pulido del genoma POLCA realiza correcciones rápidas y precisas en ensamblajes de genomas. Computación PLoS. Biol. 16, e1007981 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Inoue, S. et al. Se secreta fibroína de seda de Bombyx mori, ensamblando una unidad elemental de alta masa molecular que consta de cadena H, cadena L y P25, con una relación molar de 6:6:1. J. Biol. Química. 275, 40517–40528 (2000).

Artículo CAS PubMed Google Scholar

Shimura, K. Composición química y biosíntesis de proteínas de seda. Experiencia 39, 455–461 (1983).

Artículo CAS Google Scholar

Yamaguchi, K. y col. Estructura primaria de la cadena ligera de fibroína de seda determinada mediante secuenciación de ADNc y análisis de péptidos. J. Mol. Biol. 210, 127-139 (1989).

Artículo CAS PubMed Google Scholar

Tanaka, K. & Mizuno, S. Los homólogos de la cadena L de fibroína y P25 de Bombyx mori están presentes en Dendrolimus spectabilis y Papilio xuthus, pero no son detectables en Antheraea yamamai. Bioquímica de insectos. Mol. Biol. Rev. 31, 665–677 (2001).

Artículo CAS PubMed Google Scholar

Zurovec, M., Kodrik, D., Yang, C., Sehnal, F. y Scheller, K. El componente P25 de la seda Galleria. Lunar. Gen. Gineta. Rev. 257, 264–270 (1998).

Artículo CAS PubMed Google Scholar

Zurovec, M., Vaskova, M., Kodrik, D., Sehnal, F. y Kumaran, AK Fibroína de cadena ligera de Galleria mellonella L. Mol. Gen. Gineta. 247, 1–6 (1995).

Artículo CAS PubMed Google Scholar

Lucas, F. y Rudall, KM en Bioquímica integral vol. 26 (eds. Florkin, M. y Stotz, EH) 475–558 (Elsevier, 1968).

Zhou, CZ y cols. Organización fina del gen de la cadena pesada de fibroína de Bombyx mori. Ácidos nucleicos res. 28, 2413–2419 (2000).

Artículo CAS PubMed PubMed Central Google Scholar

Warwicker, JO Estudios comparativos de fibroínas. II. Las estructuras cristalinas de varias fibroínas. J. Mol. Biol. 2, 350–362 (1960).

Artículo CAS PubMed Google Scholar

Craig, CL Evolución de las sedas de artrópodos. Año. Rev. Entomol. 42, 231–267 (1997).

Artículo CAS PubMed Google Scholar

Inoue, S. et al. Ensamblaje de la unidad elemental de fibroína de seda en el retículo endoplásmico y función de la cadena L para la protección de los residuos de alfa1,2-manosa en cadenas de oligosacáridos unidos a N de fibrohexamerina/P25. EUR. J. Bioquímica. 271, 356–366 (2004).

Artículo CAS PubMed Google Scholar

Tanaka, K., Inoue, S. & Mizuno, S. Interacción hidrofóbica de P25, que contiene cadenas de oligosacáridos unidas a Asn, con el complejo HL de fibroína de seda producido por Bombyx mori. Bioquímica de insectos. Mol. Biol. 29, 269–276 (1999).

Artículo CAS PubMed Google Scholar

Yonemura, N., Mita, K., Tamura, T. y Sehnal, F. Conservación de genes de la seda en Trichoptera y Lepidoptera. J. Mol. Evolución. 68, 641–653 (2009).

Artículo CAS PubMed PubMed Central Google Scholar

Zabelina, V. et al. La mutación en el gen de la fibrohexamerina (P25) de Bombyx mori provoca la reorganización del retículo endoplásmico rugoso en las células de la glándula de seda posterior y altera la morfología de los glóbulos secretores de fibroína en la luz de la glándula de seda. Bioquímica de insectos. Mol. Biol. 135, 103607 (2021).

Artículo CAS PubMed Google Scholar

Syed, ZA, Hard, T., Uv, A. & van Dijk-Hard, IF Un papel potencial de las mucinas de Drosophila en el desarrollo y la fisiología. MÁS UNO 3, e3041 (2008).

Farkas, R. y col. Secreción apocrina en glándulas salivales de Drosophila: origen subcelular, dinámica e identificación de proteínas secretoras. MÁS UNO 9, e94383 (2014).

Artículo PubMed PubMed Central Google Scholar

Marec, F. Control genético de la plaga Lepidoptera: inducción de una mutación letal recesiva ligada al sexo en Ephestia kuehniella (Pyralidae). Acta Entomol. Bohemoslov. 87, 445–458 (1990).

Google Académico

Levine, JD, Sauman, I., Imbalzano, M., Reppert, SM y Jackson, FR La proteína del período de la polilla de seda gigante Antheraea pernyi funciona como un elemento del reloj circadiano en Drosophila melanogaster. Neurona 15, 147-157 (1995).

Artículo CAS PubMed Google Scholar

Hejnickova, M. y col. Ausencia del cromosoma W en polillas psychidae e implicaciones para la teoría de la evolución de los cromosomas sexuales en Lepidoptera. Genes (Basilea) 10, https://doi.org/10.3390/genes10121016 (2019).

Buntrock, L., Marec, F., Krueger, S. & Traut, W. Crecimiento de órganos sin división celular: poliploidía somática en una polilla, Ephestia kuehniella. Genoma 55, 755–763 (2012).

Artículo PubMed Google Scholar

Ferguson, KB et al. ¿Jekyll o Hyde? El genoma (y más) de Nesidiocoris tenuis, un insecto depredador zoofitófago que es a la vez un agente de control biológico y una plaga. Insecto Mol. Biol. 30, 188-209 (2021).

Artículo CAS PubMed Google Scholar

Bolger, AM, Lohse, M. & Usadel, B. Trimmomatic: un recortador flexible para datos de secuencia de Illumina. Bioinformática 30, 2114-2120 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Andrews, S. FastQC: una herramienta de control de calidad para datos de secuencia de alto rendimiento [en línea]. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ (2010).

Marcais, G. & Kingsford, C. Un enfoque rápido y sin bloqueos para el recuento paralelo eficiente de apariciones de k-mers. Bioinformática 27, 764–770 (2011).

Artículo CAS PubMed PubMed Central Google Scholar

De Coster, W., D'Hert, S., Schultz, DT, Cruts, M. y Van Broeckhoven, C. NanoPack: visualización y procesamiento de datos de secuenciación de lectura larga. Bioinformática 34, 2666–2669 (2018).

Artículo PubMed PubMed Central Google Scholar

Li, H. Construcción rápida de índice FM para lecturas de secuencia larga. Bioinformática 30, 3274–3275 (2014).

Artículo CAS PubMed PubMed Central Google Scholar

Kolmogorov, M., Yuan, J., Lin, Y. y Pevzner, PA Montaje de lecturas largas y propensas a errores utilizando gráficos repetidos. Nat. Biotecnología. 37, 540–546 (2019).

Artículo CAS PubMed Google Scholar

Guan, D. y col. Identificar y eliminar duplicaciones haplotípicas en ensamblajes de genoma primario. Bioinformática 36, ​​2896–2898 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Mikheenko, A., Valin, G., Prjibelski, A., Saveliev, V. & Gurevich, A. Icarus: visualizador para evaluación de ensamblajes de novo. Bioinformática 32, 3321–3323 (2016).

Artículo CAS PubMed Google Scholar

Seppey, M., Manni, M. y Zdobnov, EM BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma. Métodos Mol. Biol. 1962, 227–245 (2019).

Artículo CAS PubMed Google Scholar

Novak, P. y col. TAREAN: una herramienta computacional para la identificación y caracterización de ADN satélite a partir de lecturas cortas no ensambladas. Ácidos nucleicos res. 45, e111 (2017).

Dobin, A. y col. STAR: alineador universal ultrarrápido de RNA-seq. Bioinformática 29, 15-21 (2013).

Artículo CAS PubMed Google Scholar

Hoff, KJ, Lomsadze, A., Borodovsky, M. y Stanke, M. Anotación del genoma completo con BRAKER. Predicción genética: protocolo de métodos. 1962, 65–95 (2019).

CAS Google Académico

O'Leary, NA et al. Base de datos de secuencias de referencia (RefSeq) en NCBI: estado actual, expansión taxonómica y anotación funcional. Ácidos nucleicos res. 44, D733–D745 (2016).

Artículo PubMed Google Scholar

Humann, JL, Lee, T., Ficklin, S. & Main, D. Anotación estructural y funcional de genomas eucariotas con GenSAS. Predicción genética: protocolo de métodos. 1962, 29–51 (2019).

CAS Google Académico

Manchanda, N. et al. GenomeQC: una herramienta de evaluación de calidad para ensamblajes de genomas y anotaciones de estructuras genéticas. Bmc Genomics 21, https://doi.org/10.1186/s12864-020-6568-2 (2020).

Yadav, C., Smith, M., Ogunremi, D. & Yack, J. Borrador del ensamblaje del genoma y anotación de la oruga de abedul enmascarada, Drepana arcuata (Lepidoptera: Drepanoidea). Resumen de datos 33, 106531 (2020).

Yan, B., Yu, X., Dai, R., Li, Z. y Yang, M. Ensamblaje del genoma a nivel cromosómico de Nephotettix cincticeps (Uhler, 1896) (Hemiptera: Cicadellidae: Deltocephalinae). Genoma Biol. Evol., https://doi.org/10.1093/gbe/evab236 (2021).

Gershman, A. y col. Ensamblaje del genoma de novo de la polilla del gusano cornudo del tabaco (Manduca sexta). G3 (Bethesda) 11, https://doi.org/10.1093/g3journal/jkaa047 (2021).

Singh, KS y cols. Ensamblaje del genoma De Novo de la mariposa marrón de la pradera, Maniola jurtina. G3 (Bethesda) 10, 1477–1484 (2020).

Artículo CAS PubMed Google Scholar

Müller, H. et al. Proyecto de genoma nuclear y mitogenoma completo del barrenador del maíz mediterráneo, Sesamia nonagrioides, una plaga importante del maíz. G3 (Bethesda), https://doi.org/10.1093/g3journal/jkab155 (2021).

Simón, S. et al. El análisis del genoma y transcriptoma del gusano cogollero de la remolacha Spodoptera exigua revela objetivos para el control de plagas. G3 (Bethesda), https://doi.org/10.1093/g3journal/jkab311 (2021).

Kawamoto, M. y col. Ensamblaje del genoma de alta calidad del gusano de seda Bombyx mori. Bioquímica de insectos. Mol. Biol. 107, 53–62 (2019).

Artículo CAS PubMed Google Scholar

Ward, CM y cols. Un ensamblaje del genoma de la polilla haploide Diamondback (Plutella xylostella L.) resuelve 31 cromosomas e identifica una mutación de resistencia a la diamida. Bioquímica de insectos. Mol. Biol. 138, 103622 (2021).

Artículo CAS PubMed Google Scholar

Bushnell, B., Rood, J. & Singer, E. BBMerge: lectura de escopeta emparejada precisa que se fusiona mediante superposición. MÁS UNO 12, e0185056 (2017).

Artículo PubMed PubMed Central Google Scholar

Bushmanova, E., Antipov, D., Lapidus, A. y Prjibelski, AD rnaSPAdes: un ensamblador de transcriptoma de novo y su aplicación a datos de RNA-Seq. Gigaciencia 8, https://doi.org/10.1093/gigascience/giz100 (2019).

Hara, Y. et al. Optimización y evaluación comparativa de la secuenciación del transcriptoma de novo: desde la preparación de la biblioteca hasta la evaluación del ensamblaje. Bmc Genomics 16, 977 (2015).

Artículo PubMed PubMed Central Google Scholar

Patro, R., Duggal, G., Love, MI, Irizarry, RA y Kingsford, C. Salmon proporciona una cuantificación rápida y consciente de los sesgos de la expresión de la transcripción. Nat. Métodos 14, 417–419 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Simao, FA, Waterhouse, RM, Ioannidis, P., Kriventseva, EV y Zdobnov, EM BUSCO: evaluación de la integridad del ensamblaje y la anotación del genoma con ortólogos de copia única. Bioinformática 31, 3210–3212 (2015).

Artículo CAS PubMed Google Scholar

Yoshido, A. y col. Evolución de múltiples cromosomas sexuales asociados con la reorganización dinámica del genoma en mariposas de color blanco madera Leptidea. Herencia (Edinb.) 125, 138-154 (2020).

Artículo CAS PubMed Google Scholar

Buchfink, B., Xie, C. y Huson, DH Alineamiento de proteínas rápido y sensible utilizando DIAMOND. Nat. Métodos 12, 59–60 (2015).

Artículo CAS PubMed Google Scholar

Haas, B. y A., P. TransDecoder 5.5.0 [en línea]. (consultado en 2019).

Almagro Armenteros, JJ et al. SignalP 5.0 mejora las predicciones de péptidos señal utilizando redes neuronales profundas. Nat. Biotecnología. 37, 420–423 (2019).

Artículo CAS PubMed Google Scholar

Kumar, S., Stecher, G., Li, M., Knyaz, C. y Tamura, K. MEGA X: análisis de genética evolutiva molecular en plataformas informáticas. Mol. Biol. Evolución. 35, 1547-1549 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Cox, J. y col. Cuantificación precisa sin etiquetas de todo el proteoma mediante normalización retardada y extracción de la proporción máxima de péptidos, denominada MaxLFQ. Mol. Proteoma celular. 13, 2513–2526 (2014).

Artículo CAS Google Scholar

Cox, J. y col. Andromeda: un motor de búsqueda de péptidos integrado en el entorno MaxQuant. J. Proteoma Res. 10, 1794–1805 (2011).

Artículo CAS PubMed Google Scholar

Descargar referencias

Esta investigación fue apoyada por el Programa Interreg Bayern Tschechische Republik Ziel ETZ 2021–2022 de la Comunidad Europea no. 331. La secuenciación del genoma de Y. cagnagella fue financiada por la subvención 20-20650Y de la Fundación Científica Checa otorgada a PN. Esta publicación también cuenta con el apoyo del proyecto “BIOCEV – Centro de Biotecnología y Biomedicina de la Academia de Ciencias y la Universidad Carolina” (CZ .1.05/1.1.00/02.0109), del Fondo Europeo de Desarrollo Regional. También reconocemos las instalaciones centrales del Laboratorio de Microscopía Electrónica, el Centro de Biología CAS respaldado por MEYS CR (LM2018129 Czech-BioImaging) y FEDER (No. CZ.02.1.01/0.0/0.0/16_013/0001775). MH contó con el apoyo institucional de IMG (RVO–68378050). Agradecemos a la Sra. Jitka Pflegerová por su ayuda con la preparación de muestras.

Irena Provaznikova

Dirección actual: Laboratorio Europeo de Biología Molecular, Heidelberg, Alemania

Estos autores contribuyeron igualmente: Anna Volenikova, Petr Nguyen.

Centro de Biología de la Academia Checa de Ciencias, Instituto de Entomología, Ceske Budejovice, República Checa

Anna Volenikova, Petr Nguyen, Hana Sehadova, Barbara Kludkiewicz, Irena Provaznikova, Michal Sery, Martina Zurovcova, Lenka Rouhova y Michal Zurovec

Facultad de Ciencias, Universidad de Bohemia del Sur, Ceske Budejovice, República Checa

Anna Volenikova, Petr Nguyen, Hana Sehadova, Petr Koutecky, Irena Provaznikova, Lenka Rouhova y Michal Zurovec

Facultad de Ciencias Naturales y Ambientales, Universidad de Newcastle, Newcastle upon Tyne, Reino Unido

Peter Davey

NatureMetrics Ltd, Surrey Research Park, Guildford, GU2 7HJ, Reino Unido

Peter Davey

Departamento de Ecología y Biología Evolutiva, Universidad de Kansas, Lawrence, EE.UU.

James R. Walters

Instituto de Biodiversidad y Dinámica de Ecosistemas, Universidad de Ámsterdam, Ámsterdam, Países Bajos

Peter Roessingh

Instituto de Genética Molecular, Academia de Ciencias de la República Checa, Praga, República Checa

Miluse Hradilova

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

También puedes buscar este autor en PubMed Google Scholar.

AV, PN y Mi.Z. conceptualizó el trabajo, desarrolló la metodología y diseñó experimentos. AV, PK, JW realizaron el análisis del genoma de Y. cagnagella, PR e IP recolectaron material de insectos, PD y Mi.Z. Analizó el transcriptoma, HS realizó histoquímica y microscopía electrónica. BK y LR realizaron análisis transcripcionales, MH construyó bibliotecas de ADNc, MS y Ma.Z. análisis filogenético realizador, PN y Mi.Z. Escribió el manuscrito con aportaciones de todos los autores.

Correspondencia a Michal Zurovec.

Los autores declaran no tener conflictos de intereses.

Communications Biology agradece a Lee Jung y a los demás revisores anónimos por su contribución a la revisión por pares de este trabajo. Editores principales: Hannes Schuler y Luke R. Grinham. Los informes de los revisores pares están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso Abierto Este artículo está bajo una Licencia Internacional Creative Commons Attribution 4.0, que permite el uso, compartir, adaptación, distribución y reproducción en cualquier medio o formato, siempre y cuando se dé el crédito apropiado a los autores originales y a la fuente. proporcione un enlace a la licencia Creative Commons e indique si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Volenikova, A., Nguyen, P., Davey, P. et al. Secuencia del genoma y sedosómica de la polilla del armiño del huso, Yponomeuta cagnagella, que representa el linaje divergente temprano de los lepidópteros ditrisios. Común Biol 5, 1281 (2022). https://doi.org/10.1038/s42003-022-04240-9

Descargar cita

Recibido: 01 de febrero de 2022

Aceptado: 09 de noviembre de 2022

Publicado: 23 de noviembre de 2022

DOI: https://doi.org/10.1038/s42003-022-04240-9

Cualquier persona con la que comparta el siguiente enlace podrá leer este contenido:

Lo sentimos, actualmente no hay un enlace para compartir disponible para este artículo.

Proporcionado por la iniciativa de intercambio de contenidos Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR