Perhimpunan Transkrip De Novo Berasaskan RNA-Seq Dan Penemuan Gen Batang Berdaging Cistanche Deserticola-Ⅰ
Jul 26, 2024
Latar belakang
Cistanche deserticola ialah tumbuhan parasit bukan fotosintetik sepenuhnya dengan nilai perubatan yang hebat dan diedarkan terutamanya di padang pasir Barat Laut China. Batangnya yang berdaging kering adalah tonik yang pentingperubatan tradisional Cinadengan peranan terutamanya meningkatkan fungsi seksual lelaki dan menguatkan imuniti, tetapi beberapa kajian mekanistik telah dijalankan sebahagiannya disebabkan oleh kekurangan sumber genomik dan transkriptomi.

NATURAL CISTANCHE TUBULOSA PERUBATAN TRADISIONAL CINA PHGS75% ECH 30% ACT 12%
Keputusan
Dalam kajian ini, kami melakukan penjujukan transkrip yang mendalam dalam batang berisi C. deserticola, dan kira-kira 8{14}} juta bacaan telah dijana menggunakan penjujukan pasangan akhir Illumina pada platform HiSeq2000. Menggunakan penghimpun triniti, kami memperoleh 95,787 jujukan transkrip dengan panjang transkrip antara 200bp hingga 15,698bp, mempunyai purata panjang 950 tapak dan panjang N50 sebanyak 1,519 tapak. 63,957 transkrip telah dikenal pasti sebagai dinyatakan secara aktif dengan FPKM Lebih besar daripada atau sama dengan 0.5, di mana 30,098 transkrip telah dijelaskan dengan penerangan gen atau istilah ontologi gen oleh analisis persamaan jujukan terhadap beberapa pangkalan data awam (Uniprot, NR, dan Nt di NCBI, dan KEGG) . Tambahan pula, kami mengenal pasti gen enzim utama yang terlibat dalam biosintesis lignin dan phenylethanoid glycosides (PhGs) yang diketahui sebagai bahan aktif utama. Empat gen phenylalanine ammonia-lyase (PAL), enzim utama pertama dalam lignin dan biosintesis PhG telah dikenal pasti berdasarkan perbandingan jujukan dan analisis filogenetik. Dua laluan biosintesis PhG juga dicadangkan buat kali pertama.
Kesimpulan
Secara keseluruhannya, kami menyelesaikan analisis global transkriptom batang berdaging C. deserticola menggunakan teknologi RNA-seq. Koleksi gen enzim yang berkaitan dengan biosintesis lignin dan glikosida phenylethanoid telah dikenal pasti daripada transkrip yang dipasang dan beranotasi, dan keluarga gen PAL juga telah diramalkan. Data jujukan daripada kajian ini akan menyediakan sumber yang berharga untuk menjalankan penyelidikan biosintesis glikosida phenylethanoid masa depan dan kajian genomik berfungsi dalam tumbuhan ubatan yang penting ini.
pengenalan
C. deserticola ialah genus tumbuhan padang pasir saka seluruh dunia daripada keluarga Orobanchaceae dan merupakan spesies bukan fotosintesis sepenuhnya dan biasanya tumbuh tumbuhan holoparasit bawah tanah. Ia diparasit pada akar psammophyte Haloxylon ammodendron (Chenopodiaceae), yang kebanyakannya mendiami padang pasir dan separa padang pasir kerana toleransi yang tinggi terhadap kemarau dan kemasinan. C. deserticola menunjukkan ketahanan yang kuat terhadap keadaan persekitaran yang keras dan diedarkan terutamanya di Barat Laut China, terutamanya di Mongolia Dalam, Gansu dan Xinjiang. Ia dianggap sebagai spesies liar yang terancam dalam beberapa tahun kebelakangan ini kerana peningkatan penggunaan oleh manusia. C. deserticola yang sering dipanggil ginseng padang pasir biasanya dikenali sebagai penyapu padang pasir dan batang berdaging kering telah digunakan secara meluas sebagai tonik tradisional penting di China dan Jepun selama bertahun-tahun. Ia pada mulanya direkodkan dalam Shen Nong Ben Cao Jing (Kamus Cina Materia Medica, 1977) kira-kira 1800 tahun yang lalu dan dianggap sebagai salah satu sumber utamaHerba perubatan Cina Cistanche.

NATURAL CISTANCHE TUBULOSA UNTUK MENINGKATKAN FUNGSI SEKSUAL PHGS75% ECH 30% ACT 12%
Ekstrak C. deserticola mempunyai pelbagai fungsi perubatan, terutamanya untuk digunakan dalam meningkatkan fungsi seksual, menguatkan buah pinggang, melindungi hati, aktiviti aperient, meningkatkan daya ingatan, imunomodulator, aktiviti antioksida, anti-radang, aktiviti antivirus, dll. komponen bioaktif utama C. deserticola ialah Phenylethanoid glycosides (PheGs, PhGs). Sehingga kini, lebih daripada 20 glikosida phenylethanoid telah diasingkan daripada batang succulent C.deserticola. Antaranya,acteoside dan echinacosideadalah dua komponen utama dengan aktiviti farmakologi yang ketara dan didokumenkan sebagai piawaian kualiti C. deserticola dalam farmakope Cina (edisi 2005 dan 2010). Tiga komponen kimia PhG ialah asid organik, sakarida dan phenylethanoid, bagaimanapun, butiran mengenai laluan biosintetik phenylethanoid masih kurang difahami dalam C.deserticola.
Walaupun kepentingan komersial dan perubatan C.deserticola, data genomik dan transkriptomi spesies ini sangat terhad. Tiada EST tersedia dalam pangkalan data NCBI dan maklumat genom lengkap untuk spesies ini kekal tidak tersedia kecuali untuk jujukan genom kloroplas. Data transkriptom yang terhad menghalang kajian mekanisme biosintetik PhG. Teknologi RNA-seq boleh menjana jujukan bahagian yang dinyatakan bagi genom yang disasarkan dan mengenal pasti gen [18] menggunakan platform teknologi NGS (seperti Applied Biosystems SOLiD, Illumina HiSeq, dan Roche 454). Ia menjadi semakin popular dalam pemasangan transkriptom de novo, kerana ia merupakan pendekatan yang kos efektif dan berkuasa dengan resolusi tinggi dan julat dinamik yang luas, terutamanya kerana ia mempunyai kelebihan untuk meneroka transkrip kelimpahan rendah. Kerana pelbagai kelebihan, RNA-seq secara khusus menarik untuk organisma bukan model dengan sumber genetik yang terhad. Walau bagaimanapun, tiada penyelidikan terperinci mengenai transkriptom C. deserticola oleh RNA-seq.
Dalam kajian ini, kami secara global menyusun transkriptom batang untuk C. deserticola menggunakan platform Illumina Hiseq2000 dan mendapat data mentah 7.9G. Dengan pemasangan dan anotasi, kami melombong gen yang terlibat dalam biosintesis PhG dan gen yang bertanggungjawab untuk keseluruhan biosintesis lignin. Analisis RNA-seq kami menghasilkan transkriptom konsensus C. deserticola yang pertama dan memberikan pandangan baharu ke dalam pemahaman menyeluruh tentang nilai perubatan C. deserticola. Selain itu, kaedah yang diterangkan di sini boleh digunakan secara meluas pada transkriptom profil untuk memudahkan penemuan gen yang terlibat dalam laluan biosintesis komponen perubatan tertentu dalam tumbuhan ubatan lain dengan sumber genomik yang sangat terhad.
Bahan dan Kaedah
Pengumpulan bahan tumbuhan
Batang berair segar untuk C. deserticola dalam peringkat penggalian dikumpulkan dari pangkalan tumbuhan di BayanHot City of Alxa League di Inner Mongolia di barat laut China. Permit mengutip diperoleh daripada pemilik (HongKui CongRong Group) pangkalan loji. Spesimen baucar telah disimpan dalam Kemudahan Genomik Teras di Institut Genomics Beijing, Akademi Sains China. Selepas dibersihkan, tisu batang berair dipotong menjadi kepingan kecil dan segera dibekukan dalam nitrogen cecair, dan kemudian disimpan pada -80 darjah sehingga pemprosesan selanjutnya.
Pengekstrakan RNA, pembinaan perpustakaan cDNA, dan penjujukan Illumina
Jumlah RNA diekstrak daripada batang berair menggunakan Reagen TRIzol (Invitrogen Inc., California, Amerika Syarikat) mengikut arahan pengilang. Sampel yang terhasil telah dirawat dengan DNase I untuk mengeluarkan sebarang DNA genomik. RNA yang diekstrak dikira menggunakan bioanalisis Agilent 2100 (Agilent Technologies) dan diperiksa untuk keutuhannya menggunakan elektroforesis gel agarose denaturasi dengan pewarnaan etidium bromida. Sampel RNA dengan nisbah A260/A280 antara 1.9 dan 2.1, nisbah RNA 28S:18S lebih tinggi daripada 1.0, dan nombor integriti RNA (RINs) -8.5 telah digunakan dalam analisis seterusnya.
Perpustakaan RNA-seq dijana menggunakan Kit Penyediaan Sampel RNA Illumina Truseq. RNA Poli(A)+ telah diasingkan daripada jumlah RNA menggunakan manik Dynal ligo(dT)25 mengikut arahan pengilang. Selepas penulenan, penimbal pemecahan telah ditambah untuk memecahkan mRNA kepada serpihan pendek. CDNA untaian pertama telah disintesis menggunakan serpihan pendek ini sebagai templat, bersama dengan transkripase terbalik SuperScript III dan primer heksamer rawak N6. cDNA untaian kedua kemudiannya disintesis menggunakan penimbal, dNTPs, RNaseH, dan DNA polimerase I. cDNA untai dua yang terhasil tertakluk kepada pembaikan akhir menggunakan polimerase DNA T4, serpihan DNA polimerase I Klenow, dan polinukleotida kinase T4, dan diikat kepada penyesuai menggunakan ligase DNA T4. Serpihan berikat penyesuai telah disucikan menggunakan kit pengekstrakan PCR QiaQuick dan dielusi dengan penimbal EB. Selepas analisis menggunakan elektroforesis gel agarose, serpihan yang sesuai telah dipilih sebagai templat untuk penguatan PCR. Penjujukan perpustakaan cDNA yang dihasilkan telah dijalankan dengan sistem Illumina HiSeq 2000.
Transkrip perhimpunan de novo dan kuantifikasi ekspresi gen
Bacaan mentah yang dijana daripada penjujukan telah dibersihkan dengan mengalih keluar jujukan penyesuai (ATCTCGTATGCCGTC) menggunakan kaedah dalaman. Kami kemudiannya menjalankan proses penapisan berkualiti rendah yang ketat. Pertama, pangkalan dengan skor kualiti phred lebih rendah daripada 20 akan dipangkas dari 3'hujung jujukan, sehingga berjalan ke satu pangkalan dengan kualiti yang lebih tinggi ( Lebih besar daripada atau sama dengan 20). Jika panjang bacaan lebih pendek daripada 50bp, ia akan dibuang. Kedua, bacaan akan ditapis selanjutnya mengikut kriteria bahawa 70% asas dalam satu bacaan mempunyai skor berkualiti tinggi ( Lebih besar daripada atau sama dengan 20). Ketiga, hanya bacaan akhir berpasangan digunakan untuk pemasangan selanjutnya. Pemasangan transkrip de novo telah dijalankan menggunakan keluaran Trinity_20130216 [30] yang terdiri daripada tiga modul perisian berturut-turut: Inchworm, Chrysalis dan Butterfly. Parameter pemasangan telah ditetapkan seperti di bawah:-seqType fq-JM 300G -min_contig_panjang 200-CPU 20-inchworm_cpu {{21} }bflyCPU 20.
Untuk mengukur kelimpahan transkrip, bacaan akhir pasangan berjujukan telah diselaraskan semula dengan transkrip yang dipasang menggunakan skrip dalam Trinity. Bacaan yang dipetakan digunakan untuk kuantifikasi oleh perisian RSEM (RNA-Seq by Expectation Maximization). Kelimpahan gen atau isoform diwakili oleh serpihan per kilobase nilai transkrip per juta serpihan dipetakan (FPKM), transkrip dengan nilai FPKM bersamaan atau lebih besar daripada 0.05 ditakrifkan sebagai dinyatakan.
Anotasi fungsional transkrip yang dinyatakan
Tiada set anotasi gen C. deserticola kecuali genom kloroplas [1]. Kami menganotasi transkrip yang dinyatakan dengan membandingkannya dengan Genbank Nt, Genbank Nr dan TAIR10_ pep_20101214_set data yang dikemas kini secara berasingan menggunakan program BLAST (E< = 1e-20). Meanwhile, all expressed transcripts were translated into potential proteins according to ORF prediction by TransDecoder and predicated for the conserved domains based on the Pfam database.
Ontologi Gen dan anotasi laluan KEGG Mengikut penjajaran persamaan jujukan ke pangkalan data Uniprot ( anotasi Gene Ontology (GO) bagi semua transkrip yang dipasang diperoleh dengan menggunakan fail persatuan yang dimuat turun dari (ftp://ftp.ebi.ac.uk/pub/ pangkalan data/GO/goa/UNIPROT/gen_persatuan_uniprot.gz). CC, BP dan kategori MF secara berasingan.
Maklumat laluan KEGG telah diberikan untuk semua urutan protein yang diramalkan menggunakan alat dalam talian KAAS (Pelayan Anotasi Automatik KEGG) [34]. Urutan dalam format fasta telah diserahkan kepada permintaan KAAS, dan fail terhasil bagi semua maklumat laluan yang berkaitan dengan transkriptom batang C. deserticola telah dimuat turun. 13 set data gen organisma tumbuhan dalam KEGG telah digunakan untuk anotasi menggunakan kaedah BBH (bi-directional best hit).

EKSTRAK CISTANCHE ASLI TUBULOSA CISTANCHE PHGS75% ECH 30% ACT 12%
Analisis RT-qPCR
Selepas penghadaman dengan DNase I, kira-kira 5ug daripada jumlah RNA telah ditukar kepada cDNA untaian pertama melalui tindak balas transkripsi terbalik dengan primer oligo(dT)15 dan Sistem Transkripsi Terbalik GoScript (Promega). Produk cDNA kemudiannya dicairkan 10-lipat dengan air ternyahion bebas nuklease sebelum digunakan sebagai templat dalam PCR masa nyata. cDNA tertentu telah dikuatkan oleh sistem GoTaq 2-Step RT-qPCR (Promega) dalam volum 20 ul. Penguatan PCR dilakukan pada suhu penyepuhlindapan 60 darjah dengan Sistem Pengesanan PCR Masa Nyata 7500 (Biosistem Gunaan) mengikut arahan pengeluar. Kelimpahan transkrip relatif telah dikira dengan kaedah ambang kitaran perbandingan dengan gen "comp10579_c0" sebagai standard dalaman, menggunakan perisian 7500 Manager.
Pasangan primer untuk RT-PCR direka bentuk berdasarkan perisian dalam talian (http://primer3.ut.ee/) dan disenaraikan dalam Set Data S1.
Keputusan
Penjujukan RNA dan pemasangan transkrip de novo bagi batang berdaging C. deserticola
Batang C. deserticola telah digunakan secara meluas sebagai tonik tradisional penting di China dan Jepun selama bertahun-tahun. Untuk mendapatkan gambaran keseluruhan global ekspresi gen dalam batang berisi C. deserticola, kami mengumpul sampel batang C. deserticola asas tumbuhan yang sama pada tahun 2013 dan 2014, masing-masing. Jumlah RNA telah diekstrak dan RNA poliA+ telah disucikan untuk membina perpustakaan RNA-seq berpasangan. 79,433,734 dan 86,019,176 bacaan akhir pasangan sepadan dengan hampir 8 bilion dan 8.6 bilion asas jujukan telah diperoleh menggunakan penjujukan Illumina HiSeq 2000

platform dalam sampel 2013-tahun dan 2014-tahun (Jadual 1). Selepas mengalih keluar jujukan penyesuai dan menapis bacaan berkualiti rendah (lihat butiran dalam Kaedah), 64,831,040 bacaan akhir berpasangan berkualiti tinggi dalam sampel tahun 2013-digunakan untuk pemasangan transkrip de novo. Menggunakan penghimpun jujukan Trinity [30], 51,719 gen dan 95,787 jujukan transkrip telah dihasilkan dengan panjang transkrip antara 200 bp hingga 15,698 bp. Purata panjang transkrip yang dipasang ialah 950 tapak dan panjang N50 ialah 1,519 tapak. Bilangan transkrip dalam panjang yang berbeza mendedahkan bahawa 57.32% daripada transkrip yang dipasang adalah kira-kira 500 bp atau lebih lama (Rajah 1A). Bacaan akhir pasangan berkualiti tinggi dalam sampel tahun 2014-dipetakan ke transkrip yang dipasang. Selain itu, kami mendapati bahawa nombor transkrip untuk setiap gen yang dipasang berbeza-beza dan 69% gen dengan satu isoform dinyatakan manakala 31% gen menyatakan dua atau lebih transkrip (Rajah 1B).
Kuantifikasi ungkapan dan anotasi fungsi transkrip yang dipasang
Kelimpahan gen atau transkrip dikira menggunakan pakej RSEM, di mana bacaan yang dijujukan telah diselaraskan semula dengan gen yang dipasang atau jujukan transkrip menggunakan Bowtie, dan bacaan yang dipetakan itu digunakan untuk pengkuantifikasian. Nilai FPKM untuk setiap gen atau transkrip telah dikira, dan akhirnya, kami mengenal pasti 63,957 dan 52,857 transkrip yang dinyatakan secara aktif (nilai FPKM Lebih besar daripada atau sama dengan 0.5) dalam sampel batang berdaging C. deserticola dalam 2{{17} }13 dan 2014, masing-masing. 44,776 transkrip (70.01% dalam 2013-sampel tahun, 84.71% dalam 2014-sampel tahun) lazimnya dinyatakan dalam dua replika dan korelasi (pekali korelasi Pearson: 0.91979) data ungkapannya ialah ditunjukkan dalam S1 Rajah. Data mentah penjujukan telah dimuat naik ke pangkalan data NCBI SRA (nombor penyertaan: SRX857402 dan SRX858938). Kami menggunakan gen dinyatakan yang dikenal pasti dalam 2013-sampel tahun untuk analisis lanjut. Maklumat anotasi berfungsi untuk semua transkrip yang dinyatakan diperoleh menggunakan dua kaedah. Pertama, semua transkrip yang dinyatakan telah diselaraskan dengan pangkalan data jujukan nukleotida (GenBank nt) dan peptida yang diketahui (GenBank nr dan Arabidopsis peptide) secara berasingan oleh algoritma BLAST. Daripada 63,957 transkrip yang dinyatakan,

29,220 (45.7%) telah diberi anotasi dan menunjukkan homologi kepada jujukan dalam mana-mana tiga pangkalan data subjek dengan potongan nilai E 1e-20. Sementara itu, kawasan pengekodan calon untuk semua urutan transkrip yang dinyatakan telah diramalkan menggunakan perisian TransDecoder, dan ORF terpanjang untuk setiap transkrip digunakan untuk carian domain Pfam. Hasilnya, 21,358 (33.4%) transkrip telah diberi anotasi berdasarkan pangkalan data Pfam. Secara keseluruhannya, 30,098 (47.1%) transkrip dipadankan dengan ketara dengan gen yang diketahui dalam pangkalan data awam dengan menggabungkan kedua-dua kaedah di atas. Senarai transkrip yang dinyatakan lengkap dengan anotasi fungsi ditunjukkan dalam data tambahan (Set Data S2).
Kami meninjau 20 transkrip paling tinggi yang dinyatakan (Jadual 2) sepadan dengan 18.99% daripada semua bacaan penjujukan, dan mendapati bahawa kebanyakannya adalah gen yang bertindak balas kepada abiotik

rangsangan tekanan. Dehidrin (DHNs), kelas protein tekanan hidrofilik dan termostabil dengan bilangan asid amino bercas yang tinggi yang tergolong dalam keluarga Late Embryogenesis Abundant (LEA) Kumpulan II, adalah gen yang paling banyak dinyatakan. Tiga transkrip Dehyrin berbeza (comp28713_c0_seq1/2/4) telah dikesan sebagai sangat dinyatakan dalam batang berisi yang mungkin terlibat dalam melindungi sel daripada kerosakan yang disebabkan oleh tekanan kemarau. Gen berkaitan tekanan lain seperti protein kejutan haba, protein berkaitan patogen, dan metallothionein juga didapati dinyatakan sangat tinggi, yang mungkin berkaitan dengan persekitaran kelangsungan hidup yang teruk. Selain itu, beberapa gen konstitutif termasuk gen RNA ribosom 26S (komp22329_c2_seq1), protein yang ditindas auksin/ dorman (komp20999_c0_seq1), Faktor ribosilasi ADP (comp20499_ c0_seq1) juga ditranskripsikan dengan sangat baik.

NATURAL CISTANCHE TUBULOSA UNTUK MENINGKATKAN IMUNITI PHGS75% ECH 30% ACT 12%







