5月中旬,針對草地貪夜蛾的迅速發展態勢,包括深圳華大生命科學研究院在內的多個單位共同成立研究小組,迅速開展了樣本采集和基因組測序工作,從樣本采集到論文發表 [1],僅用25天便完成了全球首個草地貪夜蛾染色體級別的基因組組裝。
基因組測序的完成,打開了草地貪夜蛾防治的第一步,除解釋了草地貪夜蛾高耐藥性的可能分子機制之外,還提供了更為精細的類別信息,為該害蟲的防治工作提供了可借鑒信息。
草地貪夜蛾基因組的快速解碼,國產基因測序儀MGISEQ-2000和新一代單管長片段測序stLFR(single tube long fragment reads)迅速響應, 再現其非凡潛力。為造福更多的下游數據分析應用,華大算法開發團隊針對stLFR數據結構特點開發了stLFR de novo組裝軟件。

那么,什么是stLFR 單管長片段測序技術呢?
這是一個擁有超強的虛擬分隔共標記技術(Virtual Co-Barcoding),通過單管操作就能輕松的獲得基因組長片段信息[2]。只需要在單管中加入1-1.5ng HMW gDNA,這些DNA分子3000萬種標簽序列結合后,stLFR技術就可以在單管中對超過八百萬條跨度在20,000到300,000bp的長片段進行特異性地共標記(圖1)。使用stLFR組裝軟件,通過高效地利用龐大的barcode信息進行組裝,就能獲得更完美的基因組組裝效果,讓動植物基因組組裝變得更加簡單,經濟,快速。

華大智造開發的這款與stLFR技術配套的組裝軟件,其特點在于可以充分利用stLFR數據的barcode信息指導組裝,同時還支持stLFR與三代數據的混合組裝。其前期數據預處理主要包括拆barcode、過濾低質量reads、duplicate和adapter兩個部分,后期組裝分為純stLFR組裝和加入三代數據混合組裝兩個階段,可根據實際情況進行選擇。

數據展示
通過對3組不同深度的NA12878數據進行組裝測試,最長contig N50可達到57Kb,覆蓋度均達到92%以上。其中,數據來源是采用MGIEasy stLFR 文庫制備試劑盒(貨號: 1000005622),以1.5ng為起始量構建的文庫。
表1 stLFR NA12878數據組裝結果表

運行資源
運行資源以數據預處理后30x的NA12878為標準,組裝全過程耗時約2.6天,80線程條件下,消耗內存408G,最大占據存儲空間1TB左右。其前期數據預處理最大消耗內存50GB,占26.9小時;后期組裝在開設80線程的條件下,最大消耗內存408GB,占36.3小時。具體資源消耗可看下方表格:
表2 stLFR組裝消耗資源統計表

軟件列表
表3 stLFR組裝所需軟件列表

參考文獻
[1] Huan Liu, Tianming Lan1, Dongming Fang, et al. Chromosome level draft genomes of the fall armyworm, Spodoptera frugiperda (Lepidoptera: Noctuidae), an alien invasive pest in China
[2] Wang O, Chin R, Cheng X, et al. Efficient and unique co-barcoding of second-generation sequencing reads from long DNA molecules enabling cost effective and accurate sequencing, haplotyping, and de novo assembly[J]. Genome research, 2019: gr. 245126.118.