關鍵詞:pacbio 轉錄組表達 第三代測序技術 新型異構體檢測 多源映射
摘要:近年來,基于單分子測序技術的ISO-seq數據以其超長讀段長度被越來越多地應用于轉錄組新型異構體預測研究,但目前大多數研究工作只用到全長讀段數據,丟失了非全長讀段數據中較多有用信息,因而數據沒有得到充分利用。針對這一問題,本文在保留非全長讀段的基礎上提出了兩個能同時預測異構體結構和計算其表達比例的模型基于狄利克雷采樣的異構體探測與預測(Dirichletsampling for isoform detection and prediction,DSIDP)和基于馬爾科夫鏈的異構體探測與預測(Markovchain for isoform detection and predition,MCIDP)。兩個模型均從全長讀段中建立異構體預測集,并采用全長讀段和非全長讀段計算異構體表達比例。DSIDP將所有讀段比對至異構體預測集,并使用Dirichlet采樣解決多源映射問題,MCIDP使用馬爾科夫鏈模擬基因外顯子之間的選擇性剪切,該模型還能預測出數據中沒有全長讀段的異構體。本文采用模擬數據和真實數據驗證了兩個模型的有效性。
數據采集與處理雜志要求:
{1}基金項目:如果論文是項目成果,請按“項目名稱(項目號)”的形式寫出。項目名稱與項目號兩者都要有。
{2}稿件應具有科學性、創新性和實用性,論點明確、論據可靠、數據準確、邏輯嚴謹、文字通順。
{3}文中圖表或插圖請附清晰的原圖文件(tif. 或eps.格式,不低于600 像素)。
{4}注釋是對論文中某一特定內容的解釋或補充說明,用帶圈數字注于當頁頁腳。
{5}稿件文字、標點、年代、數字等書寫方式均以國家有關規定為準。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社