中文字幕s级优女区,欧美人人草,色综合九九,伊香蕉大综综综合久久,久久99精品久久久久久牛牛影视,国产成人综合久久,中文久草

一種面向二代測序數(shù)據(jù)的實(shí)時SNV和Indel檢測方法

文檔序號:42592493發(fā)布日期:2025-07-29 17:45閱讀:15來源:國知局

本發(fā)明涉及面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法。


背景技術(shù):

1、隨著新一代高通量測序技術(shù)的飛速發(fā)展與廣泛應(yīng)用,變異檢測已成為生物信息學(xué)分析流程中不可或缺的基礎(chǔ)環(huán)節(jié)和關(guān)鍵步驟。在基因組學(xué)研究、臨床診斷和精準(zhǔn)醫(yī)療等領(lǐng)域,下游的各類分析流程,如基因型分型、變異致病性評估、群體遺傳學(xué)分析以及表型關(guān)聯(lián)研究等,均以高準(zhǔn)確度的變異檢測結(jié)果作為前提和基礎(chǔ)支撐。

2、在基因組變異研究中,變異本質(zhì)上是指個體樣本的基因組序列與標(biāo)準(zhǔn)參考基因組之間存在的差異。根據(jù)國際生物信息學(xué)領(lǐng)域廣泛接受的分類標(biāo)準(zhǔn),基因組上的小變異:單核苷酸多態(tài)性變異(single?nucleotide?polymorphism,snp)以及長度不超過50個堿基對(base?pairs,bp)的小型插入缺失變異(small?insertion-deletion?variants,indels)。這些小變異在人類已知全部基因組變異中占比高達(dá)90%以上,對于人類遺傳疾病的致病機(jī)制解析、藥物靶點(diǎn)識別和個體化醫(yī)療方案制定等方面具有不可替代的核心價(jià)值和決定性意義。

3、針對第二代測序(next-generation?sequencing,ngs)數(shù)據(jù)的變異檢測需求,目前國內(nèi)外研究機(jī)構(gòu)和企業(yè)已開發(fā)了多種技術(shù)路線的變異檢測工具:以gatk(genome?analysistoolkit)為代表的基于統(tǒng)計(jì)學(xué)模型和貝葉斯推斷的傳統(tǒng)變異檢測工具,通過概率統(tǒng)計(jì)方法對序列比對信息進(jìn)行分析和評估;以clair3、deepvariant為代表的新興基于深度學(xué)習(xí)的變異檢測工具,通過卷積神經(jīng)網(wǎng)絡(luò)(cnn)、遞歸神經(jīng)網(wǎng)絡(luò)(rnn)等人工智能算法對測序數(shù)據(jù)特征進(jìn)行自動提取和分類判斷。

4、現(xiàn)有技術(shù)路線的變異檢測工具,無論是基于統(tǒng)計(jì)學(xué)模型和貝葉斯推斷的傳統(tǒng)型算法(如gatk、samtools)還是基于深度神經(jīng)網(wǎng)絡(luò)等人工智能技術(shù)的新型算法(如clair3、deepvariant),均存在一個共同的時序架構(gòu)缺陷:這些工具必須等待測序儀完成整個樣本的數(shù)據(jù)生成過程,產(chǎn)出全部測序讀段后,才能啟動序列比對及后續(xù)的變異檢測流程。

5、由于現(xiàn)代高通量測序平臺(如illumina?novaseq、pacbio?sequel、oxfordnanopore?promethion等)完成一次完整測序?qū)嶒?yàn)通常需要數(shù)小時至數(shù)天不等的時間,這導(dǎo)致在測序片段延伸與堆疊信息更新過程中產(chǎn)生的大量初始數(shù)據(jù)處于閑置狀態(tài),無法被即時利用。這將造成計(jì)算資源的嚴(yán)重浪費(fèi)和整體分析流程的低效率,從而顯著延長了從樣本測序到獲得變異檢測結(jié)果的總體周期,對臨床診斷、疾病風(fēng)險(xiǎn)評估及科研項(xiàng)目的及時性帶來了挑戰(zhàn)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了解決現(xiàn)代高通量測序平臺完成一次完整測序?qū)嶒?yàn)通常需要數(shù)小時至數(shù)天不等的時間,導(dǎo)致在測序片段延伸與堆疊信息更新過程中產(chǎn)生的大量初始數(shù)據(jù)處于閑置狀態(tài),無法被即時利用;造成計(jì)算資源的嚴(yán)重浪費(fèi)和整體分析流程的低效率,從而顯著延長了從樣本測序到獲得變異檢測結(jié)果的總體周期的問題,而提出一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法。

2、一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法具體過程為:

3、步驟一:獲取測序讀段在人類參考基因組上的比對結(jié)果;

4、基于比對結(jié)果,獲得最終候選變異位點(diǎn);

5、基于比對結(jié)果,提取每個測序讀段的原始信息中唯一標(biāo)識符read_id作為索引鍵存儲到read_info字典中;將read_info字典通過序列化技術(shù)寫入pickle文件中;具體過程為:

6、步驟一一:獲取測序讀段在人類參考基因組上的比對結(jié)果,將比對上的人類參考基因組中每個染色體劃分為互不重疊的區(qū)塊,提取區(qū)塊內(nèi)基因組上每一個位置的堆疊信息;

7、步驟一二:利用samtools的mpileup功能對步驟一一提取的區(qū)塊內(nèi)基因組上每一個位置的堆疊信息進(jìn)行解析,得到解析結(jié)果,解析結(jié)果作為初始候選變異位點(diǎn);

8、步驟一三:對步驟一二得到的初始候選變異位點(diǎn)進(jìn)行篩選,獲得最終候選變異位點(diǎn);

9、步驟一四、調(diào)用samtools工具對步驟一一比對上的染色體上的所有測序讀段進(jìn)行遍歷,獲取每個測序讀段的原始信息;

10、提取每個測序讀段的原始信息中唯一標(biāo)識符read_id作為索引鍵存儲到read_info字典中;

11、在read_info字典數(shù)據(jù)結(jié)構(gòu)中,為每個測序讀段存儲特征信息;

12、將read_info字典通過序列化技術(shù)寫入pickle文件中;

13、步驟二:當(dāng)測序儀輸出新一批次的測序讀段后,對新一批次的測序數(shù)據(jù)進(jìn)行選擇性過濾,得到過濾后讀段;構(gòu)造事件元組;

14、遍歷每一個事件元組(pos,event_type,idx),根據(jù)事件類型執(zhí)行不同的處理邏輯,得到不同的處理邏輯下排序列表sorted_events中每條讀段的信息;

15、在基因組上逐位點(diǎn)分析每一條讀段與參考序列的差異,更新對應(yīng)位點(diǎn)的堆疊信息;

16、具體過程為:

17、步驟二一、從磁盤中加載步驟一三保存的存儲于candidate_positions字典中的最終候選變異位點(diǎn)信息以及步驟一四記錄的存儲于read_info字典中的測序讀段信息;

18、當(dāng)測序儀輸出新一批次的測序讀段后,對新一批次的測序數(shù)據(jù)進(jìn)行選擇性過濾,僅保留與已加載的read_info字典中存在對應(yīng)關(guān)系的讀段;

19、保留的新一批次的測序讀段存儲為fastq格式;

20、步驟二二、基于步驟二一構(gòu)造事件元組;

21、步驟二三、基于步驟二二構(gòu)造的事件元組構(gòu)建sorted_events排序列表,遍歷排序列表sorted_events中的每一個事件元組(pos,event_type,idx),根據(jù)事件類型執(zhí)行不同的處理邏輯,得到不同的處理邏輯下排序列表sorted_events中每條讀段的信息;

22、步驟二四、在基因組上逐位點(diǎn)分析步驟二三中reads_to_realign集合中的每一條讀段與參考序列的差異,更新對應(yīng)位點(diǎn)的堆疊信息;

23、步驟三、基于步驟二進(jìn)行變異檢測,得到變異檢測結(jié)果,將變異檢測結(jié)果傳入vcf文件當(dāng)中。

24、本發(fā)明的有益效果為:

25、本發(fā)明旨在提出一種創(chuàng)新性的實(shí)時變異檢測技術(shù)架構(gòu),通過在測序儀進(jìn)行測序操作的同時,實(shí)時獲取并處理已產(chǎn)生的測序片段數(shù)據(jù),利用改進(jìn)的序列比對算法將這些片段立即映射到參考基因組上,確定其在基因組上的精確定位,然后隨著測序過程的持續(xù)進(jìn)行,不斷延伸和更新已獲得的比對結(jié)果,最終實(shí)現(xiàn)測序與變異檢測的并行執(zhí)行,顯著提升變異檢測的效率。



技術(shù)特征:

1.一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述方法具體過程為:

2.根據(jù)權(quán)利要求1所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟一一中獲取測序讀段在人類參考基因組上的比對結(jié)果,將比對上的人類參考基因組中每個染色體劃分為互不重疊的區(qū)塊,提取區(qū)塊內(nèi)基因組上每一個位置的堆疊信息;

3.根據(jù)權(quán)利要求2所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟一二中利用samtools的mpileup功能對步驟一一提取的區(qū)塊內(nèi)基因組上每一個位置的堆疊信息進(jìn)行解析,得到解析結(jié)果,解析結(jié)果作為初始候選變異位點(diǎn);

4.根據(jù)權(quán)利要求3所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟一三中對步驟一二得到的初始候選變異位點(diǎn)進(jìn)行篩選,獲得最終候選變異位點(diǎn);

5.根據(jù)權(quán)利要求4所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟一四中調(diào)用samtools工具對步驟一一比對上的染色體上的所有測序讀段進(jìn)行遍歷,獲取每個測序讀段的原始信息;

6.根據(jù)權(quán)利要求5所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟二一中從磁盤中加載步驟一三保存的存儲于candidate_positions字典中的最終候選變異位點(diǎn)信息以及步驟一四記錄的存儲于read_info字典中的測序讀段信息;

7.根據(jù)權(quán)利要求6所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟二二中基于步驟二一構(gòu)造事件元組;

8.根據(jù)權(quán)利要求7所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟二三中基于步驟二二構(gòu)造的事件元組構(gòu)建sorted_events排序列表,遍歷排序列表sorted_events中的每一個事件元組(pos,event_type,idx),根據(jù)事件類型執(zhí)行不同的處理邏輯,得到不同的處理邏輯下排序列表sorted_events中每條讀段的信息;

9.根據(jù)權(quán)利要求8所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟二四中在基因組上逐位點(diǎn)分析步驟二三中reads_to_realign集合中的每一條讀段與參考序列的差異,更新對應(yīng)位點(diǎn)的堆疊信息;

10.根據(jù)權(quán)利要求9所述的一種面向二代測序數(shù)據(jù)的實(shí)時snv和indel檢測方法,其特征在于:所述步驟三中基于步驟二進(jìn)行變異檢測,得到變異檢測結(jié)果,將變異檢測結(jié)果傳入vcf文件當(dāng)中;


技術(shù)總結(jié)
一種面向二代測序數(shù)據(jù)的實(shí)時SNV和Indel檢測方法,本發(fā)明涉及面向二代測序數(shù)據(jù)的實(shí)時SNV和Indel檢測方法。本發(fā)明的目的是為了解決現(xiàn)代高通量測序平臺在測序片段延伸與堆疊信息更新過程中產(chǎn)生的大量初始數(shù)據(jù)處于閑置狀態(tài);造成計(jì)算資源嚴(yán)重浪費(fèi)和分析流程的低效率,從而顯著延長了從樣本測序到獲得變異檢測結(jié)果的總體周期的問題。本發(fā)明通過在測序儀進(jìn)行測序操作的同時,實(shí)時獲取并處理已產(chǎn)生的測序片段數(shù)據(jù),利用改進(jìn)的序列比對算法將這些片段立即映射到參考基因組上,確定其在基因組上的精確定位,然后隨著測序過程的持續(xù)進(jìn)行,不斷延伸和更新已獲得的比對結(jié)果,最終實(shí)現(xiàn)測序與變異檢測的并行執(zhí)行,顯著提升變異檢測的效率。

技術(shù)研發(fā)人員:余弦,崔淼,劉亞東,汪國華,劉博,王亞東
受保護(hù)的技術(shù)使用者:哈爾濱工業(yè)大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/7/28
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1