評估核酸的方法和材料
評估核酸的方法和材料
1.本技術要求于2020年2月14日提交的美國臨時申請系列號62/977,066的優先權,其全部內容通過引用方式納入本文。
2.關于聯邦資金的聲明
3.本發明是在政府支持下由國家衛生研究院(national institutes of health)授予的基金號ca062924、ca152753和ca230691資助完成。政府對本發明享有一定的權利。
技術領域
4.本發明涉及核苷酸測序領域。具體地,其涉及用于鑒定突變的測序文庫制備和測序工作流程。
背景技術:
5.罕見突變的鑒定在基礎生物學方面以及改善患者的臨床管理方面很有用。使用領域包括傳染病、免疫組庫分析、古遺傳學、法醫學、衰老、非侵入性產前檢測和癌癥。下一代測序(ngs)技術在理論上適用于該應用,并且存在用于檢測罕見突變的多種ngs方法。然而,對于傳統的ngs方法,測序本身的錯誤率過高,無法可靠地檢測突變,尤其是原始樣品中低頻存在的那些突變。
6.分子條形碼對原始模板分子加標簽的應用旨在克服檢測罕見突變的各種障礙。使用分子條形碼,對每個帶標簽分子的pcr產生的后代進行冗余測序,并且容易識別測序錯誤(kinde等,proc natl acad sci u s a 108:9530-9535(2011))。例如,如果條形碼模板分子的后代的給定閾值包含相同的突變,則該突變被認為是真實的(“超突變體”)。如果小于后代的給定閾值包含感興趣的突變,則該突變被認為是偽影。已經描述了兩種類型的分子條形碼:外源性和內源性。外源性條形碼(本文也稱為外源性uid)包含預先指定的或隨機的核苷酸,并在文庫制備或pcr期間是附加的。內源性條形碼(本文也稱為內源性uids)由待評估的模板dna的片段(例如,由dna隨機剪切產生的片段或無細胞流體生物樣品中存在的片段)的5'和3'端的序列形成。這樣的條形碼已被證明可用于將擴增子追溯到原始起始模板,從而允許進行分子計數并改進臨床相關樣品中真實突變的鑒別。
7.已經開發了用于雙端測序的分叉銜接子以實現“雙鏈體測序”,其中原始dna雙鏈體的兩條鏈(watson和crick)中的每一條都可以通過測序時顯示的5'到3'方向性來辨別。雙鏈體測序減少了測序錯誤,因為如果在文庫制備或測序期間錯誤地產生了相同的突變,則兩條dna鏈將極不可能包含相同的突變。
8.然而,存在許多問題限制了分子條碼化的應用范圍和臨床適用性。例如,將大部分初始模板分子轉化為各鏈上具有相同條形碼的雙鏈體分子是一項挑戰(schmitt等,proc natl acad sci u s a 109:14508-14513(2012);schmitt等,nat methods 12:423-425(2015);和newman等,nat biotechnol 34:547-555(2016))。當初始dna的量有限(例如《33ng)時,這個問題尤其突顯,例如在通常用于液體活檢物的無細胞血漿dna中所見那樣。
9.靶向測序文庫的制備通常涉及測序模板的銜接子連接、文庫的擴增和雜交捕獲以
富集用于感興趣的靶標的文庫。雖然對于富集大的感興趣區域有效,但雜交捕獲無法很好地擴展到小靶區域(springer等,elife 7:doi:10.7554/elife.32143(2018))并且表現出較差的雙鏈體回收(duplex recovery)(wang等,proc natl acad sci u s a 112:9704-9709(2015);和wang等,elife 5:doi:10.7554/elife.15175(2016))。連續幾輪捕獲可以部分克服這些限制,但即使有了這樣的改進,雙鏈體回收率通常為約1%。crispr-ds可以實現高達15%的回收率,但不適用于無細胞dna。當靶區域非常小(例如特別感興趣的基因組中一個或幾個位置,例如血漿中疾病監測所需的那樣),或可用的dna量有限(例如《33ng,通常見于血漿中),基于捕獲的方法是次優的。
10.因此,需要改進測序文庫制備和工作流程,以能夠準確鑒別臨床相關樣品如液體活檢樣品中的突變,例如罕見突變。
技術實現要素:
11.通過提供對兩條模板鏈進行等同條碼化的方法,且通過提供一種不需要雜交捕獲的基于pcr的富集各鏈的方法,本文提供了解決這些問題的方法和材料。
12.本文涉及可用于檢測在雙鏈核酸(例如,dna)的兩條鏈上是否均存在的一個或多個突變的方法和材料。在一些情況下,用于檢測雙鏈核酸的兩條鏈上均存在的一個或多個突變的方法可以包括:生成雙鏈體測序文庫,其在該文庫的各核酸的各端(例如,5'端和3'端)上具有雙鏈體分子條形碼,從雙鏈體測序文庫產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫,和,在各單鏈文庫中檢測雙鏈核酸的兩條鏈上是否均存在一個或多個突變。
13.如本文所證明的,對應于雙鏈核酸模板的watson鏈的單鏈dna文庫和對應于雙鏈核酸模板的crick鏈的單鏈dna文庫可以從納入雙鏈體分子條形碼的測序文庫中產生,各單鏈dna文庫可采用鏈特異性錨定pcr方法對靶區域進行富集,并且靶區域可經測序以檢測核酸靶區域內的一個或多個突變的存在與否。例如,本文所述的可用于檢測雙鏈核酸的兩條鏈上是否均存在一個或多個突變的方法和材料可稱為序列確定無錯測序系統(saferseqs),并且可以包括例如這樣的文庫構建,采用原位生成雙鏈體分子條形碼(參見例如圖22a),經錨定pcr的靶標富集(參見例如圖22b),和模板分子的計算機重建(參見例如圖22c)。可以通過要求在相同初始核酸分子的兩條鏈上都發現變化來鑒定原始起始模板中存在的真突變(bona fide mutations)。
14.能夠檢測雙鏈核酸的兩條鏈上均存在的一個或多個突變(例如,真正的體細胞突變)提供了以可承受的成本同時準確和有效地評估多個突變的獨特且尚未實現的機會。使用本文所述的方法和材料來檢測雙鏈核酸的兩條鏈上均存在的一個或多個突變的存在(例如,saferseqs方法)可允許以高置信度鑒定罕見突變,同時最小化dna損傷的量,要進行的pcr的數量,和/或dna損傷偽影的數量。注意,術語“watson鏈”和“crick鏈”僅用于區分雙鏈起始核酸序列的兩條鏈。任何一條鏈都可以表示為“watson”或“crick”,然后另一條鏈用另一個名稱表示。
15.在一些實施方式中,本文提供的方法包括:a)形成反應混合物,其包含:i)去磷酸化和鈍端的多個雙鏈dna片段,其中各雙鏈dna片段包含watson和crick鏈;ii)多個銜接子,其中各銜接子在5'到3'方向上包含:a)條形碼,和b)通用3'銜接子序列;和iii)連接酶;和
b)孵育反應混合物,從而使得:i)銜接子被連接至watson和crick鏈的3'端,并且ii)銜接子不被連接至watson或crick鏈的5'端,由此產生雙鏈連接產物。
16.在某些實施方式中,多個銜接子中的各銜接子都包含獨特的條形碼。在進一步的實施方式中,雙鏈連接產物各自包含僅具有一個條形碼的watson鏈和僅具有一個不同于watson鏈上的條形碼的條形碼的crick鏈。在進一步的實施方式中,所述方法還包括以下步驟:c)對至少部分雙鏈連接產物進行測序。
17.在具體實施方式中,本文提供的方法包括:a)將部分雙鏈3'銜接子(3'pdsa)連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'末端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和任選地(ii)3'封閉基團,b)將5'銜接子退火至退火位點,其中5'銜接子在5'至3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;c)將5'銜接子延伸貫穿外源uid序列和第一區段,由此產生外源uid序列的互補序列和第一區段的互補序列,和d)將第一區段的互補序列的3'端共價連接至雙鏈dna片段的watson和crick鏈的5'端,由此產生多個銜接子連接的雙鏈dna片段。
18.在一些實施方式中,本文提供的方法包括:a)將部分雙鏈3'銜接子(3'pdsa)連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'末端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和任選地(ii)3'封閉基團,b)將5'銜接子退火至退火位點,其中5'銜接子在5'至3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;c)將5'銜接子延伸貫穿外源uid序列,由此產生外源uid序列的互補序列,和d)將外源uid序列的互補序列的3'端共價連接至與雙鏈dna區段的watson和crick鏈各自的第一區段互補的區段的5'端,由此產生多個銜接子連接的雙鏈dna片段。
19.在一些實施方式中,本文提供的方法包括:a)將部分雙鏈3'銜接子(3'pdsa)連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'末端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和任選地(ii)3'封閉基團,b)將5'銜接子退火至退火位點,其中5'銜接子在5'至3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;c)將5'銜接子延伸貫穿3'pdsa的外源uid序列和第一區段,由此產生3'pdsa的外源uid序列的互補序列和第一區段的互補序列,和d)將3'pdsa的第一區段的互補序列的3'端共價連接至雙鏈dna片段的watson和crick鏈的5'端,由此產生多個銜接子連接的雙鏈dna片段。
20.在一些實施方式中,本文提供的系統和試劑盒和組合物包含:a)部分雙鏈3'銜接子(3'pdsa),其被設置為連接至雙鏈dna片段的watson和crick鏈兩者的3'端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火
位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團;和b)設置為退火至退火位點的5'銜接子,其中5'銜接子在5'到3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與3'銜接子的退火位點互補的序列。
21.在進一步的實施方式中,系統、試劑盒和組合物還包含:c)來自生物樣品的雙鏈dna片段,和/或c)用于降解3'pdsa的第二鏈以產生單鏈3'銜接子(3'ssa)的試劑;和/或c)與通用3'銜接子序列互補的第一引物,和與通用5'銜接子序列的互補序列互補的第二引物;和/或c)測序系統;和/或c)與通用3'銜接子序列互補(complimentary)的watson錨定引物,和d)與通用5'銜接子序列的互補序列互補的crick錨定引物;和/或c)第一組watson靶標選擇性引物對,其包含(i)一個或多個第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,和(ii)一個或多個第二watson靶標選擇性引物,所述一個或多個第二watson靶標選擇性引物各自包含靶標選擇性序列;和/或c)第一組crick靶標選擇性引物對,其包含(i)一個或多個crick靶標選擇性引物,其包含與通用5'銜接子序列的部分互補的序列,和(ii)一個或多個第二crick靶標選擇性引物,所述一個或多個第二crick靶標選擇性引物各自與第二watson靶標選擇性引物序列包含相同的靶標選擇性序列。
22.在一些實施方式中,所述方法還包括:用與通用3'銜接子序列互補的第一引物和與通用5'銜接子序列的互補序列互補的第二引物擴增多個銜接子連接的雙鏈dna片段,由此產生擴增子,其中所述擴增子包含多個雙鏈watson模板和多個雙鏈crick模板。在某些實施方式中,所述方法還包括:用第一組watson靶標選擇性引物對選擇性擴增所述雙鏈watson模板,所述第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,和(ii)第二watson靶標選擇性引物,其包含靶標選擇性序列,由此產生靶標watson擴增產物。在進一步的實施方式中,所述方法還包括:用第一組crick靶標選擇性引物對選擇性地擴增所述雙鏈crick模板,所述第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其包含與通用5'銜接子序列的部分的互補序列互補的序列,和(ii)第二crick靶標選擇性引物,其與第二watson靶標選擇性引物序列包含相同的靶標選擇性序列,由此產生靶標crick擴增產物。在某些實施方式中,在連接任何銜接子之前,將雙鏈dna片段與尿嘧啶-dna糖基化酶和dna糖基化酶-裂解酶核酸內切酶viii的混合物一起孵育。
23.在一些實施方式中,所用的聚合酶(例如,用于延伸5'銜接子序列)具有5'至3'核酸外切酶活性(例如,其可以消化3'pdsa的第二鏈)。在其它實施方式中,所用的聚合酶(例如,用于延伸5'銜接子序列)不具有5'至3'核酸外切酶活性。
24.在其它實施方式中,所述方法還包括:去除3'pdsa的第二鏈以產生單鏈3'銜接子(3'ssa)。在其它實施方式中,其中去除第二鏈發生在步驟b)之后,或步驟b)之前,或步驟b)期間。在一些實施方式中,去除3'pdsa的第二鏈包括使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸以降解第二鏈。在進一步的實施方式中,去除第二鏈是通過具有核酸外切酶活性的聚合酶完成的,其中聚合酶將5'銜接子延伸貫穿外源性uid序列和第一區段。
25.在進一步的實施方式中,所述方法還包括:確定一種或多種擴增子的序列讀數。在其它實施方式中,所述方法還包括:將序列讀數分配到uid家族中,其中uid家族的各成員包含相同的外源性uid序列。在特定實施方式中,所述方法還包括:基于外源性uid序列與r1和
r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族。在其它實施方式中,所述方法還包括:當至少50%(例如,50...75...95%)的watson亞家族包含該序列時,將核苷酸序列鑒定為準確地代表分析物dna片段的watson鏈。在其它實施方式中,所述方法還包括:當至少50%(例如,50...75...90%)的crick亞家族包含該序列時,將核苷酸序列鑒定為準確地代表分析物dna片段的crick鏈。
26.在一些實施方式中,所述方法還包括:當準確代表watson鏈的序列與缺乏突變的參考序列不同時,將核苷酸序列中的突變鑒定為準確地代表watson鏈。在其它實施方式中,所述方法還包括:當準確代表crick鏈的序列與缺乏突變的參考序列不同時,將核苷酸序列中的突變鑒定為準確地代表crick鏈。在其它實施方式中,所述方法還包括:當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。在一些實施方式中,uid家族的各成員還包含相同的內源性uid序列,其中內源性uid序列包含來自該的雙鏈dna片段的末端。在其它實施方式中,雙鏈dna片段具有鈍端。
27.本文提供了用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段的各端具有雙鏈體分子條形碼;b)擴增在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段以產生擴增的雙鏈體測序文庫,其中所述擴增包括在全基因組pcr條件下,使在雙鏈dna片段各端上包含雙鏈分子表形碼的雙鏈dna片段與通用引物對接觸;c)任選地,從擴增的雙鏈體測序文庫生成watson鏈的單鏈dna文庫;d)任選地,從擴增的雙鏈體測序文庫中產生crick鏈的單鏈dna文庫;e)使用由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成的引物對,擴增watson鏈的dna文庫(例如,單鏈dna文庫)的靶區域;f)使用由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成的引物對,擴增crick鏈的dna文庫(例如,單鏈dna文庫)的靶區域;g)對從watson鏈的dna文庫(例如,單鏈dna文庫)(例如,dna文庫(例如,單鏈dna文庫))擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;h)對從crick鏈的dna文庫(例如,單鏈dna文庫)(例如,單鏈dna文庫(例如,單鏈dna文庫))擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的crick鏈中突變的存在與否;和i)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。在一些實施方式中,產生各自在雙鏈dna片段的各端都具有雙鏈體分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)包含5'磷酸的第一寡核苷酸、第一分子條形碼,和3'寡核苷酸,其退火至b)含有可降解3'封閉基團的第二寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列是互補的;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端,其中5'雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子被連接至第一分子條形碼上游的雙鏈dna片段上,并留下雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口;和iv)填充雙鏈dna片段5'端和5'銜接子之間的單鏈核酸缺口,以產生雙鏈dna片段,該雙鏈dna片段在雙鏈dna片段的各端包含雙鏈體分子條形碼。在一些實施方式中,從擴增的雙鏈體測序文庫產生watson鏈的dna文庫(例如,單鏈dna文庫)(例如,dna文庫
(例如,單鏈dna文庫))包括:i)使用由第一引物和第二引物組成的引物對,擴增擴增的雙鏈體測序文庫的第一等分部分(aliquot),其中第一引物能夠雜交至watson鏈,且其中第一引物包含標簽,以產生具有帶標簽的watson鏈的雙鏈擴增產物;ii)使具有帶標簽的watson鏈的雙鏈擴增產物變性,以產生單鏈帶標簽watson鏈和單鏈crick鏈;和iii)回收單鏈帶標簽watson鏈,以從擴增的雙鏈體測序文庫產生watson鏈的dna文庫(例如,單鏈dna文庫)。
28.在一些實施方式中,雙鏈dna模板獲自哺乳動物的樣品,從擴增的雙鏈體測序文庫產生crick鏈的dna文庫(例如,單鏈dna文庫)包括:i)使用由第一引物和第二引物組成的引物對,擴增擴增的雙鏈體測序文庫的第二等分部分,其中第一引物能夠與crick鏈雜交,并且其中第一引物包含標簽,以產生具有帶標簽crick鏈的雙鏈擴增產物;ii)使具有帶標簽crick鏈的雙鏈擴增產物變性,以產生單鏈帶標簽crick鏈和單鏈watson鏈;和iii)回收單鏈帶標簽crick鏈,以從擴增的雙鏈體測序文庫產生crick鏈的dna文庫(例如,單鏈dna文庫)。在一些實施方式中,哺乳動物是人。
29.在一些實施方式中,所述方法還包括,在產生在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段之前:將雙鏈dna片段化,以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。在一些實施方式中,將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是t4 dna連接酶。
30.在一些實施方式中,降解可降解的3'封閉基團包括:使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。在一些實施方式中,將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端包括:在連接酶的存在下,使5'銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是大腸桿菌(escherichia coli)連接酶。
31.在一些實施方式中,填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接觸。在一些實施方式中,聚合酶是taq聚合酶。
32.在一些實施方式中,將5'銜接子連接至雙鏈dna片段的各5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。在一些實施方式中,擴增在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段以產生擴增的雙鏈體測序文庫包括:在pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段與通用引物對接觸。在一些實施方式中,擴增包括全基因組pcr。在一些實施方式中,帶標簽引物是生物素化的引物,并且其中生物素化的引物可以產生生物素化單鏈watson鏈和生物素化單鏈crick鏈。在一些實施方式中,變性步驟包括naoh變性、熱變性或兩者的組合。
33.在一些實施方式中,回收步驟包括使帶標簽watson鏈與鏈霉親和素功能化珠接觸,并且使帶標簽crick鏈與鏈霉親和素功能化珠接觸。在一些實施方式中,回收步驟還包括使未帶標簽watson鏈變性和使未帶標簽watson鏈變性。在一些實施方式中,回收步驟還包括從鏈霉親和素功能化珠釋放生物素化單鏈watson鏈和從鏈霉親和素功能化珠釋放生物素化單鏈crick鏈。在一些實施方式中,帶標簽引物是磷酸化引物,并且磷酸化引物可產生磷酸化單鏈watson鏈和磷酸化單鏈crick鏈。在一些實施方式中,變性步驟包括λ核酸外切酶消化。
34.在一些實施方式中,從watson鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包
括:使用第二引物對進行的第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成;并且其中,從crick鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包括:使用第二引物對進行第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成。在一些實施方式中,測序步驟包括雙端測序。
35.本文還提供了用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段的各端具有雙鏈體分子條形碼;b)從在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段產生來自擴增的雙鏈體測序文庫的watson鏈的dna文庫(例如,單鏈dna文庫)和crick鏈的dna文庫(例如,單鏈dna文庫);c)使用引物對從單鏈watson鏈擴增靶區域,所述引物對由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成;d)使用引物對從單鏈crick鏈擴增靶區域,所述引物對由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成;e)對從watson鏈的dna文庫(例如,單鏈dna文庫)擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;f)對從crick鏈的dna文庫(例如,單鏈dna文庫)擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的crick鏈中突變的存在與否;和g)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。
36.在一些實施方式中,雙鏈dna模板是基因組dna樣品,并且產生各自在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)第一寡核苷酸,其包含5'磷酸,第一分子條形碼,和3'寡核苷酸,其退火至b)第二寡核苷酸,其包含可降解的3'封閉基團,其中3'寡核苷酸與第二寡核苷酸序列互補;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'末端,其中5'雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子連接在第一分子條形碼上游的雙鏈dna片段上,并在雙鏈dna片段的5'端和5'銜接子之間留下單鏈核酸的缺口;和iv)填充雙鏈dna片段5'端與5'銜接子之間的單鏈核酸的缺口,以產生雙鏈dna片段,其在雙鏈dna片段各端包含雙鏈體分子條形碼。
37.在一些實施方式中,雙鏈dna模板是無細胞dna樣品,并且從在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段產生來自擴增的雙鏈體測序文庫的watson鏈的dna文庫(例如,單鏈dna文庫)和crick鏈的dna文庫(例如,單鏈dna文庫)包括:i)使用由第一引物和第二引物組成的通用引物對擴增在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段,其中所述擴增包括:在全基因組pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段與引物對接觸,其中第一引物能夠與watson鏈雜交,并且其中第一引物是生物素化的,以產生具有生物素化watson鏈的雙鏈擴增產物;ii)在其中生物素化watson鏈與鏈霉親和素功能化珠結合的條件下,使具有生物素化watson鏈的雙鏈擴增產物與鏈霉親和素功能化珠接觸;iii)使具有生物素化watson鏈的雙鏈擴增產物變性,以留下與鏈霉親和素功能化珠結合的單鏈生物素化watson鏈并釋放單鏈crick鏈;iv)收集單鏈crick鏈;v)從鏈霉親和素功能化珠釋放單鏈生物素化watson鏈;和vi)收集單鏈生物素化watson鏈。
38.在一些實施方式中,雙鏈dna模板獲自哺乳動物樣品。在一些實施方式中,哺乳動物為人。
39.在一些實施方式中,所述方法還包括,在產生在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段之前:將雙鏈dna片段化,以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。
40.在一些實施方式中,將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是t4 dna連接酶。在一些實施方式中,可降解的3'封閉基團包括:使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。在一些實施方式中,將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端包括:在連接酶的存在下,使5'銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是大腸桿菌(escherichia coli)連接酶。
41.在一些實施方式中,填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接觸。在一些實施方式中,聚合酶是taq-b聚合酶。在一些實施方式中,將5'銜接子連接至雙鏈dna片段的各5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。
42.在一些實施方式中,擴增在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段包括:在pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段與引物對接觸。在一些實施方式中,擴增包括全基因組pcr。在一些實施方式中,從watson鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包括:使用第二引物對進行的第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成;并且其中,從crick鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包括:使用第二引物對進行第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成。在一些實施方式中,測序步驟包括雙端測序或單端測序。
43.本文還提供了用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變的存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段各端具有雙鏈體分子條形碼;b)使用通用引物對,擴增在雙鏈dna片段各端均具有雙鏈體分子條形碼的雙鏈dna片段,其中所述擴增包括在全基因組pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段接觸引物對;c)使用引物對,從各自在雙鏈dna片段各端具有雙鏈體分子條形碼的擴增的雙鏈dna片段的watson鏈擴增靶區域,所述引物對由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成;d)使用引物對,從各自在雙鏈dna片段各端具有雙鏈體分子條形碼的擴增的雙鏈dna片段的crick鏈擴增靶區域,所述引物對由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成;e)對從watson鏈擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;f)對從crick鏈擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的crick鏈中突變的存在與否;g)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。
44.在一些實施方式中,雙鏈dna模板是基因組dna樣品,并且產生各自在雙鏈dna片段
各端具有雙鏈體分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)第一寡核苷酸,其包含5'磷酸,第一分子條形碼,和3'寡核苷酸,其退火至b)第二寡核苷酸,其包含可降解的3'封閉基團,其中3'寡核苷酸與第二寡核苷酸序列互補;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'末端,其中5'雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子連接在第一分子條形碼上游的雙鏈dna片段上,并在雙鏈dna片段的5'端和5'銜接子之間留下單鏈核酸的缺口;和iv)填充雙鏈dna片段5'端與5'銜接子之間的單鏈核酸的缺口,以產生雙鏈dna片段,其在雙鏈dna片段各端包含雙鏈體分子條形碼。在一些實施方式中,雙鏈dna模板是無細胞dna樣品。在一些實施方式中,雙鏈dna模板是基因組dna樣品。在一些實施方式中,哺乳動物是人。
45.在一些實施方式中,所述方法還包括,在產生在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段之前:將雙鏈dna片段化,以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。
46.在一些實施方式中,將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是t4 dna連接酶。在一些實施方式中,降解可降解的3'封閉基團包括:使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。在一些實施方式中,將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端包括:在連接酶的存在下,使5'銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。在一些實施方式中,連接酶是大腸桿菌(escherichia coli)連接酶。
47.在一些實施方式中,填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在dna聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接觸。在一些實施方式中,dna聚合酶是taq-b聚合酶。
48.在一些實施方式中,將5'銜接子連接至雙鏈dna片段的各5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。在一些實施方式中,擴增在雙鏈dna片段各端具有雙鏈體分子條形碼的雙鏈dna片段包括:在pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段與引物對接觸。在一些實施方式中,擴增包括全基因組pcr。在一些實施方式中,從watson鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包括:使用第二引物進行的第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成;并且其中,從crick鏈的dna文庫(例如,單鏈dna文庫)擴增靶區域還包括:使用第二引物對進行第二擴增,所述第二引物對由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成。在一些實施方式中,測序步驟包括雙端測序。
49.本文還提供了方法,包括:
50.a.使部分雙鏈3'銜接子連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'銜接子的退火位點,和(iv)通用3'銜接子序列,其包含r2測序引物位點,并且其中所述部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中所述第二鏈可降解;
51.b.通過退火位點使5'銜接子退火至3'銜接子,其中5'銜接子在5'到3'方向上包含:(i)通用5'銜接子序列,其不與通用3'銜接子序列互補,并且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;
52.c.進行切口(nick)平移樣反應以使5'銜接子延伸貫穿3'銜接子的外源性uid序列(例如,使用dna聚合酶),并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端(例如,使用連接酶);
53.d.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;
54.e.確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;
55.f.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;
56.g.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;
57.h.當閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;
58.i.當閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;
59.j.當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變;
60.k.當準確代表crick鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的序列中的突變;和
61.l.當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。
62.在一些實施方式中,uid家族的各成員還包含相同的內源性uid序列,其中內源性uid序列包含來自該的雙鏈dna片段的末端。在一些實施方式中,包含雙鏈dna片段的末端的內源性uid序列包含至少8、10或15個堿基。在一些實施方式中,外源性uid序列對于各雙鏈dna片段是獨特的。在一些實施方式中,外源性uid序列對于各雙鏈dna片段不是獨特的。在一些實施方式中,uid家族的各成員包含相同的內源性uid序列和相同的外源性uid序列。在一些實施方式中,步驟(d)包括不多于11個循環的pcr擴增。在一些實施方式中,步驟(d)包括不多于7個循環的pcr擴增。在一些實施方式中,步驟(d)包括不多于5個循環的pcr擴增。在一些實施方式中,步驟(d)包括至少1個循環的pcr擴增。
63.在一些實施方式中,在確定序列讀數之前,針對一種或多種靶多核苷酸富集擴增子。在一些實施方式中,富集包括:
64.a.用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第二watson靶標選擇性引物,其含有靶標選擇性序列,由此產生靶標watson擴增產物;和
65.b.用第一組crick靶標選擇性引物對選擇性擴增包含相同靶多核苷酸序列的crick鏈的擴增子,第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子序列的部分是通用
5'銜接子序列的r1測序引物位點,和(ii)第二crick靶標選擇性引物,其與第二watson靶標選擇性引物序列含有相同的靶標選擇性序列,由此產生靶標crick擴增產物。
66.在一些實施方式中,所述方法還包括從非靶標多核苷酸純化靶標watson擴增產物和靶標crick擴增產物。在一些實施方式中,所述方法還包括純化,包括將靶標watson擴增產物和靶標crick擴增產物連接至固體支持物。在一些實施方式中,第一watson靶標選擇性引物和第一crick靶標選擇性引物包含親和結合對的第一成員,并且其中固體支持物包含親和結合對的第二成員。在一些實施方式中,第一成員是生物素并且第二成員是鏈霉親和素。在一些實施方式中,固體支持物包括珠、孔、膜、管、柱、板、瓊脂糖、磁珠或芯片。在一些實施方式中,所述方法還包括去除未連接至固體支持物的多核苷酸。
67.在一些實施方式中,所述方法還包括:
68.a.用第二組watson靶標選擇性引物進一步擴增靶標watson擴增產物,第二組watson靶標選擇性引物包含(i)第三watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互補的序列,任選地,其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第四watson靶標選擇性引物,其在5'至3'方向上包含:r1測序引物位點和選擇性針對相同靶標多核苷酸的靶標選擇性序列,由此產生靶標watson文庫成員;
69.b.用第二組crick靶標選擇性引物進一步擴增靶標crick擴增產物,第二組crick靶標選擇性引物包含(i)第三crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地,其中通用5'銜接子序列的部分是通用5'銜接子序列的r1測序引物位點,和(ii)第四crick靶標選擇性引物,其在5'至3'方向上包含:r2測序引物位點和選擇性針對第四watson靶標選擇性引物的相同靶標多核苷酸的靶標選擇性序列,由此產生靶標crick文庫成員。
70.在一些實施方式中,第三watson和crick靶標選擇性引物還包含樣品條形碼序列。在一些實施方式中,第三watson靶標選擇性引物還包含能夠實現與測序儀上的第一移接引物(grafting primer)的雜交的第一移接序列,并且其中第三crick靶標選擇性引物還包括能夠實現與測序儀上的第二移接引物的雜交的第二移接序列。在一些實施方式中,第四watson靶標選擇性引物還包含第二移接序列,并且其中第四crick靶標選擇性引物還包含第一移接序列。在一些實施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少50%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少70%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少80%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少90%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少50%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少70%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少80%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少90%。
71.本文還提供了方法,包括:
72.a.將銜接子連接至分析物dna樣品中的雙鏈dna片段,其中銜接子包含雙鏈部分
和分叉部分,所述雙鏈部分含有外源uid,且所述分叉部分含有(i)包含r2測序引物位點的單鏈3'銜接子序列和(ii)包含r1測序引物位點的單鏈5'銜接子序列;
73.b.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;
74.c.用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第二watson靶標選擇性引物,其含有靶標選擇性序列,由此產生靶標watson擴增產物;
75.d.用第一組crick靶標選擇性引物對選擇性擴增包含相同靶多核苷酸序列的crick鏈的擴增子,第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子序列的部分是通用5'銜接子序列的r1測序引物位點,和(ii)第二crick靶標選擇性引物,其與第二crick靶標選擇性引物序列含有相同的靶標選擇性序列,由此產生靶標crick擴增產物。
76.e.確定靶標watson擴增產物和靶標crick擴增產物的序列讀數;
77.f.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;
78.g.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;
79.h.當閾值百分數的watson家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;
80.i.當閾值百分數的crick家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;和
81.j.當準確代表watson鏈的核苷酸序列和準確代表crick鏈的核苷酸序列均包含相同突變時,鑒定分析物dna片段中的突變。
82.在一些實施方式中,所述方法還包括從非靶標多核苷酸純化靶標watson擴增產物和靶標crick擴增產物。在一些實施方式中,所述方法還包括將靶標watson擴增產物和靶標crick擴增產物連接至固體支持物。在一些實施方式中,第一watson靶標選擇性引物和第一crick靶標選擇性引物包含親和結合對的第一成員,并且其中固體支持物包含親和結合對的第二成員。在一些實施方式中,第一成員是生物素并且第二成員是鏈霉親和素。在一些實施方式中,固體支持物包括珠、孔、膜、管、柱、板、瓊脂糖、磁珠或芯片。在一些實施方式中,所述方法還包括去除未連接至固體支持物的多核苷酸。
83.在一些實施方式中,所述方法還包括:
84.a.用第二組watson靶標選擇性引物進一步擴增靶watson擴增產物,第二組watson靶標選擇性引物包含(i)第三watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)第四watson靶標選擇性引物,其在5'到3'方向上包含r1測序引物位點和選擇性針對相同靶多核苷酸的靶標選擇性序列,由此產生靶標watson文庫成員;
85.b.用第二組crick靶標選擇性引物進一步擴增靶標crick擴增產物,第二組crick靶標選擇性引物包含(i)第三crick靶標選擇性引物,其包含與通用3'銜接子序列的rl測序引物位點互補的序列,和(ii)第四crick靶標選擇性引物,其在5'至3'方向上包含r2測序引
物位點和選擇性針對第四watson靶標選擇性引物的相同靶標多核苷酸的靶標選擇性序列,由此產生靶標crick文庫成員,由此產生靶標crick文庫成員。
86.在一些實施方式中,第三watson和crick靶標選擇性引物還包含樣品條形碼序列。在一些實施方式中,第三watson靶標選擇性引物還包含能夠實現與測序儀上的第一移接引物的雜交的第一移接序列,并且其中第三crick靶標選擇性引物還包括能夠實現與測序儀上的第二移接引物的雜交的第二移接序列。在一些實施方式中,第四watson靶標選擇性引物還包含第二移接序列,并且其中第四crick靶標選擇性引物還包含第一移接序列。在一些實施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。在一些實施方式中,連接包括將a尾銜接子連接至雙鏈dna片段。在一些實施方式中,連接包括將a尾銜接子連接至中dna片段的兩端。
87.在一些實施方式中,連接包括:
88.a.使部分雙鏈3'銜接子連接至雙鏈dna片段的watson和crick鏈兩者的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含,(i)第一段,(ii)任選地,外源性uid序列,(iii)5'銜接子的退火位點,和(iv)通用3'銜接子序列,其包含r2測序引物位點,并且其中所述部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中所述第二鏈可降解;和
89.b.通過退火位點使5'銜接子退火至3'銜接子,其中5'銜接子在5'到3'方向上包含:(i)通用5'銜接子序列,其不與通用3'銜接子序列互補,并且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;和
90.c.進行切口(nick)平移樣反應以使5'銜接子延伸貫穿3'銜接子(例如,使用dna聚合酶),并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端(例如,使用連接酶)。
91.在一些實施方式中,uid序列包含內源性uid序列,其包含來自的雙鏈dna片段的末端。在一些實施方式中,包含雙鏈dna片段的末端的內源性uid序列包含至少8、10或15個堿基。在一些實施方式中,外源性uid序列對于各雙鏈dna片段是獨特的。在一些實施方式中,外源性uid序列對于各雙鏈dna片段不是獨特的。在一些實施方式中,uid家族的各成員包含相同的內源性uid序列和相同的外源性uid序列。
92.在一些實施方式中,擴增銜接子連接的雙鏈dna片段以產生擴增子包括不超過11個循環的pcr擴增。在一些實施方式中,擴增銜接子連接的雙鏈dna片段以產生擴增子包括不超過7個循環的pcr擴增。在一些實施方式中,擴增銜接子連接的雙鏈dna片段以產生擴增子包括不超過5個循環的pcr擴增。在一些實施方式中,擴增銜接子連接的雙鏈dna片段以產生擴增子包括至少1個循環的pcr擴增。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少50%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少70%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少80%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表雙鏈dna片段中靶標多核苷酸的至少90%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少50%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少70%。在一些實施方式中,靶標watson文庫成
員和靶標crick文庫成員代表總dna片段的至少80%。在一些實施方式中,靶標watson文庫成員和靶標crick文庫成員代表總dna片段的至少90%。
93.在一些實施方式中,序列讀數的確定能夠實現模板分子兩端的序列確定。在一些實施方式中,模板分子兩端的確定包括雙端測序。在一些實施方式中,序列讀數的確定包括跨模板長度的單讀數測序以產生序列讀數。在一些實施方式中,序列讀數的確定包括用大規模平行測序儀測序。在一些實施方式中,大規模平行測序儀被設置為確定來自模板多核苷酸兩端的序列讀數。在一些實施方式中,雙鏈dna片段包含長度為約50-600nt的一個或多個片段。在一些實施方式中,雙鏈dna片段包含長度小于2000、小于1000、小于500、小于400、小于300或小于250nt的一個或多個片段。
94.在一些實施方式中,本文提供的方法還包括,在初始擴增之后和選擇性擴增之前,制備對應于擴增子的正義鏈和反義鏈的單鏈(ss)dna文庫。在一些實施方式中,ssdna文庫制備包括:
95.a.使用兩個引物進行擴增反應,其中兩個引物中只有一個包含親和結合對的第一成員,由此產生擴增產物,所述擴增產物包含含有親和結合對的第一成員的鏈和不含有親和結合對的第一成員的鏈;
96.b.使擴增產物與固體支持物接觸,其中固體支持物包含親和結合對的第二成員;
97.c.使擴增產物變性,以將包含親和結合對的第一成員的鏈與不包含親和結合對的第一成員的鏈分開;和
98.d.純化包含親和結合對的第一成員的分離的鏈和不包含親和結合對的第一成員的分離的鏈。
99.在一些實施方式中,親和結合對的第一成員是生物素,且親和結合對的第二成員是鏈霉親和素。在一些實施方式中,ssdna文庫制備包括:
100.a.將擴增子劃分成兩個擴增反應,各擴增反應使用正向引物和反向引物,其中兩個引物中只有一個被磷酸化,由此產生包含磷酸化鏈和非磷酸化鏈的擴增產物;
101.b.使擴增產物與核酸外切酶接觸,所述核酸外切酶選擇性地消化具有5'磷酸的鏈。
102.在一些實施方式中:
103.a.在第一擴增反應中,正向引物是磷酸化的,且反向引物是非磷酸化的;
104.b.在第二擴增反應中,反向引物是磷酸化的,且正向引物是非磷酸化的。
105.在一些實施方式中,核酸外切酶是λ核酸外切酶。在一些實施方式中,磷酸化在5'位點。
106.在一些實施方式中,初始擴增包括:
107.a.采用引物對進行擴增,其中引物對中的兩個引物中只有一個包含親和結合對的第一成員,由此產生擴增產物,其包含含有親和結合對的第一成員的鏈和不含有親和結合對的第一成員的鏈;
108.b.使擴增產物與固體支持物接觸,其中固體支持物包含親和結合對的第二成員;
109.c.使擴增產物變性,以將包含親和結合對的第一成員的鏈與不包含親和結合對的第一成員的鏈分開;和
110.d.純化包含親和結合對的第一成員的分離的鏈和不包含親和結合對的第一成員
的分離的鏈。
111.在一些實施方式中,親和結合對的第一成員是生物素,且親和結合對的第二成員是鏈霉親和素。在一些實施方式中,當外源性uid序列位于r2序列下游和r1序列上游時,將uid家族的序列讀數分配至watson亞家族。在一些實施方式中,當外源性uid序列位于r1序列下游和r2序列上游時,將uid家族的序列讀數分配至crick亞家族。在一些實施方式中,當外源性uid序列與r2序列接近度更高,且與r1序列接近度更低時,將uid家族的序列讀數分配至watson亞家族。在一些實施方式中,當外源性uid序列與r1序列接近度更高,且與r2序列接近度更低時,將uid家族的序列讀數分配至crick亞家族。在一些實施方式中,當外源性uid序列緊鄰r2序列下游或與r2序列距離1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸之內時,將uid家族的序列讀數分配至watson亞家族。在一些實施方式中,當外源性uid序列緊鄰r1序列下游或與r1序列距離1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸之內時,將uid家族的序列讀數分配至crick亞家族。
112.在一些實施方式中,雙鏈dna片段來自生物樣品。在一些實施方式中,生物樣品獲自對象。
113.在一些實施方式中,對象是人對象。在一些實施方式中,生物樣品是流體樣品。在一些實施方式中,流體樣品選自全血、血漿、血清痰、尿液、汗液、淚液、腹水、精液和支氣管肺泡灌洗液。在一些實施方式中,流體樣品是無細胞或基本上無細胞的樣品。在一些實施方式中,生物樣品是固體生物樣品。在一些實施方式中,固體生物樣品是腫瘤樣品。
114.在一些實施方式中,所鑒定的突變以0.1%或更低的頻率存在于雙鏈dna片段中。在一些實施方式中,所鑒定的突變以0.1%至0.00001%的頻率存在于雙鏈dna片段中。在一些實施方式中,所鑒定的突變以0.1%至0.01%的頻率存在于雙鏈dna片段中。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中包含靶多核苷酸的至少50%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中包含靶多核苷酸的至少70%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中包含靶多核苷酸的至少80%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中包含靶多核苷酸的至少90%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中至少50%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中至少70%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中至少80%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。在一些實施方式中,序列讀數的確定包括確定來自分析物dna樣品中至少90%的雙鏈dna片段的watson和crick鏈兩者的序列讀數。
115.在一些實施方式中,相比于不要求檢測分析物dna片段的watson和crick鏈兩者中的突變的鑒定突變的替代性方法,與根據前述權利要求中任一項所述的所述方法的分析dna片段中一個或多個突變的鑒定相關聯的錯誤率減少至少2倍,4倍,5倍,10倍,20倍,30倍,40倍,50倍,60倍,70倍,80倍,90倍,或100倍。在一些實施方式中,替代性方法包括標準分子條碼化(barcoding)或基于pcr的標準分子條碼化。在一些實施方式中,替代性方法包
括:
116.a.將銜接子連接至分析物dna樣品中的雙鏈dna片段,其中銜接子包含獨特的外源性uid;
117.b.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;
118.c.確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;
119.d.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;
120.e.當閾值百分數的uid家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段;和
121.f.當鑒定為準確代表分析物dna片段的序列與缺乏突變的參考序列不同時,鑒定分析物dna片段中的突變。
122.在一些實施方式中,與根據前述權利要求中任一項所述的方法的分析物dna片段中一個或多個突變的鑒定相關聯的錯誤率不多于1x10-2
,不多于1x10-3
,不多于1x10-4
,不多于1x10-5
,不多于1x10-6
,不多于5x10-6
,或不多于1x10-7
。
123.本文還提供了計算機可讀介質,其包含用于分析來自核酸樣品的序列讀數數據的計算機可執行指令,其中所述數據通過前述權利要求中任一項所述的方法產生。在一些實施方式中,計算機可讀介質包括用于以下的可執行指令
124.a.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;
125.b.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson和crick亞家族;
126.c.當閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;
127.d.當閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;
128.e.當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變;
129.f.當準確代表crick鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的序列中的突變;
130.g.當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。
131.在一些實施方式中,計算機可讀介質包含可執行指令,其用于在外源性uid序列緊鄰r2測序引物結合位點下游或距離r2測序引物結合位點1-300個核苷酸內時將uid家族成員分配至watson亞家族。在一些實施方式中,計算機可讀介質包含可執行指令,其用于在外源性uid序列緊鄰r1測序引物結合位點下游或距離r1測序引物結合位點1-300個核苷酸內時將uid家族成員分配至crick亞家族。在一些實施方式中,計算機可讀介質包含用于將序列讀數映射到參考基因組的可執行指令。在一些實施方式中,參考基因組是人類參考基因組。
132.在一些實施方式中,計算機可讀介質還包括計算機可執行指令,以基于樣品中突變的存在、不存在或突變量生成選擇的報告。在一些實施方式中,計算機可讀介質還包括能夠通過網絡傳輸數據的計算機可執行代碼。
133.本文還提供了計算機系統,包括:
134.a.存儲單元,其被設置為接收來自核酸樣品的序列數據,其中所述數據通過前述權利要求中任一項所述的方法產生;
135.b.一種可通信地耦合到所述存儲單元的處理器,其中所述處理器包括根據前述權利要求中任一項所述的計算機可讀介質。
136.在一些實施方式中,計算機系統還包括被設置為將數據傳送到存儲單元的測序系統。在一些實施方式中,計算機系統還包括設置為向用戶傳達或顯示報告的用戶界面。在一些實施方式中,計算機系統還包括數字處理器,其被設置為通過網絡傳輸數據分析的結果。
137.本文還提供了系統,包括:
138.a.來自生物樣品的雙鏈dna片段;
139.b.如前述權利要求中任一項所述的3'銜接子;
140.c.如前述權利要求中任一項所述的5'銜接子;
141.d.用于進行切口平移樣反應的試劑(例如,使用dna聚合酶、粘端特異性連接酶和尿嘧啶-dna糖基化酶);
142.e.用于針對一種或多種靶多核苷酸富集擴增子的試劑;和
143.f.一個測序系統。
144.在一些實施方式中,所述系統還包括根據前述權利要求中任一項所述的計算機系統。
145.本文還提供了試劑盒,其包括:
146.a.第一組watson靶標選擇性引物對,其包含(i)一個或多個第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)一個或多個第二watson靶標選擇性引物,所述一個或多個第二watson靶標選擇性引物各自包含靶標選擇性序列;
147.b.第一組crick靶標選擇性引物對,其包含(i)一個或多個crick靶標選擇性引物,其包含與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子的部分序列是通用5'銜接子序列的r1測序引物位點,和(ii)一個或多個第二crick靶標選擇性引物,所述一個或多個第二crick靶標選擇性引物各自與第二watson靶標選擇性引物序列包含相同的靶標選擇性序列;
148.c.第二組watson靶標選擇性引物對,其包含(i)一個或多個第三watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)一個或多個第四watson靶標選擇性引物,所述一個或多個第四watson靶標選擇性引物各自在5'至3'方向上包含r1測序引物位點和選擇性針對相同靶多核苷酸的靶標選擇性序列;和
149.d.第二組crick靶標選擇性引物,其包含(i)一個或多個第三crick靶標選擇性引物,其包含與通用3'銜接子序列的r1測序引物位點互補的序列,和(ii)一個或多個第四crick靶-選擇性引物,所述一個或多個第四crick靶標選擇性引物各自在5'至3'方向上包含r2測序引物位點和選擇性針對相同靶多核苷酸的靶標選擇性序列。
150.除非另外定義,本發明使用的所有技術和科學術語的意義與本發明所屬領域普通技術人員通常所理解的相同。雖然在本發明的實施可以采用類似于或等同于本發明所述的那些方法和材料,但下文描述了合適的方法和材料。本發明中述及的所有出版物、專利申
請、專利和其它參考文獻都通過引用全文納入本發明。若有抵觸,以本包括定義在內的本技術說明書為準。此外,材料、方法和實施例都僅是說明性的,并不意在構成限制。
151.附圖和以下說明進一步詳細說明了本發明的一種或多種實施方式。從說明書、附圖以及權利要求中可以明顯看出本發明的其他特征、目的和優點。
附圖說明
152.圖1包含示例性雙鏈錨定pcr方法的示意圖。具有分子條形碼的雙鏈體銜接子被連接至具有鈍端的核酸片段的末端,以生成雙鏈體測序文庫,并對雙鏈體測序文庫進行pcr以生成擴增的雙鏈體測序文庫。擴增的雙鏈體測序文庫中的擴增產物被分成兩個等分部分,且對各等分部分進行pcr,其中watson鏈從第一等分部分擴增,且crick鏈從第二等分部分擴增。
153.圖2包含了示例性第二輪文庫擴增的示意圖,其中使用引物對對從圖1中的第一等分部分擴增的watson鏈進行pcr,其中第一引物是生物素化的,第二引物是非生物素化的,以產生可用于擴增和評估watson鏈的單鏈dna文庫。
154.圖3包含了示例性第二輪文庫擴增的示意圖,其中使用引物對對從圖1中的第一等分部分擴增的crick鏈進行pcr,其中第一引物是非生物素化的,第二引物是生物素化的,以產生可用于擴增和評估crick鏈的單鏈dna文庫。
155.圖4包含示例性watson擴增的示意圖。
156.圖5包含示例性crick擴增的示意圖。
157.圖6包含示例性擴增watson鏈和示例性擴增crick鏈的示意圖。
158.圖7包含示例性巢式watson擴增的示意圖。
159.圖8包含示例性巢式crick擴增的示意圖。
160.圖9包含示例性去除5'磷酸的示意圖。
161.圖10包含示例性填充具有5'突出端的擴增片段的3'端以產生鈍端擴增產物的示意圖。
162.圖11包含示例性3'雙鏈體銜接子的示意圖,其包括3spc3間隔區、含有分子條形碼的外源性uid序列和與可被尿嘧啶-dna糖基化酶(udg)降解的3'封閉基團雜交的3'寡核苷酸(dt)。
163.圖12包含使用3'雙鏈體銜接子的示例性3'銜接子連接的示意圖。3'雙鏈體銜接子的5'磷酸連接至核酸模板的3'端。
164.圖13包含示例性5'銜接子連接的示意圖。在單個反應中,3'雙鏈體銜接子的封閉基團被降解,并且含有5'銜接子的5'銜接子通過切口平移反應連接至核酸模板的5'端。
165.圖14包含示例性文庫pcr擴增的示意圖。
166.圖15包含示例性watson擴增的示意圖。
167.圖16包含示例性巢式watson擴增的示意圖。
168.圖17包含示例性crick擴增的示意圖。
169.圖18包含示例性巢式crick擴增的示意圖。
170.圖19包含由示例性雙鏈錨定pcr產生的最終擴增產物的示意圖。
171.圖20包含顯示如何采用由示例性雙鏈錨定pcr產生的最終擴增產物,使用雙端測
序來區分輸入核酸的watson鏈和crick鏈的示意圖。
172.圖21包含顯示如何采用由示例性雙鏈錨定pcr產生的最終擴增產物,使用雙端測序來區分輸入核酸的watson鏈和crick鏈的示意圖。
173.圖22包含示例saferseqs方法的概覽示意圖。(a)文庫制備從末端修復(步驟1)開始,其中dna模板分子被去磷酸化和鈍化。接著,將包含獨特標識符(uid)序列(窄或寬對角交叉影線)的3'銜接子連接至3'片段末端(步驟2)。uid序列在5'銜接子的延伸和連接后轉化為雙鏈條形碼(步驟3)。最后,在文庫擴增過程中生成各原始模板分子的冗余pcr拷貝(步驟4)。(b)靶標富集是通過鏈特異性半巢式pcr實現的。擴增后的文庫被劃分為watson和crick特異性反應(步驟5),這些反應選擇性地擴增衍生自dna鏈之一的產物(步驟6)。通過第二次巢式pcr(步驟7)實現附加的中靶特異性和樣品條形碼的納入。對最終的pcr產物(步驟8)進行雙端測序(步驟9)。內源性條形碼代表文庫構建之前模板片段的末端。(c)測序后,讀數確定衍生自watson或crick鏈。由于原始模板分子的各鏈都帶有相同外源性條形碼標簽,并且具有相同的內源性條形碼,因此衍生自同一親本dna雙鏈體的兩條鏈中的各鏈的讀數可以組合在一起成為雙鏈體家族。鏈右端的不同交叉影線和點畫圖案代表不同的條形碼。在所示示例中,各雙鏈家族有8個成員,其中4個代表watson鏈,4個代表crick鏈。在本文描述的實際實驗中,各家族至少包含兩個來自watson鏈的成員和兩個來自crick鏈的成員,實際數量取決于測序深度。由真實突變(bona fide mutation)家族中的星號表示的真實突變存在于dna雙鏈體的兩條親本鏈中,因此在watson和crick家族中都存在。相反,由測序錯誤(sequencing error)家族的pcr中的星號表示的pcr或測序錯誤受限于來自兩條鏈之一的讀數的子集。watson鏈特異性(受損watson鏈家族中的星號)和crick鏈特異性(受損crick鏈家族中的星號)偽影(artifact)見于watson或crick家族的所有拷貝中,但非兩者同時。
174.圖23包含顯示saferseqs分析性能的圖表。在來自含已知突變的癌癥的dna與來自健康供體的白細胞dna以從10%低至0.001%的比率混合時,由saferseqs測定的突變等位基因頻率(maf)對比預期頻率。還測定了0%對照樣品以確定感興趣的突變的特異性。實線表示線性回歸模型的擬合,其中y截距固定為零(斜率=0.776,r2》0.999,p=3.95
×
10-15
)。
175.圖24.采用saferseqs的高雙鏈回收率和高效靶標富集。對于33ng的混合cfdna樣品就tp53中三種不同突變(p.l264fs、p.p190l或p.r342x)之一進行了檢測。每個cfdna樣品制備三個文庫,各自含有約11ng的cfdna。(a)雙鏈體家族(即包含相同內源性和外源性條形碼的watson和crick鏈兩者)的中位數為原始模板分子數量的89%(范圍:65%至102%)。(b)中靶讀數的中位數為80%(范圍:72%至91%)。上下鉸鏈對應于第25和第75百分位,晶須延伸至四分位間距的1.5倍。為了便于可視化,各個點被隨機散布覆蓋。
176.圖25包含顯示液體活檢樣品中示例性突變檢測的圖表。分析33ng來自健康個體的血漿無細胞dna與來自癌癥患者的無細胞血漿dna的混合。建立混合物以產生高頻(約0.5-1%)突變、低頻(約0.01-0.1%)突變或無突變。用(a)safeseqs或(b)saferseqs對混合的tp53 p.r342x樣品進行分析。類似地,用(c)safeseqs和(d)saferseqs分析混合的tp53 p.l264fs樣品,用(e)safeseqs和(f)saferseqs分析混合的tp53 p.p190l樣品。突變數量代表使用safeseqs觀察到的153種不同突變中的每一種(定義于表8中)。通過safeseqs檢測的單個超準突變體(supercalimutant)(表9)位于safeseqs檢測的基因組區域之外,因此未顯
示。
177.圖26.saferseqs中的錯誤與鏈不可知(strand-agnostic)、基于連接的分子條碼化方法中那些的比較。分析33ng來自健康個體的血漿無細胞dna與來自癌癥患者的無細胞血漿dna的混合。建立混合物以產生高頻(約0.5-1%)突變、低頻(約0.01-0.1%)突變或無突變。使用saferseqs分析混合的tp53p.r342x樣品,但(a)鏈信息在分析中被無視以模擬鏈不可知、基于連接的分子條碼化方法或(b)在突變訪尋(calling)期間考慮鏈信息。類似地,在(c)不考慮鏈信息和(d)使用saferseqs的情況下分析了混合的tp53p.l264fs樣品。在(e)不考慮鏈信息和(f)使用saferseqs的情況下對混合的tp53 p.p190l樣品進行類似分析。突變數量在補充表3中定義。星號表示混合突變。saferseqs檢測到的單個意外超準突變體顯示在(e)中。
178.圖27.來自癌癥患者的血漿樣品的評估。采用先前描述的基于pcr的分子條碼化方法(“safeseqs”而不是“saferseqs”)和采用saferseqs對來自攜帶頻率在0.01%和0.1%之間的8個已知突變的5名癌癥患者的血漿無細胞dna樣品進行分析。突變數量在表11中定義。星號表示預期的突變。通過safeseqs檢測的單個意外超準突變體(表11)位于safeseqs檢測的基因組區域之外,因此未顯示。
179.圖28.pcr效率和循環數對雙鏈體回收率的影響。回收原始dna雙鏈(y軸)兩條鏈的概率對文庫擴增循環數(x軸)作圖。圖中的各窗格代表窗格頂部表示的假定pcr效率。顯示了用于鏈特異性pcr的文庫擴增產物的比例。文庫擴增循環數從1到11不等。pcr效率以10%的增量從100%到50%不等。在各鏈特異性pcr中使用的文庫擴增產物的比例從50%到1.4%不等。如實施例2中所述進行概率建模。
180.圖29包含顯示用于檢測示例性癌癥驅動基因突變的多重組(panel)的圖表。在多重組中成功擴增的36個擴增子的回收率和覆蓋率。水平軸顯示第二基因特異性引物(gsp2)3'端下游的位置。隨著與3'引物末端距離的增加,覆蓋率逐漸下降,這是輸入dna片段化模式的結果。實施例2中討論了關于特定擴增子長度的讀數的理論回收率的詳細信息。
181.圖30.用于多重組的48對引物對檢測癌癥中常見突變驅動基因區域的性能。鏈特異性pcr中使用的48個saferseqs引物對各自的中靶讀數的比例(即映射到預期靶標的總讀數的分數)。引物在各基因特異性pcr中以等摩爾濃度使用。
182.圖31.62對引物的性能。迄今為止測試的62對saferseqs引物對各自的中靶讀數的比例(即映射到預期靶標的總讀數的分數)。62對中的50對(81%)表現出大于50%的中靶率。呈現的結果反映了引物設計的單一嘗試。
183.圖32說明了適于使用戶能夠根據本文所述的方法分析核酸樣品的示例性計算機系統。
具體實施方式
184.需注意的是,除非上下文另有明確說明,否則在本說明書和所附權利要求書中使用的單數形式的“一個”、“一種”和“該/所述”包括復數的指代對象。
[0185]“核苷酸”和“nt”在本文中可互換使用以一般指包含核酸的生物分子。核苷酸可以具有含有已知嘌呤和嘧啶堿基的部分。核苷酸可具有已經修飾的其它雜環堿基。此類修飾包括例如甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其它雜環。術語“多核苷酸”、“核酸”和“寡核苷酸”可以互換使用。它們可指任何長度的核苷酸聚合形式,不論是脫氧核糖核苷酸或核糖核苷酸或它們的類似物。多核苷酸可以具有任何三維結構,并且可以進行已知或未知的任何功能。以下是多核苷酸的非限制性例子:基因或基因片段的編碼或非編碼區域、由連鎖分析定義的基因座、外顯子、內含子、信使rna(mrna)、轉移rna、核糖體rna、核酶、cdna、重組多核苷酸、支鏈多核苷酸、質粒、載體、任意序列的分離dna、任意序列的分離rna、核酸探針和引物。多核苷酸可以包含非天然產生的序列。多核苷酸可包括修飾的核苷酸,如甲基化的核苷酸和核苷酸類似物。如果存在,對核苷酸結構的修飾可在聚合物的組裝之前或之后賦予。核苷酸序列可間插有非核苷酸組分。多核苷酸聚合后可被進一步修飾,如通過與標記性組分偶聯。
[0186]“引物”通常是包含能與模板序列(例如靶多核苷酸或引物延伸產物)雜交的核苷酸序列(例如寡核苷酸)的多核苷酸分子,通常具有游離的3'-oh基團,并且能夠促進與模板互補的多核苷酸的聚合。
[0187]
如本文所用的術語“哺乳動物”包括人類和非人類,并且包括但不限于人類、非人類靈長類動物、犬科動物、貓科動物、鼠科動物、牛科動物、馬科動物和豬科動物。
[0188]
概述
[0189]
本文涉及用于準確鑒定核酸樣品中存在的突變的方法和材料。在一些方面中,所述方法包括當突變均存在于雙鏈核酸模板的watson和crick鏈上時鑒定突變。此類方法對于區分真正的突變與源自例如dna損傷、pcr和其它測序偽影的偽影特別有用,從而允許以高置信度鑒定突變。
[0190]
在一些情況下,本文所述的方法和材料可以以低錯誤率檢測一個或多個突變。例如,本文所述的方法和材料可用于檢測核酸模板中核酸突變的存在與否,其錯誤率小于約1%(例如,小于約0.1%,小于約0.05%,或小于約0.01%)。在一些情況下,本文所述的方法和材料可用于檢測核酸模板中核酸突變的存在與否,錯誤率為約0.001%至約0.01%。在一些情況中,與根據本文所述的方法的分析物dna片段中一個或多個突變的鑒定相關聯的錯誤率不多于1x10-2
,不多于1x10-3
,不多于1x10-4
,不多于1x10-5
,不多于1x10-6
,不多于5x10-6
,或不多于1x10-7
。在一些情況中,相比于不要求檢測分析物dna片段的watson和crick鏈兩者中的突變的鑒定突變的替代性方法,與本文所述的所述方案法的分析dna片段中一個或多個突變的鑒定相關聯的錯誤率減少至少2倍,4倍,5倍,10倍,20倍,30倍,40倍,50倍,60倍,70倍,80倍,90倍,或100倍。
[0191]
在一些實施方式中,替代方法包括測序后的標準分子條碼化(barcoding)或基于pcr的標準分子條碼化。在具體實施方式中,替代性方法包括:(a)將銜接子連接至分析物dna樣品中的雙鏈dna片段,其中銜接子包含獨特的外源性uid;(b)進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;(c)確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;(d)將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;(e)當閾值百分數的uid家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段;和(f)當鑒定為準確代表分析物dna片段的序列與缺乏突變的參考序列不同時,鑒定分析物dna片段中的突變。
[0192]
在一些情況下,本文所述的方法和材料可用于實現高效的雙鏈體回收。例如,本文所述的方法可用于回收源自雙鏈核酸模板的watson鏈和crick鏈的pcr擴增產物。在一些情
況下,本文所述的方法可用于實現至少50%(例如,約50%、約60%、約70%、約75%、約80%、約82%、約85%、約88%、約90%、約93%、約95%、約97%、約99%或100%)的雙鏈體回收率。
[0193]
在一些情況下,本文所述的方法和材料可用于檢測具有低等位基因頻率的突變。例如,本文所述的方法可用于檢測具有小于約1%(例如,小于約0.1%、小于約0.05%或小于約0.01%)的低等位基因頻率的突變。在一些情況下,本文所述的方法可用于檢測具有約0.001%的低等位基因頻率的突變。
[0194]
在一些情況下,本文所述的方法可用于檢測分析物核酸樣品中以0.1%或更低的頻率存在的突變。在一些實施方式下,本文所述的方法可用于檢測分析物核酸樣品中以0.1%至0.00001%的頻率存在的突變。在一些實施方式下,本文所述的方法可用于檢測分析物核酸樣品中以0.1%至0.01%的頻率存在的突變。
[0195]
在一些情況下,本文所述的方法和材料可用于檢測具有最小(或沒有)背景偽影突變的突變。在一些情況下,本文所述的方法可用于檢測具有小于0.01%背景偽影突變的突變。在一些情況下,本文所述的方法可用于檢測沒有背景偽影突變的突變。
[0196]
在一些情況下,用于檢測雙鏈核酸的兩條鏈上均存在的一個或多個突變的方法可以包括:生成雙鏈體測序文庫,其在該文庫的各核酸的各端(例如,5'端和3'端)上具有雙鏈體分子條形碼的雙鏈體測序文庫,從雙鏈體測序文庫產生單鏈沃森鏈(watson strand)衍生序列文庫和單鏈克里克鏈(crick strand)衍生序列文庫,和,在各單鏈文庫中檢測雙鏈核酸的兩條鏈上是否均存在一個或多個突變。3’雙鏈體銜接子中的第一分子條形碼和5’銜接子中存在的第二分子條形碼的存在可用于區分源自watson鏈的擴增產物和源自crick鏈的擴增產物。
[0197]
在一些情況下,鑒定突變的方法包括:(a)使部分雙鏈3'銜接子連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'銜接子的退火位點,和(iv)通用3'銜接子序列,其包含r2測序引物位點,并且其中所述部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中所述第二鏈可降解;(b)通過退火位點使5'銜接子退火至3'銜接子,其中5'銜接子在5'到3'方向上包含:(i)通用5'銜接子序列,其不與通用3'銜接子序列互補,并且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;(c)進行切口(nick)平移樣反應以使5'銜接子延伸貫穿3'銜接子的外源性uid序列(例如,使用dna聚合酶),并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端(例如,使用連接酶);(d)進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;(e)確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;(f)將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;(g)根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;(h)當閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;(i)當閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;(j)當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變;(k)當準確代表crick鏈的核苷酸序列與缺乏突變的參
考序列不同時,鑒定該準確代表crick鏈的序列中的突變;和(l)當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。
[0198]
在一些情況下,鑒定突變的方法包括:(a)將銜接子連接至雙鏈dna片段,其中銜接子包含雙鏈部分和分叉部分,所述雙鏈部分含有外源uid,且所述分叉部分含有(i)包含r2測序引物位點的單鏈3'銜接子序列和(ii)包含r1測序引物位點的單鏈5'銜接子序列;
[0199]
(b)進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;
[0200]
(c)用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)第二watson靶標選擇性引物,其包含靶標選擇性序列,由此產生靶標watson擴增產物;
[0201]
(d)用第一組crick靶標選擇性引物對選擇性擴增包含相同靶標多核苷酸序列的crick鏈的擴增子,第一組crick靶標選擇性引物對包含:第一crick靶標選擇性引物,其包含與通用5'銜接子序列的rl測序引物位點互補的序列,和(ii)第二crick靶標選擇性引物,其與第二crick靶標選擇性引物序列包含相同的靶標選擇性序列,由此產生靶crick擴增產物;
[0202]
(e)確定靶標watson擴增產物和靶標crick擴增產物的序列讀數;
[0203]
(f)將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;
[0204]
(g)根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;
[0205]
(h)當閾值百分數的watson家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;
[0206]
(i)當閾值百分數的crick家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;和
[0207]
(j)當準確代表watson鏈的核苷酸序列和準確代表crick鏈的核苷酸序列均包含相同突變時,鑒定分析物dna片段中的突變。
[0208]
在一些情況下,本文所述的方法和材料可用于獨立評估雙鏈核酸的各鏈。例如,當在如本文所述的獨立評估的雙鏈核酸鏈中鑒定出核酸突變時,本文所述的材料和方法可用于確定該核酸突變源自雙鏈核酸的哪條鏈。
[0209]
可以使用任何適當的方法來生成雙鏈體測序文庫。如本文所用,雙鏈體測序文庫是在文庫中各核酸片段的一端(例如,5'端和/或3'端)包括雙鏈體分子條形碼的多個核酸片段,并且可以允許雙鏈核酸的兩條鏈都被測序。在一些情況下,核酸樣品可以被片段化以產生核酸片段,并且產生的核酸片段可以用于產生雙鏈體測序文庫。用于產生雙鏈體測序文庫的核酸片段在本文中也可以稱為輸入核酸。例如,當用于產生雙鏈體測序文庫的核酸片段是dna片段時,dna片段在本文中也可以稱為輸入dna。雙鏈體測序文庫可以包括任何適當數量的核酸片段。在一些情況下,生成雙鏈體測序文庫可以包括將核酸模板片段化并將銜接子連接至文庫中各核酸片段的各端。
[0210]
分析物核酸樣品
[0211]
分析物核酸樣品中的核酸模板可以包含任何類型的核酸(例如,dna、rna和dna/rna雜合體)。在一些情況下,核酸模板可以是雙鏈dna模板。可用作本文所述方法的模板的核酸的示例包括但不限于基因組dna、循環游離dna(cfdna;例如循環腫瘤dna(ctdna)和無細胞胎兒dna(cffdna))。
[0212]
在一些實施方式中,核酸樣品中的核酸模板是核酸片段,例如dna片段。在一些實施方式中,dna片段的末端代表可用作片段的內源性獨特標識符的獨特序列。在一些實施方式中,片段是手動產生的。在一些實施方式中,片段通過剪切產生,例如酶剪切、化學手段剪切、聲剪切、霧化、離心剪切、點槽剪切、針剪切、超聲處理、限制性核酸內切酶、非特異性核酸酶(例如,dna酶i)等。在一些實施方式中,片段不是手動產生的。在一些實施方式中,片段來自cfdna樣品。
[0213]
在一些實施方式中,核酸樣品中的核酸片段具有長度。長度可以是約4-1000個核苷酸。長度可以是約60-300個核苷酸。長度可以是約60-200個核苷酸。那么長度可以是約140-170個核苷酸。長度可以小于500、小于400、小于300、小于250nt或小于200nt。
[0214]
在一些實施方式中,核酸模板的末端用作內源性uid。技術人員可以使用例如總模板長度、分區或起始核酸樣品中核酸模板的復雜性等因素來確定獨特地鑒定核酸模板所需的內源性uid的長度。在一些實施方式中,核酸模板末端的10-500個核苷酸用作內源性uid。在一些實施方式中,核酸模板末端的15-100個核苷酸用作內源性uid。在一些實施方式中,核酸模板末端的15-40個核苷酸用作內源性uid。在一些實施方式中,核酸模板末端的至少10個核苷酸用作內源性uid。在一些實施方式中,核酸模板末端的至少15個核苷酸用作內源性uid。在一些實施方式中,僅將核酸模板的一端用作內源性uid。
[0215]
在一些實施方式中,核酸模板包含一種或多種靶多核苷酸。術語“靶標多核苷酸”、“靶區域”、“感興趣的核酸模板”、“所需基因座”、“所需模板”或“靶標”在本文中可互換使用以指代研究中的感興趣多核苷酸。在某些實施方式中,靶多核苷酸包含一個或多個感興趣的和在研序列。靶多核苷酸可以包括例如基因組序列。靶多核苷酸可包含靶序列,其存在與否、量和/或核苷酸序列,或這些中的變化,是需要確定的。
[0216]
靶多核苷酸可以是與疾病相關的基因的區域。在一些實施方式中,基因是可藥用(druggable)靶標。如本文所用,術語“可藥用靶標”通常是指受疾病調節的基因或細胞途徑。疾病可以是癌癥。因此,所述基因可以是已知的癌癥相關基因。
[0217]
在一些實施方式中,輸入核酸(input nucleic acid),在本文中也稱為核酸樣品,獲自生物樣品。生物樣品可獲自對象。在一些實施方式中,對象是哺乳動物。可從中獲得核酸并在本文所述的方法中用作核酸模板的哺乳動物的示例包括但不限于人類、非人類靈長類動物(例如猴子)、狗、貓、綿羊、兔子、小鼠、倉鼠,和大鼠。在一些實施方式中,對象是人對象。在一些實施方式中,對象是植物。
[0218]
生物樣品包括但不限于血漿、血清、血液、組織、腫瘤樣品、糞便、痰液、唾液、尿液、汗液、淚液、腹水、支氣管肺泡灌洗液、精液、考古樣品和法醫樣品。在具體實施方式中,生物樣品是固體生物樣品,例如腫瘤樣品。在一些實施方式中,處理固體生物樣品。固體生物樣品可以通過在福爾馬林溶液中固定,然后包埋在石蠟中來處理(例如,是ffpe樣品)。處理可替代地包括在進行基于探針的測定之前冷凍樣品。在一些實施方式中,樣品既不是固定的也不是冷凍的。僅舉例而言,未固定的、未冷凍的樣品可以儲存在配置用于保存核酸的儲存
溶液中。
[0219]
在一些實施方式中,生物樣品是液體生物樣品。液體生物樣品包括但不限于血漿、血清、血液、痰液、唾液、尿液、汗液、淚液、腹水、支氣管肺泡灌洗液和精液。在一些實施方式中,液體生物樣品不含細胞或基本上不含細胞。在特定實施方式中,生物樣品是血漿或血清樣品。在一些實施方式中,液體生物樣品是全血樣品。在一些實施方式中,液體生物樣品包含外周單核血細胞。
[0220]
在一些實施方式中,核酸樣品已經從生物樣品分離和純化。可以使用本領域已知的任何方法從生物樣品分離和純化核酸。例如,可以處理生物樣品以從細胞釋放核酸,或將核酸與生物樣品的不需要的成分(例如,蛋白質、細胞壁、其它污染物)分離。例如,可以使用液體提取(例如,trizol、dnazol)技術從生物樣品提取核酸。也可以使用市售試劑盒(例如,qiagen dneasy試劑盒、qiaamp試劑盒、qiagen midi試劑盒、qiaprep離心試劑盒)提取核酸。
[0221]
在一些實施方式中,生物樣品包含少量核酸。在一些實施方式中,生物樣品包含少于約500納克(ng)的核酸。例如,生物樣品包含約30ng至約40ng的核酸。
[0222]
可以通過已知方法濃縮核酸,包括,僅作為示例,離心。出于純化目的,核酸可以與選擇性膜(例如二氧化硅)結合。核酸也可以針對所需長度的片段(例如長度小于1000、500、400、300、200或100個堿基對的片段)進行富集。這種基于大小的富集可以使用例如peg誘導的沉淀、電泳凝膠或譜材料(huber等(1993)nucleic acids res.21:1061-6)、凝膠過濾譜、tsk凝膠(kato等(1984)j.biochem,95:83-86),這些出版物通過引用方式納入本文。
[0223]
可以使用本領域已知的任何方法選擇性地沉淀或濃集從生物樣品提取的多核苷酸。
[0224]
在一些實施方式中,核酸樣品包含少于約35ng的核酸。例如,核酸樣品包含可以包括約1ng至約35ng的核酸(例如,約1ng至約30ng,約1ng至約25ng,約1ng至約20ng,約1ng至約15ng,約1ng至約10ng,約1ng至約5ng,約5ng至約35ng,約10ng至約35ng,約15ng至約35ng,約20ng至約35ng,約25ng至約35ng,約30ng至約35ng,約5ng至約30ng,約10ng至約25ng,約15ng至約20ng,約5ng至約10ng,約10ng至約15ng,約15ng至約20ng,約20ng至約25ng,或約25ng至約30ng的核酸)。在一些情況下,核酸樣品可以包括來自包括多于大約數百個核苷酸的核酸的基因組的核酸。
[0225]
在一些情況下,核酸樣品可以基本上沒有污染。例如,當核酸樣品是cfdna模板時,cfdna可以基本上沒有基因組dna污染。在一些情況下,基本上沒有基因組dna污染的cfdna樣品可以包括最少量的(或沒有)高分子量(例如,》1000bp)的dna。在一些情況下,本文所述的方法可以包括確定核酸樣品是否基本上沒有污染。可以使用任何合適的方法來確定核酸樣品是否基本上沒有污染。可用于確定核酸樣品是否基本上沒有污染的方法的示例包括,例如,tapestation系統和生物分析儀(bioanalyzer)。例如,當使用tapestation系統和/或生物分析儀來確定cfdna樣品是否基本上沒有基因組dna污染時,可以使用約180bp處的顯著峰(例如,對應于單核小體dna)來表明核酸樣品基本上沒有基因組dna污染。
[0226]
在一些情況下,可用于產生雙鏈體測序文庫的核酸片段(例如,在將3'雙鏈體銜接子連接至核酸片段的3'端之前)可以進行末端修復。可以使用任何合適的方法對核酸模板進行末端修復。例如,鈍化反應(例如鈍端連接)和/或去磷酸化反應可用于末端修復核酸模
板。在一些情況下,鈍化可以包括填充單鏈區域。在一些情況下,鈍化可包括降解單鏈區域。在一些情況下,鈍化和去磷酸化反應可用于對核酸模板進行末端修復,如圖9和/或圖10所示。
[0227]
銜接子
[0228]
在一些實施方式中,所述方法包括將銜接子連接至雙鏈dna片段以產生連接銜接子的雙鏈dna片段。
[0229]
在一些實施方式中,銜接子包含含有外源性uid的雙鏈部分和含有(i)單鏈3'銜接子序列和(ii)單鏈5'銜接子序列的分叉部分。在一些實施方式中,單鏈3'銜接子序列與單鏈5'銜接子序列不互補。在一些實施方式中,3'銜接子序列包含第二(例如,r2)測序引物位點,并且5'銜接子序列包含第一(例如,r1)測序引物位點。應理解,“r1”和“r2”測序引物位點由產生成對末端讀數(例如,來自待測序的dna片段的相對末端的讀數)的測序系統使用。在一些實施方式中,r1測序引物用于從dna片段的第一末端產生第一讀數,并且r2測序引物用于從dna片段的相對末端產生第二讀數。第一體在本文中稱為“r1”或“讀數1”讀數。第二體在本文中稱為“r2”或“讀數2”讀數。r1和r2讀數可以對齊為“讀數對”或“匹配對”,對應于雙鏈分析物dna片段的各鏈。
[0230]
某些測序系統,例如illumina,使用他們所稱的“r1”和“r2”引物,以及“r1”和“r2”讀數。應注意,就本技術的目的而言,術語“r1”和“r2”以及“讀數1”和“讀數2”不限于它們如何與特定測序平臺相關。例如,如果使用illumina測序儀,則本文公開的“r2”引物和相應的r2讀數可以指illumina“r2”引物和讀數,或者可以指illumina“r1”引物和讀數,只要本文公開的“r1”引物和相應的r1讀數指的是其它illumina引物和讀數即可。清楚起見,在其中本文提供的“r2”引物是產生“r1”讀數的illumina“r1”引物的一些實施方式中,本文提供的相應“r1”引物是產生“r2”讀數的illumina“r2”引物。清楚起見,在其中本文提供的“r2”引物是提供“r2”讀數的illumina“r2”引物的一些實施方式中,本文提供的“r1”引物是提供r1讀數的illumina“r1”引物。
[0231]
在一些實施方式中,外源性uid對于核酸樣品中的各雙鏈dna片段是獨特的。在一些實施方式中,外源性uid不是各雙鏈dna片段獨特的。
[0232]
在一些實施方式中,外源性uid具有一定長度。長度可以是大約2-4000nt。長度可以是大約6-100nt。長度可以是大約8-50nt。長度可以是大約10-20nt。長度可以是大約12-14nt。在一些實施方式中,外源性uid的長度足以對分子進行獨特條碼化,并且外源性uid的長度/序列不干擾下游擴增步驟。
[0233]
在一些實施方式中,外源性uid序列不存在于核酸模板中。在一些實施方式中,外源性uid序列不存在于具有所需基因座的所需模板中。這樣的獨特序列可以例如通過計算機可讀介質隨機產生,并且通過針對已知核苷酸數據庫例如embl、genbank或ddbj進行blasting來選擇。在一些實施方式中,外源性uid序列存在于核酸模板中。在這種情況下,外源性uid序列在序列讀數中的位置用于區分外源性uid序列與核酸模板內的序列。
[0234]
在一些實施方式中,外源性uid序列是隨機的。在一些實施方式中,外源性uid序列是隨機n聚體(n-mer)。例如,如果外源性uid序列的長度為6個nt,那么它可能是一個隨機六聚體。如果外源性uid序列的長度為12nt,那么它可能是隨機的12聚體。
[0235]
可以使用隨機添加核苷酸以形成具有用作標識符的長度的序列來制備外源性
uid。在各添加位置,可以使用從四種脫氧核糖核苷酸中選擇一種的選擇。或者,可以使用從三種、兩種或一種脫氧核糖核苷酸中選擇一種的選擇。因此,uid在某些位置可能是完全隨機的、部分隨機(somewhat random)的或非隨機的。
[0236]
在一些實施方式中,外源性uid不是隨機的n聚體,而是選自一組預定的外源性uid序列。
[0237]
適用于本文所公開的方法的示例性外源性uid在pct/us2012/033207中進行了描述,其通過引用其全文方式納入本文。
[0238]
本文所述的分叉銜接子可以通過本領域已知的任何方式連接至雙鏈dna片段。
[0239]
在一些實施方式中,分叉的銜銜接子通過以下方式連接至雙鏈dna片段:(a)將部分雙鏈3'銜接子連接至雙鏈dna片段的watson和crick鏈的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源性uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中第二鏈是可降解的;(b)通過退火位點將5'銜接子退火到3'銜接子上,其中5'銜接子在5'至3'方向包含(i)與通用3'銜接子序列不互補且包含r1測序引物位點的通用5'銜接子序列,和(ii)與5'銜接子的退火位點互補的序列;和(c)進行切口平移樣反應以將5'銜接子延伸貫穿3'銜接子的外源性uid序列(例如,使用dna聚合酶)并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端(例如,使用連接酶)。
[0240]
在一些實施方式中,分叉的銜接子通過以下方式連接至雙鏈dna片段:(a)將3'雙鏈體銜接子連接至雙鏈dna片段的watson和crick鏈的3'端。如本文所述的3'雙鏈體銜接子,在本文中也稱為部分雙鏈3'銜接子,是包括分子條形碼的寡核苷酸復合物,所述分子條形碼可以具有退火(雜交)至第二寡核苷酸(本文也稱為“第二鏈”)的第一寡核苷酸(本文也稱為“第一鏈”)),從而使得3'雙鏈體銜接子的部分(例如第一部分)是雙鏈的并且3'雙鏈體銜接子的部分(例如第二部分)是單鏈的。在一些情況下,本文所述的3'雙鏈體銜接子的第一寡核苷酸包含第一區段,所述第一區段包含與3'雙鏈體銜接子的第二寡核苷酸中存在的核苷酸互補的核苷酸(例如,從而使得3'雙鏈體銜接子的第一寡核苷酸和3'雙鏈體銜接子的第二寡核苷酸可以在互補區退火)。3'雙鏈體銜接子的示例性結構可以如圖11所示。
[0241]
本文所述的3'雙鏈體銜接子的第一寡核苷酸可以是包括5'磷酸和分子條形碼的寡核苷酸。本文所述的3'雙鏈體銜接子的第一寡核苷酸可以包括任何合適數量的核苷酸。任何合適的分子條形碼可以包含在本文所述的3'雙鏈體銜接子的第一寡核苷酸中。在一些情況下,分子條形碼可以包括隨機序列。在一些情況下,分子條形碼可以包括固定序列。可包含在本文所述的3'雙鏈體銜接子的第一寡核苷酸中的分子條形碼的示例包括但不限于可從idt公司(integrated dna technologies)獲得的idt8、idt10、ilmn8、ilmn10。可以使用任何適當類型的分子條形碼。在一些情況下,分子條形碼包含外源性uid序列。本文描述了外源性uid。包括5'磷酸和分子條形碼并且可以包括在本文所述的3'雙鏈體銜接子的第一寡核苷酸中的寡核苷酸的示例包括但不限于ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c(其中星號代表硫代磷酸酯鍵;seq id no:1),其中nnnnnnnnnnnnnn(seq id no:2)是分子條形碼,并且其中分子條形碼中的核苷酸數可以是從0至約25。
[0242]
在一些實施方式中,3'雙鏈體銜接子的第一寡核苷酸包含5'銜接子的退火位點。
[0243]
在一些實施方式中,3'雙鏈體銜接子的第一寡核苷酸包含通用3'銜接子序列。在一些實施方式中,通用3'銜接子序列包含r2測序引物位點。
[0244]
在一些情況下,本文所述的3'雙鏈體銜接子的第一寡核苷酸還可包括一個或多個特征以防止或減少pcr期間的延伸。在pcr期間可以防止或減少延伸的特征可以是任何類型的特征(例如,化學修飾)。可以防止或減少pcr期間的延伸并且可以包括在本文所述的3'雙鏈體銜接子的第一寡核苷酸中的特征的示例包括但不限于3spc3和3phos。可以在寡核苷酸內的任何適當位置將可以防止或減少pcr期間延伸的特征納入本文所述的3'雙鏈體銜接子的第一寡核苷酸中。在一些情況下,可以在pcr期間防止或減少延伸的分子可以從內部納入寡核苷酸中。在一些情況下,可以在寡核苷酸的末端(例如,5'端)處納入在pcr期間防止或減少延伸的分子。
[0245]
在具體實施方式中,3'雙鏈體銜接子的第一寡核苷酸包含5'磷酸、含有與存在于3'雙鏈體銜接子的第二寡核苷酸中的核苷酸互補的核苷酸的第一區段、外源性uid序列、用于5'銜接子的退火位點,和通用3'銜接子序列。
[0246]
本文所述的3'雙鏈體銜接子的第二寡核苷酸可以是包括封閉的3'基團的寡核苷酸(例如,以減少或消除兩個銜接子的二聚化)。本文所述的3'雙鏈體銜接子的第二寡核苷酸可以包括任何合適數量的核苷酸。在一些實施方式中,3'雙鏈體銜接子的第二寡核苷酸與3'雙鏈體銜接子的第一寡核苷酸的第一區段互補。包括封閉的3'基團并且可以包括在本文所述的3'雙鏈體銜接子的第二寡核苷酸中的示例性寡核苷酸包括但不限于gccgucguuuuadt(seq id no:3)。
[0247]
本文所述的3'雙鏈體銜接子的第二寡核苷酸可以是可降解的。可以使用任何合適的方法來降解本文所述的3'雙鏈體銜接子的第二寡核苷酸。例如,udg可用于降解本文所述的3'雙鏈體銜接子的第二寡核苷酸。
[0248]
在一些情況下,本文所述的3'雙鏈體銜接子可以包括退火至包含序列gccgucguuuuadt(seq id no:3)的第二寡核苷酸的第一寡核苷酸,所述第一寡核苷酸包含序列ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c/3spc3(seq id no:1)。
[0249]
在一些情況下,本文所述的3'雙鏈體銜接子可以包括市售銜接子。可用作(或可用于產生)本文所述的3'雙鏈體銜接子的示例性市售銜接子包括但不限于accel-ngs 2s dna文庫試劑盒(swift biosciences,目錄號21024)中的銜接子。在一些情況下,本文所述的3'雙鏈體銜接子可以如實施例1中所述。
[0250]
可以使用任何合適的方法將3'銜接子連接(例如,共價連接)至雙鏈dna片段的3'端。在一些實施方式中,3'銜接子通過連接(ligation)連接(attach)。在一些實施方式中,連接包括使用連接酶。可用于將3'銜接子連接至各核酸片段的3'端的連接酶的示例包括但不限于t4 dna連接酶、大腸桿菌連接酶(例如酶y3)、circligase i、circligase ii、taq-連接酶、t3連接酶、t7連接酶和9n連接酶。
[0251]
一旦3'雙鏈體銜接子連接(例如,共價連接)到各核酸片段的3'端,本文所述的3'雙鏈體銜接子的第二個寡核苷酸可以被降解,并且5'銜接子可被連接(例如,共價連接)到各核酸片段的5'端。在一些實施方式中,5'銜接子序列與3'銜接子的第一寡核苷酸不互補。
在一些實施方式中,5'銜接子序列在5'至3'方向上包含r1測序引物位點和與3'銜接子的退火位點互補的序列。
[0252]
在一些實施方式中,5'銜接子的連接包括將5'銜接子通過退火位點退火至3'銜接子。
[0253]
5'銜接子可以退火至3'雙鏈體銜接子上的分子條形碼上游的核酸片段,從而使得包含3'雙鏈體的部分(例如,分子條形碼)的缺口(例如,單鏈核酸片段)存在于核酸片段上。可以填充包含部分3'雙鏈體銜接子的缺口(例如,以產生雙鏈核酸片段)。可以使用任何合適的方法來填充單鏈缺口。可用于填充核酸片段上的單鏈缺口的方法的示例包括但不限于聚合酶,例如dna聚合酶(例如,taq聚合酶,例如taq-b聚合酶)和切口平移反應(例如,包括連接酶如大腸桿菌連接酶和聚合酶如dna聚合酶)。在填充核酸片段上的單鏈缺口包括提供聚合酶的情況下,所述方法還可以包括提供脫氧核糖核苷酸三磷酸(dntp;例如datp、dgtp、dctp和dttp)。在一些情況下,將5'銜接子連接至各核酸片段的5'端并填充單鏈缺口可以同時進行(例如,在單個反應管中)。
[0254]
在一些情況下,可以使用替代方法將銜接子連接到模板。例如,核酸片段可以用單鏈核酸酶處理(例如,消化突出端),然后連接可以用于制備雙鏈測序文庫。例如,可以將單核苷酸添加到各核酸片段的3'端,并且可以將在5'端包含互補堿基的銜接子(例如,包含分子條形碼)連接至各核酸片段以制備銜接子連接模板的雙鏈體測序文庫。
[0255]
銜接子連接的模板的初始擴增
[0256]
在連接銜接子之后,銜接子連接的模板可以在初始擴增反應中被擴增(例如,pcr擴增)。可以使用任何合適的方法來擴增銜接子連接的模板。可用于擴增銜接子連接的模板的示例性方法包括但不限于全基因組pcr。
[0257]
任何合適的引物對都可用于擴增銜接子連接的模板。在一些情況下,可以使用通用引物對。引物可以包括但不限于約12個核苷酸至約30個核苷酸。可用于擴增如本文所述的銜接子連接的模板的引物對的示例包括但不限于實施例1和/或實施例2中描述的那些。
[0258]
任何合適的pcr條件均可用于初始擴增。pcr擴增可以包括變性階段、退火階段和延伸階段。擴增循環的各階段可以包括任何合適的條件。在一些情況下,變性階段可包括約90℃至約105℃(例如,約94℃至約98℃)的溫度和約1秒至約5分鐘(例如,約10秒到約1分鐘)的時間。例如,變性階段可以包括約98℃的溫度持續約10秒。在一些情況下,退火階段可包括約50℃至約72℃的溫度和約30秒至約90秒的時間。在一些情況下,延伸階段可包括約55℃至約80℃的溫度,以及約15秒/kb待生成的擴增子至約30秒/kb待生成的擴增子的時間。在一些情況下,退火和延伸階段可以在一個循環中進行。例如,退火和延伸階段可以包括約65℃的溫度持續約75秒。
[0259]
初始擴增中使用的pcr條件可以包括任何合適數量的pcr擴增循環。在一些情況下,pcr擴增可包括約1至約50個循環。在一些實施方式中,pcr擴增包括不超過11個循環。在一些實施方式中,pcr擴增包括不超過7個循環。在一些實施方式中,pcr擴增包括不超過5個循環。
[0260]
在一些情況下,當pcr條件包括熱激活聚合酶時,pcr擴增也可以包括初始化步驟。例如,pcr擴增可以包括在進行pcr擴增循環之前的初始化步驟。在一些情況下,初始化步驟可包括約94℃至約98℃的溫度和約15秒至約1分鐘的時間。例如,初始化步驟可以包括約98
℃的溫度持續約30秒。
[0261]
在一些情況下,pcr擴增還可以包括保持步驟。例如,pcr擴增可以包括在進行pcr擴增循環之后(任選地在進行任何最終延伸步驟之后)的保持步驟。在一些情況下,保持步驟可以包括約4℃至約15℃的溫度,持續不定時間。
[0262]
在一些情況下,可以純化如本文所述產生的雙鏈體測序文庫(例如,擴增的雙鏈體測序文庫)。可以使用任何合適的方法來純化雙鏈測序文庫。可用于純化雙鏈測序文庫的示例性方法包括但不限于磁珠(例如固相可逆固定(spri)磁珠)。
[0263]
任選的ssdna文庫制備
[0264]
在一些情況下,雙鏈體測序文庫可用于生成單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。生成單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫可以最小化非特異性擴增(例如,擴增自與連接序列如3'雙鏈體銜接子或5'銜接子互補的引物)。任何合適的方法可用于產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫(例如,來自如本文所述產生的雙鏈體測序文庫)。在一些情況下,單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫可以通過如下方式由擴增的雙鏈體測序文庫產生:將擴增產物分成至少兩個等分部分,并使各等分部分經歷pcr擴增,其中watson鏈從第一等分部分擴增,且crick鏈從第二等分部分擴增。例如,可以使用引物對對來自擴增的雙鏈體測序文庫的擴增產物的第一等分部分進行pcr擴增,所述引物對中,第一引物是生物素化的,且第二引物是非生物素化的,以產生watson鏈的單鏈文庫,并且可以使用引物對對來自擴增的雙鏈體測序文庫的擴增產物的第二等分部分進行pcr擴增,所述引物對中,第一引物是非生物素化的,第二引物是生物素化的,以產生crick鏈的單鏈文庫。在一些情況下,可以產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫,如圖2和圖3所示。
[0265]
可以使用任何合適的方法從擴增的雙鏈體測序文庫中產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。例如,來自擴增的雙鏈體測序文庫的擴增產物可以分為第一pcr擴增和第二pcr擴增,其中pcr引物對中的兩個引物中只有一個帶標簽。例如,第一pcr擴增可以使用包括帶標簽引物(例如,第一引物)和未帶標簽引物(例如,第二引物)的引物對,并且第二pcr擴增可以使用包括未帶標簽引物(例如,第一引物)和帶標簽引物(例如,第二引物)的引物對。引物標簽可以是能夠回收從帶標簽引物產生的pcr擴增產物的任何標簽。在一些情況下,帶標簽引物可以是生物素化的引物,并且由生物素化的引物產生的pcr擴增產物可以使用鏈霉抗生物素蛋白來回收。例如,可以使用包括生物素化引物和非生物素化引物的引物對在pcr擴增中產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。在一些情況下,帶標簽引物可以是磷酸化的引物,并且從磷酸化的引物產生的pcr擴增產物可以使用λ核酸酶來回收。例如,可以使用包括磷酸化引物和非磷酸化引物的引物對在pcr擴增中產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。
[0266]
任何合適的引物對可用于產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫(例如,來自如本文所述產生的雙鏈體測序文庫)。引物可以包括但不限于約12個核苷酸至約30個核苷酸。在一些情況下,引物對可以包括至少一種引物,其可以靶向(例如靶向并結合至)存在于如本文所述產生的擴增產物中的銜接子序列(例如,包含分子條形碼的銜接子序列)(例如,通過在擴增之前將包括第一分子條形碼的3'雙鏈體銜接子和包括第二分子條形碼的5'銜接子連接至雙鏈體測序文庫中的核酸片段)。可用于產生如本文所述的
單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫的引物對的示例包括但不限于p5引物和p7引物。
[0267]
任何合適的pcr條件可用于產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫(例如,來自如本文所述產生的雙鏈體測序文庫)。pcr擴增可以包括變性階段、退火階段和延伸階段。擴增循環的各階段可以包括任何合適的條件。在一些情況下,變性階段可包括約90℃至約105℃的溫度和約1秒至約5分鐘的時間。例如,變性階段可以包括約98℃的溫度持續約10秒。在一些情況下,退火階段可包括約50℃至約72℃的溫度和約30秒至約90秒的時間。在一些情況下,延伸階段可包括約55℃至約80℃的溫度,以及約15秒/kb待生成的擴增子至約30秒/kb待生成的擴增子的時間。在一些情況下,延伸階段反映了所用聚合酶的持續合成能力。在一些情況下,退火和延伸階段可以在一個循環中進行。例如,退火和延伸階段可以包括約65℃的溫度持續約75秒。
[0268]
用于產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫(例如,來自如本文所述產生的雙鏈測序文庫)的pcr條件可以包括任何合適數量的pcr擴增循環。在一些情況下,pcr擴增可包括但不限于約1至約50個循環。例如,pcr擴增可以包括大約4個擴增循環。
[0269]
在一些情況下,當pcr條件包括熱激活聚合酶時,pcr擴增也可以包括初始化步驟。例如,pcr擴增可以包括在進行pcr擴增循環之前的初始化步驟。在一些情況下,初始化步驟可包括約94℃至約98℃的溫度和約15秒至約1分鐘的時間。例如,初始化步驟可以包括約98℃的溫度持續約30秒。
[0270]
在一些情況下,pcr擴增還可以包括保持步驟。例如,pcr擴增可以包括在進行pcr擴增循環之后(任選地在進行任何最終延伸步驟之后)的保持步驟。在一些情況下,保持步驟可以包括約4℃至約15℃的溫度,持續不定時間。
[0271]
可以使用任何合適的方法將雙鏈擴增產物分離成單鏈擴增產物。在一些情況下,雙鏈擴增產物可以變性以將雙鏈擴增產物分離成兩種單鏈擴增產物。可用于將雙鏈擴增產物分離成單鏈擴增產物的方法的示例包括但不限于熱變性、化學(例如naoh)變性和鹽變性。
[0272]
在pcr擴增之后,可以回收帶標簽的pcr擴增產物。可以使用任何合適的方法來回收使用帶標簽引物產生的帶標簽pcr擴增產物。在帶標簽引物是生物素化的引物的情況下,生物素化的擴增產物(例如,由生物素化的引物產生)可以使用鏈霉親和素(例如,鏈霉親和素功能化珠)回收。例如,當擴增的雙鏈體測序文庫在使用包括第一生物素化引物和第二非生物素化引物的引物對的第一pcr擴增和使用包括第一非生物素化引物和第二生物素化引物的引物對的第二pcr擴增中進一步擴增時,由第一pcr擴增產生的生物素化擴增產物可結合至鏈酶親和素功能化珠(例如,第一組鏈酶親和素功能化珠)并且由第二pcr擴增產生的生物素化擴增產物可結合至鏈酶親和素功能化珠(例如,第一二組鏈酶親和素功能化珠),并且雙鏈擴增產物可被分離(例如,變性)成擴增產物的單鏈。在一些情況下,回收生物素化的pcr擴增產物還可以包括從鏈霉親和素(例如,鏈霉親和素功能化珠)釋放生物素化的pcr擴增產物。分離使用包括第一生物素化引物和第二非生物素化引物的引物對的第一pcr擴增和使用包括第一非生物素化引物和第二非生物素化引物的引物對的第二pcr擴增產生的雙鏈擴增產物可允許由生物素化引物產生的單鏈擴增產物保持結合至鏈酶親和素功能化
珠,同時由非生物素化引物產生的單鏈擴增產物可從鏈酶親和素功能化珠變性(例如,變性和降解),由此產生雙鏈體測序文庫的單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。
[0273]
在帶標簽引物是磷酸化的引物的情況下,磷酸化的擴增產物(例如,由磷酸化的引物產生)可以使用核酸外切酶(例如,λ核酸外切酶)回收。例如,當擴增的雙鏈體測序文庫在使用包括第一磷酸化引物和第二非磷酸化引物的引物對的第一pcr擴增和使用包括第一非磷酸化引物和第二磷酸化引物的引物對的第二pcr擴增中進一步擴增時,所述雙鏈擴增產物可被分成所述擴增產物的單鏈。分離通過使用包括第一磷酸化引物和第二非磷酸化引物的引物對的第一pcr擴增和使用包括第一非磷酸化引物和第二磷酸化引物的引物對的第二pcr擴增產生的雙鏈擴增產物可允許由非磷酸化引物產生的單鏈擴增產物被回收,同時由磷酸化引物產生的單鏈擴增產物可被λ核酸外切酶降解,由此產生所述雙鏈體測序文庫的單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫。
[0274]
靶標富集
[0275]
在本文中任何一種方法的一些實施方式中,通過初始擴增產生的擴增子富含一種或多種靶多核苷酸。在一些實施方式中,在靶標富集之前,由初始擴增產生的擴增子制備單鏈dna文庫。本文描述了用于產生單鏈dna文庫的示例性方法。
[0276]
可以使用任何合適的方法從擴增產物文庫(例如,雙鏈體測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述生成)擴增靶區域。在一些情況下,靶區域可通過如下方式從擴增產物文庫擴增:使擴增產物文庫經歷使用引物對的pcr擴增,所述引物對中具有:一種引物(例如第一引物),其能夠靶向(例如靶向并結合至)如本文所述(例如,通過在擴增之前,將包含第一分子條形碼的3'雙鏈體銜接子和包含第二分子條形碼的5'銜接子連接至雙鏈體測序文庫中的核酸片段)產生的擴增產物中存在的銜接子序列(例如,含有分子條形碼的銜接子序列),和一種引物(例如第二引物),其能夠靶向(例如靶向并結合至)靶區域(例如,感興趣的區域)。在一些情況下,可以產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫,如圖4和圖5所示。在一些情況下,可以產生單鏈watson鏈衍生序列文庫和單鏈crick鏈衍生序列文庫,如實施例2所述。
[0277]
在一些情況下,靶區域可在單pcr擴增中從擴增產物文庫(例如,雙鏈測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述產生)擴增。例如,可以使用引物對在單pcr擴增中從擴增產物文庫擴增靶區域,所述引物對包括第一引物,其能夠靶向如本文所述(例如,通過在擴增前將包括第一分子條形碼的3'雙鏈體銜接子和包括第二分子條形碼的5'銜接子連接至雙鏈體測序文庫中的核酸片段)產生的擴增產物中存在的銜接子序列(例如,包含分子條形碼的銜接子序列),和第二引物,其能夠靶向靶區域。例如,可以在如圖4、圖5、圖15和圖17所示的單pcr擴增中從擴增產物文庫擴增靶區域。
[0278]
在一些情況下,靶區域可在多重pcr擴增中從擴增產物文庫(例如,雙鏈測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述產生)擴增。多重pcr擴增(例如,第一pcr擴增和隨后的巢式pcr擴增)可用于增加擴增靶區域的特異性。例如,可以在一系列pcr擴增中從擴增產物文庫擴增靶區域,其中第一pcr擴增使用包括第一引物和第二引物的引物對,所述第一引物能夠靶向如本文所述(例如,通過在擴增前將包括第一分子條形碼的3'雙鏈體接頭和包括第二分子條形碼的5'接頭連接到雙鏈體測序文庫中的核
酸片段)產生的擴增產物中存在的銜接子序列(例如,包含分子條形碼的銜接子序列),所述第二引物能夠靶向靶區域,并且使在第一pcr擴增中產生的擴增產物經歷后續的巢式pcr擴增,所述巢式pcr使用包括第一引物和第二引物的引物對,所述第一引物能夠靶向如本文所述(例如,通過在擴增前將包含第一分子條形碼的3'雙鏈體銜接子和包含第二分子條形碼的5'銜接子連接至雙鏈體測序文庫中的核酸片段)產生的擴增產物中存在的銜接子序列(例如,包含分子條形碼的銜接子序列),并且所述第二引物能夠靶向第一pcr擴增中產生的擴增產物中存在的靶區域的核酸序列。例如,可以在一系列pcr擴增中從擴增產物文庫中擴增靶區域,如圖7、圖8、圖16和圖18所示。
[0279]
可以使用任何合適的引物對從擴增產物文庫(例如,雙鏈體測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述生成)擴增靶區域。引物可以包括但不限于約12個核苷酸至約30個核苷酸。在一些情況下,引物對可以包括引物(例如,第一引物),其能夠靶向(例如,靶向并結合至)如本文所述(例如,通過在擴增之前將包括第一分子條形碼的3'雙鏈體銜接子和包括第二分子條形碼的5'銜接子被連接至雙鏈體測序文庫中的核酸片段)產生的擴增產物中存在的銜接子序列(例如,包含分子條形碼的銜接子序列),和引物(例如,第二引物),其能夠靶向(例如,靶向并結合至)靶區域(例如,感興趣的區域)。能夠靶向如本文所述(例如,通過在擴增前將包括第一分子條形碼的3'雙鏈體銜接子和包括第二分子條形碼的5'銜接子連接至雙鏈測序文庫中的核酸片段)產生的擴增產物中存在的含有分子條形碼的銜接子序列的引物的示例包括但不限于i5索引引物和i7索引引物。能夠靶向靶區域的引物可以包括與靶區域互補的序列。在靶區域是編碼tp53的核酸的情況下,可以靶向編碼tp53的核酸的引物的示例包括但不限于tp53_342_gsp1和tp53_gsp2。在一些情況下,當靶區域是編碼tp53的核酸時,靶向編碼tp53的核酸的引物可以如實施例2中所述。
[0280]
在一些情況下,用于從擴增產物文庫(例如雙鏈測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述產生)擴增靶區域的引物對的引物之一或兩者可包括一個或多個分子條形碼。
[0281]
在一些情況下,用于從擴增產物文庫(例如雙鏈測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述產生)擴增靶區域的引物對的引物之一或兩者可包括一個或多個移接序列(例如,用于下一代測序的移接序列)。
[0282]
在一個方面,靶標富集包括(a)用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,所述第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)第二watson靶標選擇性引物,其包含靶標選擇性序列,由此產生靶watson擴增產物;和(b)用第一組crick靶標選擇性引物對選擇性擴增包含相同靶標多核苷酸序列的crick鏈的擴增子,所述第一組crick靶標選擇性引物對包括:(i)第一crick靶標選擇性引物,其包含與通用5'銜接子序列的r1測序引物位點互補的序列,和(ii)第二crick靶標選擇性引物,其與第二watson靶標選擇性引物序列包含相同的靶標選擇性序列,由此產生靶標crick擴增產物。
[0283]
在一些實施方式中,所述方法還包括從非靶標多核苷酸純化靶標watson擴增產物和靶標crick擴增產物。在一些實施方式中,所述純化包括將靶標watson擴增產物和靶標
crick擴增產物連接至固體支持物。在一些實施方式中,第一watson靶標選擇性引物和第一crick靶標選擇性引物包含親和結合對的第一成員,并且其中固體支持物包含親和結合對的第二成員。在一些實施方式中,第一成員是生物素并且第二成員是鏈霉親和素。在一些實施方式中,固體支持物包括珠、孔、膜、管、柱、板、瓊脂糖、磁珠或芯片。在一些實施方式中,所述方法包括去除未連接至固體支持物的多核苷酸。
[0284]
在一些實施方式中,所述方法還包括(a)采用第二組watson靶標選擇性引物進一步擴增靶標watson擴增產物,所述第二組watson靶標選擇性引物包含:(i)第三watson靶標選擇性引物,其包含與通用3’銜接子序列的r2測序引物位點互補的序列,和(ii)第四watson靶標選擇性引物,其在5’至3’方向上包含,r1測序引物位點和對相同靶標多核苷酸具有選擇性的靶標選擇性序列,由此產生靶標watson文庫成員;(b)采用第二組crick靶標選擇性引物進一步擴增靶標crick擴增產物,所述第二組crick靶標選擇性引物包含(i)第三crick靶標選擇性引物,其包含與通用3’銜接子序列的r1測序引物位點互補的序列,和(ii)第四crick靶標選擇性引物,其在5'至3'方向上包含,r2測序引物位點和對第四watson靶標選擇性引物的相同靶標多核苷酸具有選擇性的靶標選擇性序列,由此產生靶標crick文庫成員。
[0285]
在一些實施方式中,第三watson和crick靶標選擇性引物還包含樣品條形碼序列。在一些實施方式中,第三watson靶標選擇性引物還包含能夠實現與測序儀上的第一移接引物的雜交的第一移接序列,并且其中第三crick靶標選擇性引物還包括能夠實現與測序儀上的第二移接引物的雜交的第二移接序列。在一些實施方式中,第四watson靶標選擇性引物還包含第二移接序列,并且其中第四crick靶標選擇性引物還包含第一移接序列。在一些實施方式中,第一移接序列是p7序列,并且其中第二移接序列是p5序列。
[0286]
可以使用任何合適的pcr條件來產生如本文所述的擴增靶區域(例如,來自擴增產物文庫,例如雙鏈體測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫)。本文描述了示例性的pcr條件。用于產生如本文所述的擴增靶區域(例如,來自擴增產物文庫,例如雙鏈體測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫)的pcr條件可包括任何合適數量的pcr擴增循環。在一些情況下,pcr擴增可包括但不限于約1至約50個循環。例如,當擴增的靶區域的pcr擴增包括單pcr擴增時,該pcr擴增可以包括約18個擴增循環。例如,當擴增的靶區域的pcr擴增包括第一pcr擴增和后續的巢式pcr擴增時,第一pcr擴增可包括約18個擴增循環,并且后續的巢式pcr擴增可包括約10個擴增循環。
[0287]
示例性靶標
[0288]
可以從擴增產物文庫(例如雙鏈體測序文庫、單鏈watson鏈衍生序列文庫或單鏈crick鏈衍生序列文庫,如本文所述產生)擴增任何合適的靶區域(例如,感興趣的區域),并評估一個或多個突變的存在與否。在一些情況中,靶區域可以是其中一個或多個突變與疾病或病癥相關聯的核酸區域。可以擴增和評估是一個或多個突變的存在與否的靶區域的示例包括但不限于:編碼腫瘤蛋白p53(tp53)的核酸、編碼乳腺癌1(brca1)的核酸、編碼brca2的核酸、編碼磷酸酶和張力蛋白同源物(pten)多肽的核酸、編碼akt1多肽的核酸、編碼apc多肽的核酸、編碼cdkn2a多肽的核酸、編碼egfr多肽的核酸、編碼fbxw7多肽的核酸、編碼gnas多肽的核酸、編碼kras多肽的核酸、編碼nras多肽的核酸、編碼pik3ca的核酸多肽、編碼braf多肽的核酸、編碼ctnnb1多肽的核酸、編碼fgfr2多肽的核酸、編碼hras多肽的核酸
和編碼ppp2r1a多肽的核酸。在一些情況中,可以擴增和評估一個或多個突變的存在與否的靶區域可以是編碼tp53的核酸。例如,編碼tp53的核酸可以如實施例2中所述進行擴增和評估。
[0289]
可以使用任何合適的方法來評估靶區域(例如,擴增的靶區域)的一個或多個突變的存在與否。在一些情況中,一種或多種測序方法可用于評估擴增的靶區域的一個或多個突變的存在與否。
[0290]
序列確定
[0291]
在一些情況中,可以使用一種或多種測序方法來評估擴增的靶區域以確定突變是否均存在于watson鏈和crick鏈上。在一些情況中,測序讀數可用于評估擴增的靶區域中一個或多個突變的存在與否,并可用于確定watson鏈和crick鏈上是否均存在突變。可用于如本文所述評估擴增的靶區域中一個或多個突變的存在與否的測序方法的示例包括但不限于單讀數測序、雙端測序、ngs和深度測序。在一些實施方式中,單讀數測序包括對模板的整個長度進行測序以產生序列讀數。在一些實施方式中,測序包括雙端測序。在一些實施方式中,使用大規模并行測序儀進行測序。在一些實施方式中,大規模平行測序儀被設置為確定來自模板多核苷酸兩端的序列讀數。
[0292]
序列讀數分析
[0293]
在一些實施方式中,序列讀數被映射到參考基因組。
[0294]
在一些實施方式中,序列讀數被分配到uid家族中。uid家族可以包含源自原始模板的擴增子的序列讀數,例如來自核酸樣品的原始雙鏈dna片段。
[0295]
在一些實施方式中,uid家族的各成員包含相同的外源性uid序列。在一些實施方式中,uid家族的各成員還包含相同的內源性uid序列。本文描述了內源性uid。
[0296]
在一些實施方式中,uid家族的各成員還包含相同的外源性uid序列和相同的內源性uid序列。在一些實施方式中,外源性uid序列和內源性uid序列的組合對于uid家族是獨特的。在一些實施方式中,外源性uid序列和內源性uid序列的組合不存在于核酸樣品中代表的另一個uid家族中。
[0297]
uid家族的成員數量取決于測序的深度。在一些實施方式中,uid家族包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490、500或1000個成員。在一些實施方式中,uid家族包括約2-1000個成員、約2-500個成員、約2-100個成員、約2-50個成員或約2-20個成員。
[0298]
在一些實施方式中,將個體uid家族的序列讀數分配至watson亞家族和crick亞家族。在一些實施方式中,基于插入物相對于銜接子序列的方向,將個體uid家族的序列讀數分配至watson和crick亞家族。在一些實施方式中,插入物相對于銜接子序列的方向通過序列讀數如何排列為“讀數對”或“匹配對”來解決。
[0299]
在一些實施方式中,序列讀數向watson和crick亞家族的分配基于外源性uid序列與r1和r2讀數序列的空間關系。在一些實施方式中,watson亞家族成員的特征在于外源性uid序列位于r2序列下游和r1序列上游。在一些實施方式中,crick亞家族成員的特征在于外源性uid序列位于r1序列下游和r2序列上游。在一些實施方式中,watson亞家族成員的特
征在于外源性uid序列更接近r2序列且距離r1序列更遠。在一些實施方式中,crick亞家族成員的特征在于外源性uid序列更接近r1序列并且距離r2序列更遠。在一些實施方式中,watson亞家族成員的特征在于外源性uid序列緊鄰r2序列下游或在距離r2序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸內。在一些實施方式中,crick亞家族成員的特征在于外源性uid序列緊鄰r1序列下游或在距離r1序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸內。
[0300]
在一些實施方式中,uid亞家族(例如,watson亞家族和/或crick亞家族)包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、310、320、330、340、350、360、370、380、390、400、410、420、430、440、450、460、470、480、490或500個成員。在一些實施方式中,uid亞家族(例如,watson亞家族和/或crick亞家族)包含約2-500個成員、約2-100個成員、約2-50個成員、約2-20個成員或約2-10個成員。
[0301]
在一些實施方式中,當一定閾值百分數(或超閾值的百分數)的watson亞家族成員包含某一核酸序列時,該序列被確定為準確代表分析物dna片段(例如,來自核酸樣品的雙鏈dna片段)的watson鏈。在一些實施方式中,當一定閾值百分數(或超閾值的百分數)的crick亞家族成員包含某一核酸序列時,該序列被確定為準確代表分析物dna片段(例如,來自核酸樣品的雙鏈dna片段)的crick鏈。
[0302]
閾值可以由技術人員基于例如亞家族成員的數量、測序實驗的特定目的和測序實驗的特定參數來確定。在一些實施方式中,閾值設置為1%、5%、10%、20%、30%、40%、50%、60%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%。在具體實施方式中,閾值設置為50%。僅舉例而言,在閾值設置為50%的實施方式中,當至少50%的亞家族成員包含某一核苷酸序列時,該序列被確定為準確地代表分析物dna片段(例如來自核酸樣品的雙鏈dna片段)的watson或crick鏈。僅另舉例而言,在閾值設置為50%的實施方式中,當多于50%的亞家族成員包含某一核苷酸序列時,該序列被確定為準確地代表分析物dna片段(例如來自核酸樣品的雙鏈dna片段)的watson或crick鏈。
[0303]
在一些實施方式中,準確代表分析物dna片段的watson鏈的序列被確定為具有突變。在一些實施方式中,當準確代表分析物dna片段的watson鏈的序列與缺乏突變的參考序列不同時,確定該序列具有突變。
[0304]
在一些實施方式中,準確代表分析物dna片段的crick鏈的序列被確定為具有突變。在一些實施方式中,當準確代表分析物dna片段的crick鏈的序列與缺乏突變的參考序列不同時,確定該序列具有突變。
[0305]
在一些實施方式中,當準確代表watson鏈的序列和準確代表crick鏈的序列包含相同突變時,確定分析物dna片段具有突變。
[0306]
在一些情況中,分子條形碼在擴增的靶區域的雙端測序讀數內的位置可用于區分擴增的靶區域衍生自雙鏈核酸模板的哪條鏈。例如,當擴增的靶區域的第一個雙端測序讀數表明分子條形碼被最后讀取時,可將擴增的靶區域鑒定為衍生自核酸模板的有義鏈,并且當擴增的靶區域的第一個雙端測序讀數表明分子條形碼被首先讀取時,可將擴增的靶區域鑒定為衍生自核酸模板的反義鏈。例如,當擴增的靶區域的第二個雙端測序讀數表明分子條形碼被首先讀取時,可將擴增的靶區域鑒定為衍生自核酸模板的反義鏈,并且當擴增
的靶區域的第二個雙端測序讀數表明分子條形碼被最后讀取時,可將擴增的靶區域鑒定為衍生自核酸模板的有義鏈。在某些情況下,雙端測序可用于區分源自watson鏈的擴增產物與源自crick鏈的擴增產物,如圖20和圖21所示。
[0307]
在對靶區域(例如,如本文所述擴增的靶區域)進行測序之后,測序讀數可以與參考基因組比對,并通過各測序讀數中存在的分子條形碼進行分組。在一些情況中,包括相同分子條形碼并映射到雙鏈核酸模板的watson鏈和crick鏈(例如,靶區域的watson鏈和crick鏈)兩者的測序讀數可被鑒定為具有雙鏈體支持。例如,當測序讀數表明靶區域中一個或多個突變的存在包括相同的分子條形碼并映射到靶區域的watson鏈和crick鏈兩者時,可將所述突變鑒定為具有雙鏈體支持。
[0308]
試劑盒
[0309]
本文還提供了試劑盒。試劑盒可包含用于擴增一種或多種靶多核苷酸的引物對的組。
[0310]
在一些實施方式中,所述試劑盒包含(a)第一組watson靶標選擇性引物對,其包含(i)一個或多個第一watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)一個或多個第二watson靶標選擇性引物,所述一個或多個第二watson靶標選擇性引物各自包含靶標選擇性序列;(b)第一組crick靶標選擇性引物對,其包含(i)一個或多個crick靶標選擇性引物,其包含與通用5'銜接子序列的r1測序引物位點互補的序列,和(ii)一個或多個第二crick靶標選擇性引物,所述一個或多個第二crick靶標選擇性引物各自與所述第二watson靶標選擇性引物序列包含相同的靶標選擇性序列;(c)第二組watson靶標選擇性引物對,其包含(i)一個或多個第三watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)一個或多個第四watson靶標選擇性引物,所述一個或多個第四watson靶標選擇性引物各自在5'至3'方向上包含r1測序引物位點和對相同靶多核苷酸具有選擇性的靶標選擇性序列;和(d)第二組crick靶標選擇性引物,其包含(i)一個或多個第三crick靶標選擇性引物,其包含與通用3'銜接子序列的r1測序引物位點互補的序列,和(ii)一個或多個第四crick靶標選擇性引物,所述一個或多個第四crick靶標選擇性引物各自在5'至3'方向上包含r2測序引物位點和對相同靶多核苷酸具有選擇性的靶標選擇性序列。
[0311]
所述試劑盒可以包含用于多個靶多核苷酸的多重擴增的引物對的組。
[0312]
計算機可讀介質
[0313]
本文還提供了一種計算機可讀介質,其包括被設置為實現本文描述的任何方法的計算機可執行指令。所述計算機可讀介質可包含用于分析來自核酸樣品的序列數據的計算機可執行指令,其中所述數據通過前述權利要求中任一項所述的方法產生。
[0314]
計算機可讀介質可以實現用于半自動化或自動化序列數據分析的方法。
[0315]
在一些實施方式中,計算機可讀介質包含用于以下的可執行指令:(a)將序列讀數分配到uid家族中,其中uid家族的各成員包含相同的外源性uid序列;(b)將各uid家族的序列讀數分配給watson和crick亞家族;(c)當一定閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;(d)當一定閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;(e)當準確代表watson鏈的序列與缺乏突變的參考序列不同時,鑒定該準確代表
watson鏈的核苷酸序列中的突變;(f)當準確代表crick鏈的序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的核苷酸序列中的突變;和(g)當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變是相同突變時,鑒定分析物dna片段中的突變。
[0316]
在一些實施方式中,計算機可讀介質包括用于基于外源性uid序列與r1和r2讀數序列的空間關系,將uid家族成員分配給watson亞家族或crick亞家族的可執行代碼。在一些實施方式中,當外源性uid序列位于r2序列下游和r1序列上游時,計算機可執行代碼將uid家族成員分配給watson亞家族。在一些實施方式中,當外源性uid序列位于r1序列下游和r2序列上游時,計算機可執行代碼將uid家族成員分配給crick亞家族。在一些實施方式中,當外源性uid序列與r2序列更接近且與r1序列距離更遠時,計算機可執行代碼將uid家族成員分配給watson亞家族。在一些實施方式中,當外源性uid序列更接近r1序列且與r2序列距離更遠時,計算機可執行代碼將uid家族成員分配給crick亞家族。在一些實施方式中,當外源性uid序列緊鄰r2序列下游或在距離r2序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸內時,計算機可執行代碼將uid家族成員分配給watson亞家族。在一些實施方式中,當外源性uid序列緊鄰r1序列下游或在距離r1序列1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸內時,計算機可執行代碼將uid家族成員分配給crick亞家族。
[0317]
一些實施方式中,計算機可讀介質包含用于將序列讀數映射到參考基因組的可執行代碼。在一些實施方式中,參考基因組是人類參考基因組。
[0318]
在一些實施方式中,計算機可讀介質包括用于基于樣品中突變的存在、不存在或突變量,生成疾病狀態、預后或診斷的報告的可執行代碼。在一些實施方式中,所述疾病是癌。
[0319]
在一些實施方式中,計算機可讀介質包括用于基于樣品中突變的存在、不存在或突變量,生成選擇報告的可執行代碼。
[0320]
在一些實施方式中,計算機可讀介質包括用于通過網絡傳輸數據的可執行代碼。
[0321]
計算機系統
[0322]
本文還提供了計算機系統。在一些實施方式中,計算機系統包括設置為接收和存儲來自核酸樣品的序列數據的存儲器單元,所述數據由本文所述的方法產生;以及處理器,其以通信方式耦合至所述存儲存儲器(storage memory),其中所述處理器包括本文公開的計算機可讀介質。
[0323]
圖32說明了適于使用戶能夠根據本文所述的任一方法分析核酸樣品的示例性計算機系統900。系統900包括中央計算機服務器901,其被編程以實施本文所述的示例性方法。服務器901包括中央處理單元(cpu,也稱為“處理器”)905,其可以是單核處理器、多核處理器或用于并行處理的多個處理器。服務器901還包括存儲器910(例如隨機存取存儲器、只讀存儲器、閃存);電子存儲單元915(例如硬盤);用于與一個或多個其它系統(例如,排序系統)通信的通信接口920(例如網絡適配器);以及外圍設備925,其可以包括高速緩存、其它存儲器、數據存儲和/或電子顯示適配器。存儲器910、存儲單元915、接口920和外圍設備925通過通信總線(實線)(例如主板)與處理器905通信。存儲單元915可以是用于存儲數據的數據存儲單元。在通信接口920的幫助下,服務器901操作性地耦合到計算機網絡(“網絡”)930。網絡930可以是互聯網、內聯網和/或外聯網、與互聯網通信的內聯網和/或外聯網、電
信或數據網絡。在一些情況中,在服務器901的幫助下,網絡930可以實現對等網絡(peer-to-peer network),這可以使耦合到服務器901的設備能夠充當客戶端或服務器。
[0324]
存儲單元915可以存儲文件,例如序列數據、條形碼序列數據或與本發明相關的任何方面的數據。數據存儲單元915可以與和虛擬網格中的單元位置有關的數據耦合。
[0325]
服務器可以通過網絡930與一個或多個遠程計算機系統通信。一個或多個遠程計算機系統可以是例如個人計算機、筆記本電腦、平板電腦、電話、智能電話或個人數字助理。
[0326]
在一些情況中,系統900包括單個服務器901。在其它情況下,系統包括通過內聯網、外聯網和/或互聯網相互通信的多個服務器。
[0327]
服務器901可以適于存儲序列數據、關于核酸樣品的數據、關于生物樣品的數據、關于對象的數據和/或其它潛在相關信息。這樣的信息可以存儲在存儲單元915或服務器901上,并且這樣的數據可以通過網絡傳輸。
[0328]
本文所述的方法可以通過存儲在服務器901的電子存儲位置(例如存儲器910或電子存儲單元915)上的機器(例如計算機處理器)計算機可讀介質(或軟件)來實現。在使用過程中,代碼可以由處理器905執行。
[0329]
在一些情況中,可以從存儲單元915中獲取代碼并將其存儲在存儲器910上以供處理器905隨時訪問。在一些情況中,可以排除電子存儲單元915,并且將機器可執行指令存儲在存儲器910上。或者,代碼可以在第二計算機系統940上執行。
[0330]
本文提供的系統和方法的多個方面,例如服務器901,可以體現在編程中。該技術的各個方面可以被認為是“產品”或“制品”,通常是機器(或處理器)可執行代碼和/或在一類機器可讀介質(例如,計算機可讀介質)中攜載或實現的相關數據的形式。機器可執行代碼可以存儲在電子存儲單元上,例如存儲器(例如,只讀存儲器、隨機存取存儲器和閃存)或硬盤。“存儲”型介質可以包括計算機、處理器等或其相關模塊的任何或全部有形存儲器,例如各種半導體存儲器、磁帶驅動器、磁盤驅動器等,它們可以隨時提供非暫時性存儲以供軟件編程。軟件的全部或部分有時可以通過互聯網或各種其它電信網絡進行通信。例如,這樣的通信可以實現將軟件從一臺計算機或處理器加載到另一臺計算機或處理器中,例如,從管理服務器或主機計算機加載到應用服務器的計算機平臺中。因此,可以承載軟件元素的另一種類型的媒體包括光波、電波和電磁波,例如跨本地設備之間的物理接口、通過有線和光陸線網絡以及通過各種空中鏈路使用。攜帶這種波的物理元素,例如有線或無線類、光鏈路等,也可以被認為是承載軟件的介質。如本文所用,除非限于非暫時的、有形的“存儲”介質,例如計算機或機器“可讀介質”之類的術語是指參與向處理器提供指令以供執行的任何介質。
[0331]
因此,例如計算機可執行代碼之類的機器可讀介質可以采取多種形式,包括但不限于有形存儲介質、載波介質或物理傳輸介質。非易失性存儲介質可以包括例如光盤或磁盤,例如任何計算機等中的任何存儲設備,這樣可以用于實現該系統。有形傳輸介質可以包括:同軸電纜、銅線和光纖(包括構成計算機系統內總線的線)。載波傳輸介質可以采用電或電磁信號的形式,或聲波或光波的形式,例如在射頻(rf)和紅外(ir)數據通信期間產生的那些。因此,計算機可讀介質的常見形式包括,例如:軟盤、軟盤、硬盤、磁帶、任何其它磁性介質、cd-rom、dvd、dvd-rom、任何其它光學介質、穿孔卡、紙質、任何其它帶有孔圖案的物理存儲介質、ram、rom、aprom和eprom、flash-eprom、任何其它存儲芯片或盒、傳輸數據或指令
的載波、傳輸此類載波的電纜或鏈路,或計算機可以從中讀取程序代碼和/或數據的任何其它介質。這些形式的計算機可讀介質中的許多可能涉及將一個或多個指令的一個或多個序列傳送到處理器以供執行。
[0332]
可以借助例如圖形用戶界面的用戶界面將分析結果呈現給用戶。
[0333]
本發明將在以下實施例中進一步描述,其不限制權利要求中描述的本發明的范圍。
[0334]
實施例
[0335]
實施例1:雙鏈體錨定pcr
[0336]
材料和方法
[0337]
雙鏈體錨定pcr文庫制備
[0338]
該方案可使用swift accel-ngs 2s pcr自由文庫試劑盒(目錄號20024和20096)和特定的截短銜接子和引物來制備雙鏈體文庫。在一些情況下,可以通過分開的pcr將全長p5和p7移接序列添加至文庫中,以便在illumina儀器上進行測序。
[0339]
該方案適用于pcr管,但可以擴展到pcr板。
[0340]
材料:
[0341]
1.swift accel-ngs 2s pcr自由文庫試劑盒(目錄號20024和20096)
[0342]
2. 3'swift n14銜接子1v3a
[0343]
a.
[0344]
/5phos/ataaaacgacggcnnnnnnnnnnnnnnagatcggaagagcacacgtctgaactccag*t*c/3spc3/(seq id no:1)
[0345]
b.訂購從idt純化的page,1微摩爾合成規模,凍干
[0346]
c./3spc3/可以用/3phos/取代,不需要硫代磷酸酯鍵,寡核苷酸可以通過hplc純化
[0347]
3. 3'swift銜接子2v3'dt
[0348]
a.gccgucguuuua/33dt/(seq id no:3)
[0349]
b./33dt/是對3'-脫氧t的idt非目錄修飾
[0350]
c.訂購從idt純化的page,1微摩爾合成規模,凍干
[0351]
4. 5’swift銜接子
[0352]
a./5spc3/a*c*actctttccctacacgacgctcttccgatct(seq id no:4)
[0353]
b.訂購從idt純化的page,1微摩爾合成規模,凍干
[0354]
c./5spc3/和硫代磷酸酯鍵為非必需,且寡核苷酸應經hplc純化
[0355]
d.可用來自2s雙重索引試劑盒(目錄號28096)的trub2試劑進行替換
[0356]
5.neb ultra ii q5主混物(目錄號m0544l)
[0357]
6.截短p5引物
[0358]
a.acactctttccctacacgacgctcttccgatct(seq id no:4)
[0359]
b.不需要修飾,由idt脫鹽處理,idte中100μm
[0360]
7.截短的p7引物
[0361]
a.gactggagttcagacgtgtgctcttccgatct(seq id no:5)
[0362]
b.不需要修飾,由idt脫鹽處理,idte中100μm
[0363]
8.spriselect珠(beckman coulter,目錄號b23317/b23318/b23319)
[0364]
9.80% etoh(約2ml/樣品)
[0365]
10.pcr管條(例如,genemate vwr目錄號490003-710)
[0366]
11.磁架(例如,permagen msrlv08)
[0367]
12.user酶(neb目錄號m5505l)
–
其為尿嘧啶-dna糖基化酶和dna糖基化酶-裂解酶核酸內切酶viii的混合物。
[0368]
制備定制銜接子(可以供大批量一次進行):
[0369]
1.如果不使用swift的trub2試劑,則將5'swift銜接子重懸至42μm低edta te(包含在swift2s試劑盒中)
[0370]
2.將3'swift n14銜接子1v3a重懸至100μm低edta te(包含在swift2s試劑盒中)。-20℃儲存以備后用。
[0371]
3.將3'swift銜接子2v3'dt重懸至100μm低edta te(包括在swift 2s試劑盒中)。-20℃儲存以備后用。
[0372]
4.通過在室溫混合100μl各寡核苷酸,將3'swift n14銜接子1v3a退火至3'swift銜接子2v3'dt。將管標為3'swift n14 v3'dt雙鏈體銜接子,50μm。3'雙鏈體銜接子的最終濃度為50μm。使用前室溫孵育至少5分鐘。-20c儲存以備后用。
[0373]
技術說明:
[0374]
酶管可以從-20℃的儲存中取出并置于冰上約10分鐘,以使酶在移液前達到4℃。在-20℃移取酶可能會導致酶試劑短缺。
[0375]
將試劑解凍至4℃后,可將試劑(酶除外)短暫渦旋以充分混合。離心離心機中的所有管子,在打開之前收集內容物。
[0376]
在冰上組裝所有試劑主混物并酌情縮放體積,使用5%的過量體積來補償移液損失。
[0377]
試劑應按照整個方案中所述的指定順序添加到主混物中。
[0378]
可以提前準備試劑(例如,以確保磁珠在尺寸選擇步驟中不會變干)。
[0379]
步驟1:模板修復
[0380]
1.將11ng cfdna樣品轉移至0.2ml pcr管中,必要時,使用低edta te將樣品體積調整至終體積37μl。
[0381]
2.向各樣品添加3μl user酶。
[0382]
3.渦旋混合,輕輕離心以將所有液體收集到管底。
[0383]
4.將樣品放入熱循環儀,編程為在37℃下持續15分鐘,閉蓋加熱。
[0384]
步驟2:末端修復1
[0385]
1.輕輕離心樣品以收集任何冷凝物。
[0386]
2.在各含有40μl dna樣品的樣品中添加20μl預混修復i主混物(參見表1)。
[0387]
表1.末端修復i主混物
[0388]
試劑體積/樣品低edta te13μl緩沖液w16μl酶w21μl
總體積20μl
[0389]
3.渦旋混合,輕輕離心,放入熱循環儀,并按以下順序運行修復i熱循環儀程序。
[0390]
a.37℃,5分鐘,開蓋加熱(蓋設為75℃)
[0391]
a.65℃,2分鐘,開蓋加熱(蓋設為75℃)
[0392]
c.37℃,5分鐘,開蓋加熱(蓋設為75℃)
[0393]
4.熱循環儀程序完成后,輕輕離心離心管收集冷凝物。
[0394]
5.加入120μl(2.0x)的spriselect微珠,清理修復i反應。通過渦旋混合。輕輕離心以收集珠并在室溫孵育5分鐘。
[0395]
6.將樣品置于磁架上5分鐘收集珠。
[0396]
7.在不干擾沉淀的情況下移出并丟棄上清液。
[0397]
8.將180μl新鮮制備的80%乙醇溶液加至樣品,同時樣品仍在磁架上。小心不要攪擾沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0398]
9.重復上述步驟,用80%乙醇溶液進行第二次洗滌。
[0399]
10.用p20移液器去除任何殘留的乙醇溶液,讓珠干燥約30秒。注意不要過度干燥珠,并立即進行末端修復2的步驟1。
[0400]
步驟3:末端修復2
[0401]
1.將50μl預混修復ii主混物(參見表2)添加至各樣品的磁珠,并通過渦旋混合直至均勻。
[0402]
表2.末端修復ii主混物
[0403][0404][0405]
2.將樣品放入熱循環儀,在20℃編程20分鐘,閉蓋加熱。
[0406]
3.熱循環儀程序完成后,輕輕旋轉離心管收集冷凝物。
[0407]
4.加入90μl(1.8x)的peg/nacl溶液清理修復2反應。通過渦旋混合。輕輕離心以收集珠并在室溫孵育5分鐘。
[0408]
5.將樣品置于磁架上5分鐘收集珠。
[0409]
6.在不干擾沉淀的情況下移出并丟棄上清液。
[0410]
7.將180μl新鮮制備的80%乙醇溶液加至樣品,同時樣品仍在磁架上。小心不要攪擾沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0411]
8.重復上述步驟,用80%乙醇溶液進行第二次洗滌。
[0412]
9.用p20移液器去除任何殘留的乙醇溶液,讓珠干燥約30秒。注意不要過度干燥
珠,并立即進行連接1的步驟1。
[0413]
步驟4:連接1
[0414]
1.將30μl預混連接i主混物(參見表3)添加至各樣品的珠,并通過渦旋混合直至均勻。
[0415]
表3.連接i主混物
[0416]
試劑體積/樣品低edta te20μl3’swift n14v3’dt雙鏈體銜接子,50um5μl緩沖液y13μl酶y32μl總體積30μl
[0417]
2.將樣品放入熱循環儀,在25℃編程15分鐘,閉蓋加熱。
[0418]
3.熱循環儀程序完成后,輕輕旋轉離心管收集冷凝水。
[0419]
4.添加36μl(1.2x)的peg/nacl溶液清理連接1反應。通過渦旋混合。輕輕離心以收集珠并在室溫孵育5分鐘。
[0420]
5.將樣品置于磁架上5分鐘收集珠。
[0421]
6.在不干擾沉淀的情況下移出并丟棄上清液。
[0422]
7.將180μl新鮮制備的80%乙醇溶液加至樣品,同時樣品仍在磁架上。小心不要攪擾沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0423]
8.重復上述步驟,用80%乙醇溶液進行第二次洗滌。
[0424]
9.用p20移液器去除任何殘留的乙醇溶液,讓珠干燥約30秒。注意不要過度干燥珠,并立即進行連接1的步驟2。
[0425]
步驟5:連接2
[0426]
1.將50μl預混連接ii主混物(參見表4)添加至各樣品的珠,并通過渦旋混合直至均勻。
[0427]
表4.連接ii主混物
[0428][0429]
2.將樣品放入熱循環儀,在40℃編程10分鐘,閉蓋加熱。
[0430]
3.熱循環儀程序完成后,輕輕旋轉離心管收集冷凝水。
[0431]
4.添加52.5μl(1.05x)的peg/nacl溶液清理連接1反應。通過渦旋混合。輕輕離心以收集珠并在室溫孵育5分鐘。
[0432]
5.將樣品置于磁架上5分鐘收集珠。
[0433]
6.在不干擾沉淀的情況下移出并丟棄上清液。
[0434]
7.將180μl新鮮制備的80%乙醇溶液加至樣品,同時樣品仍在磁架上。小心不要攪擾沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0435]
8.重復上述步驟,用80%乙醇溶液進行第二次洗滌。
[0436]
9.用p20移液器去除任何殘留的乙醇溶液,讓珠干燥約30秒。注意不要過度干燥珠,并立即將珠重懸于24μl低edta te中。通過渦旋混合并孵育2分鐘。
[0437]
10.輕輕旋轉收集珠,在磁架上收集珠2分鐘。
[0438]
步驟6:pcr-文庫擴增
[0439]
1.將26μl預混pcr文庫擴增主混物(參見表5)添加至各樣品的干凈試管中。
[0440]
表5.pcr文庫擴增主混物
[0441]
試劑體積/樣品neb ultra ii q5主混物(2x)25μl截短p5引物,100μm0.5μl截短p7引物,100μm0.5μl總體積26μl
[0442]
2.小心地將含有最終連接后文庫的上清液轉移至pcr文庫擴增主混物。
[0443]
3.使用p20移液器轉移任何殘留的最終連接后文庫。注意轉移盡可能多的上清液。
[0444]
4.渦旋混勻,輕輕離心,放入熱循環儀中,按下述順序運行pcr文庫擴增熱循環儀程序。
[0445]
表6.示例性pcr文庫擴增熱循環儀程序
[0446][0447]
5.通過添加90μl(1.8x)的spriselect珠,清理pcr文庫擴增反應。通過渦旋混合。輕輕離心以收集珠并在室溫孵育5分鐘。
[0448]
6.將樣品置于磁架上5分鐘收集珠。
[0449]
7.在不干擾沉淀的情況下移出并丟棄上清液。
[0450]
8.將180μl新鮮制備的80%乙醇溶液加至樣品,同時樣品仍在磁架上。小心不要攪擾沉淀。孵育30秒,然后用p20移液器小心地除去乙醇溶液。
[0451]
9.重復上述步驟,用80%乙醇溶液進行第二次洗滌。
[0452]
10.用p20移液器去除任何殘留的乙醇溶液,讓珠干燥約30秒。注意不要過度干燥珠,并立即將珠重懸于47μl低edta te中。通過渦旋混合并孵育2分鐘。
[0453]
11.輕輕旋轉收集珠,在磁架上收集珠2分鐘。
[0454]
12.小心地將含有最終pcr擴增文庫的上清液轉移至干凈的試管中,不要攜帶任何珠。
[0455]
13.通過tapestation分析1μl擴增的文庫。突出峰應出現在約300bp,對應于銜接子連接的單核小體dna(180bp+60bp+59bp)。
[0456]
14.將文庫保存在-20℃。
[0457]
使用雙鏈體錨定pcr準確高效地檢測罕見突變
[0458]
通過將兩個銜接分子順序連接至雙鏈輸入dna來生成包含雙鏈體分子條形碼的測序文庫。首先,輸入dna通過鈍化和去磷酸化反應進行末端修復(圖9和10)。末端修復后,將退火至具有封閉3'基團的短寡核苷酸(3'寡核苷酸#2)的含5'磷酸的3'銜接子(3'寡核苷酸#1)連接至輸入dna的各3'端(圖12)。由于寡核苷酸之一含有3'封閉基團,因此只有含5'磷酸的寡核苷酸(3'寡核苷酸#1)共價連接至輸入dna于3'端。連接的3'寡核苷酸還包含分子條形碼,它獨特地標記各鏈(圖11)。接下來,降解含3'封閉基團的3'寡核苷酸,并通過切口平移樣反應將5'銜接子寡核苷酸連接至各5'端。具體地,5'銜接子寡核苷酸緊鄰3'銜接子寡核苷酸#1上的分子條形碼上游退火,留下缺口。在切口平移樣反應過程中,所述缺口被填充并封口(sealed),從而在dna片段的各端原位生成雙鏈分子條形碼(圖13)。得到的連接產物通過初始全基因組pcr進行純化和擴增(圖14)。
[0459]
在初始全基因組pcr之后,可以選擇性地純化產物并生成對應于正義鏈和反義鏈的單鏈(ss)na文庫(圖2和圖3)。
[0460]
使用鏈特異性錨定pcr方法,針對所需靶標富集擴增的dna文庫。這種pcr富集使用了靶向所需感興趣區域的單引物和靶向連接的銜接子序列的第二引物(圖4、5、15、17)。為了提高靶標富集的特異性,可以使用靶向所需感興趣區域的單引物和靶向連接的銜接子序列的第二引物進行第二巢式pcr(圖7、8、16、18)。為了提高靶標富集的特異性,可以使用第二巢式pcr來納入樣品條形碼以及下一代測序所需的必要移接序列。然后對生成的文庫進行量化、標準化和測序。
[0461]
測序后,讀數與基因組對齊,并按其分子條形碼分組。包含具有相同分子條形碼的讀數的片段(其映射至靶標的正義鏈和反義鏈兩者)被設計為具有“雙鏈體支持”。只有在兩條鏈中均存在突變時才對突變進行評分(圖20和21)。
[0462]
實施例2:dna的watson和crick鏈的靶向dna測序
[0463]
稀有核酸序列的鑒定和定量對于生物學和臨床醫學的許多領域都很重要。該實施例描述了一種方法(稱為saferseqs),所述方法通過如下方式應對這一挑戰:(i)在模板分子的watson和crick鏈中高效地引入相同的分子條形碼和(ii)使用新鏈特異性pcr分析來富集感興趣的基因組區域。它可用于評估單擴增子內或同時存在于多個擴增子內的突變,可評估有限數量的dna,例如血漿中存在的dna,并將現有基于pcr的分子條碼化方法的錯誤率降低至少兩個數量級。
[0464]
結果
[0465]
為了解決通常與文庫構建相關的低效率和引入錯誤,設計了一種策略,該策略涉及將銜接子序列順序連接至3'和5'dna片段末端并原位生成雙鏈分子條形碼(圖22a)。分子條形碼的原位生成是新文庫制備方法的關鍵創新。用于原位生成雙鏈分子條形碼的酶對各dna片段進行獨特的條碼化,從而避免了對酶促方式制備雙鏈體銜接子的需要(圖22a,步驟2和3)。銜接子包含一段14個隨機核苷酸作為外源性分子條形碼(獨特標識符序列[uid])。銜接子連接的片段經過有限數量的pcr循環以產生兩條原始dna鏈的冗余拷貝(圖22a,步驟4)。為清楚起見,在該示例性實施方式中,ucsc參考序列(可在genome.ucsc.edu/獲得)被任意定義為“watson”鏈并且其反向互補鏈為“crick”鏈。
[0466]
該方案的另一項創新是使用基于半巢式pcr的方法進行富集。盡管半巢式pcr先前已用于靶標富集(參見,例如,zheng等.,2014,natmed20:1479-1484),但需要進行重大改變才能將其應用于雙鏈體測序。具體地,進行了兩次分開的pcr——一次用于watson鏈,一次用于crick鏈。兩種pcr均使用相同的基因特異性引物,但各使用不同的錨定引物。源自各鏈的pcr重復體可以通過插入物相對于外源性uid的方向來區分(圖22b)。
[0467]
測序后,對應于原始dna雙鏈體的各鏈的讀數被分為watson和crick家族。各家族成員都具有相同的內源性條形碼,代表初始模板片段一端的序列,以及在文庫構建過程中原位引入的相同外源性uid。存在于超過80%的watson鏈家族中的突變被稱為“watson超突變體”。存在于超過80%的crick鏈家族中的突變被稱為“crick超突變體”。存在于》80%的具有相同uid的watson和crick家族(“雙鏈體家族”)兩者中的那些被稱為“超準突變體(supercalifragilisticexpialidocious mutants)”,在本文中稱為“超準突變體(supercalimutant)”(圖22c)。
[0468]
作為saferseqs的初步演示,進行了一項混合實驗,其中具有已知突變的dna以10%到0%的比例被摻入到來自正常個體白細胞的dna中。預計這些混合物每次測定會產生
15,400、150、15、15、8或0個超準突變體。中靶讀數(即,包含預期擴增子的讀數)的比例為88%,遠高于使用基于混合捕獲的方法可實現的情況(參見例如samorodnitsky等,2015hum mutat 36:903-914)。此外,跨五個數量級證明了預期和觀察到的等位基因頻率之間的強相關性(圖23,皮爾森相關系數》0.999,p=2.02
×
10-12
)。在來自正常個體的dna中沒有觀察到與預先指定的混合變體相對應的單個突變體,這表明對感興趣的突變具有非常高的特異性。還確定了擴增子內任何堿基(而不僅僅是查詢的堿基)的特異性。在所有dna樣品中查詢的總共37,747,670個堿基中,僅觀察到6個超準突變體,代表突變頻率為1.59
×
10-7
超準突變體/bp(表7)。
[0469][0470]
然后試圖確定saferseqs是否可以應用于dna數量有限的臨床樣品。例如,用于液體活檢物的10ml無細胞血漿dna樣品中通常只有33ng的dna。這些樣品中的絕大多數dna模
板分子是野生型,在來自低腫瘤負荷患者的樣品中存在的10,000個野生型模板中,只有一或兩個突變模板。為了靈敏地檢測這種極少數的突變模板,該測定應該高效地回收起始分子。
[0471]
為了在如此具有挑戰性的環境中評估saferseqs,將來自癌癥患者的無細胞血漿dna與來自正常個體的無細胞血漿dna混合,以模擬臨床樣品中通常觀察到的突變頻率。在這些實驗中,對各樣品中的33ng進行了tp53中三種不同突變之一的分析。跨越27個實驗條件(3個tp53擴增子
×
3個樣品
×
3個等分部分/樣品)的中靶讀數的中位數為80%(范圍:72%至91%)(圖24a)。雙鏈體家族(即包含相同內源性和外源性條形碼的watson和crick鏈兩者)的中位數為原始模板分子數量的89%(范圍:65%至102%)(圖24b)。此外,在所有六個混合樣品中,以預期頻率鑒定了感興趣的超準突變體(圖25b、d、e,表9)。使用先前描述的分子條碼化方法(“safeseqs”而不是“saferseqs”)在這些相同的樣品中也鑒定了該預期頻率的突變(圖25a、b、c,表8)。saferseqs的一個優勢是其特異度。用先前描述的方法觀察到的共有1,406個超突變體(supermutant),代表153個不同的突變,反映了9.39
×
10-6
個超突變體/bp的平均錯誤率(圖25a、b、c,表8)。這些突變中的絕大多數可能是聚合酶錯誤,它們僅在兩條鏈中的一條鏈的早期條碼化循環中出現。類似地,如果只考慮watson超突變體或crick超突變體(即僅在兩條鏈之一中觀察到的那些,圖22c),而不是超準突變體,則觀察到的錯誤率為6.56
×
10-6
個超突變體/bp(圖26,表9)。相比之下,在使用saferseqs查詢的4,947,725個堿基中僅檢測到一個超準突變體,代表總突變率為2.02
×
10-7
(表9)。saferseqs與先前描述的分子條碼化方法(即在測序前使用直接pcr或銜接子連接來納入分子條形碼的方法)之間的這些特異度差異非常顯著(p《3.5
×
10-10
,比較saferseqs與其它各方法的比率的雙邊z檢驗)。
[0472]
表8.safeseqs和saferseqs鑒定的突變比較。
[0473]
(見附錄a)
[0474]
表9.由鏈不可知分子條形碼和saferseqs鑒定的突變的比較。
[0475]
(見附錄b)
[0476]
作為saferseqs臨床適用性的進一步證明,評估了具有極小腫瘤負荷的5名癌癥患者。在各情況中,原發性腫瘤(而不是血漿)中的突變都按照他處的描述進行鑒定(tie等,sci transl med 8:346ra392(2016))。將這些患者的血漿分成兩等份,一份使用他處描述的條碼化方法(kinde等,proc natl acad sci u s a 108:9530-9535(2011))評估,另一份使用saferseqs評估。在這兩種情況下,都設計了導致靶向感興趣突變的小擴增子的引物。使用先前描述的條碼化方法進行的評估表明,血漿樣品總共含有最初鑒定于原發性腫瘤中的8個突變。血漿中這些突變的頻率從0.01%到0.1%不等(圖27,表10)。除8個已知突變外,先前描述的方法還發現了334個不同的突變,頻率高達0.013%,這些突變在這些患者的原發性腫瘤中均未被發現。這334個突變包含10,347個超突變體,反映了1.23
×
10-5
個超突變體/bp的平均錯誤率(圖27,表10)。使用saferseqs,在全部5名患者中檢測到在原發性腫瘤中發現的8個突變,其頻率與使用先前描述的方法發現的頻率相似(圖27,表10)。然而,在8,707,755個查詢的堿基中,用saferseqs僅鑒定了一個另外的超準突變體(而不是334個突變),代表平均錯誤率為1.15
×
10-7
(表10)。與先前描述的分子條碼化方法相比,這種》100倍的特異度提高是高度顯著的(p《2.2
×
10-16
,對比率進行雙邊z檢驗)。
[0477]
表10.safeseqs和saferseqs在癌癥患者血漿樣品中鑒定的突變。
[0478]
(見附錄c)
[0479]
接下來測試了saferseqs能否同時檢測多個靶標,這對于各種測序應用都很有用。saferseqs允許兩種類型的多重檢測,一種是在分開的pcr反應中檢測多個靶標,另一種是在同一個pcr反應中檢測多個靶標。由于在文庫擴增過程中會產生冗余的watson和crick鏈衍生拷貝,因此可以將文庫劃分為多個pcr反應,而不會對樣品回收產生不利影響。例如,假設pcr效率為70%,如果用11個pcr循環擴增dna文庫,則最多可以分別分析多達22個靶標,而回收率損失《10%(圖28)。在實踐中,檢測了100%或4.4%的文庫。無論是使用100%還是4.4%的文庫,82%和92%的讀數正確映射到預期區域,命中率都相似。回收的雙鏈體家族的數量也相似,在100%和4.4%的文庫分區中回收了7,825和6,769。
[0480]
雖然上述多重化方法可用于同時測定有限數量的靶標,但評估許多基因組區域的應用可以包括多重化到少量pcr反應中。為了評估saferseqs在這種情況下的多重化能力,設計了48種引物來查詢在癌癥中通常發生突變的驅動基因區域(表11)。這些引物在兩個反應中組合:一個靶向25個區域,另一個靶向23個區域。48個引物對中的各對都特異性地擴增了它們的預期靶標(圖30),其中36個被判斷為成功,因為雙鏈體家族的數量至少是單鏈體反應鑒定的那些的50%。在這36個中,watson衍生讀數的中位命中率為95%(范圍:39%至97%),crick衍生讀數的中位命中率為95%(范圍:39%至98%)。最重要的是,靶標顯示出相對均一的輸入分子的回收,變異系數僅為17%(圖29)。測序的擴增子的長度(中位數為77bp,四分位距:71-83bp)在所有擴增子中也相似,并且與無細胞血漿dna的初始大小一致,其約為167bp
±
10.4bp(圖29)。
[0481]
[0482]
[0483]
[0484]
[0485]
[0486]
[0487][0488]
可以使用兩種示例性方法來評估多個擴增子。第一個涉及不同孔中的平行擴增子特異性pcr。對于監測疾病復發的液體活檢物,當通常只觀察到少數驅動基因突變時,這種
策略可以很容易地應用,而無需擔心引物之間的交叉雜交或多重pcr反應中常見的其它問題。對于液體活檢物的其它應用,例如在感興趣的突變未知時進行篩查,對更多擴增子的評估是有用的;例如,各pcr孔中多個引物對的組合。該實施例表明,使用saferseqs在一個孔中可以有效地分析至少18個擴增子,并且不涉及雙鏈測序的半巢式pcr策略表明可以共同擴增多達313個擴增子。
[0489]
通過有效檢測和量化罕見遺傳變化,saferseqs可以開發高敏感度和特異度的基于dna的分子診斷法,并協助探明各種重要的基礎科學問題。
[0490]
方法
[0491]
血漿和外周血dna樣品
[0492]
使用制造商指定的cfpuremax無細胞dna提取試劑盒(biochain,目錄號k5011625ma)從10ml血漿純化dna。使用制造商指定的qiasymphony dsp dna midi試劑盒(qiagen,目錄號937255)純化來自外周wbc的dna。如他處所述對來自所有樣品的純化dna進行量化(參見例如,douville等,2019biorxiv,660258)。
[0493]
文庫制備
[0494]
開發了一個定制的文庫制備工作流程,可以有效地回收輸入的dna片段并同時納入雙鏈分子條形碼。簡而言之,使用具有以下修改的accel-ngs 2s dna文庫試劑盒(swift biosciences,目錄號21024)用無細胞dna或外周wbc dna制備雙鏈體測序文庫:1)用三個單位的user酶(new england biolabs,目錄號m5505l)在37℃預處理dna 15分鐘以切除尿嘧啶堿基;2)對于末端修復1、末端修復2、連接1和連接2,每次反應后使用的spri珠/peg nacl比例分別為2.0x、1.8x、1.2x和1.05x;3)用定制的50μm 3'銜接子(表12)代替試劑y2;4)用定制的42μm 5'銜接子(表12)代替試劑b2。隨后使用靶向連接的銜接子的引物在50μl反應中對文庫進行pcr擴增(表12)。反應條件如下:1x nebnext ultra ii q5主混物(new england biolabs,目錄號m0544l)、2μm通用正向引物和2μm通用反向引物(表12)。文庫通過5、7或11個pcr循環進行擴增,具體取決于計劃的實驗數量,根據以下方案:98℃30秒,98℃10秒,65℃75秒,和4℃保持循環。如果使用5或7個循環,則文庫在單個50μl反應中被擴增。如果使用11個循環,則將文庫分成8個等分部分,并在8個50μl反應中擴增,各反應添加0.5單位的熱啟動高保真dna聚合酶(new england biolabs,目錄號m0493l),1μl的10mm dntp(new england biolabs,目錄號n0447l),和0.4μl的25mm mgcl
2 solution(new england biolabs,目錄號b9021s)。產物用1.8x spri珠(beckman coulter目錄號b23317)純化并洗脫到eb緩沖液(qiagen)中。
[0495]
[0496]
[0497][0498]
文庫構建
[0499]
為了解決與文庫構建相關的低效率問題,設計了一種策略,該策略涉及將銜接子
序列順序連接至3'和5'dna片段末端并原位生成雙鏈分子條形碼(圖22a)。在dna末端去磷酸化和修復(圖22a,步驟1)后,銜接子被連接至dna片段的3'端(圖22a,步驟2)。銜接子是部分雙鏈dna片段,具有選擇性連接至3'dna末端并防止銜接子二聚體形成的末端修飾。具體而言,該銜接子由含有5'磷酸末端修飾的一個寡核苷酸組成(表12,3'n14銜接子寡核苷酸#1),其與含有3'封閉基團和用脫氧尿苷取代脫氧胸苷的另一個寡核苷酸(表12,3'n14銜接子寡核苷酸#2)雜交。這種設計允許在連接反應中使用高濃度的銜接子,這促進了與3'端的高效連接,而沒有顯著二聚體或多聯體形成的風險。此外,銜接子在兩個寡核苷酸之一中包含14個隨機核苷酸的一段序列,這會損害雙鏈體uid的一條鏈。連接3'銜接子后,第二個銜接子(表12,5'銜接子)通過由dna聚合酶、粘性末端特異性連接酶和尿嘧啶-dna糖基化酶組成的切口平移樣反應連接至5'dna片段末端(圖22a,步驟3)。這些酶的協作合成了uid的互補鏈,降解了3'銜接子的封閉部分,并將延伸的銜接子連接至5'dna片段末端。雙鏈分子條形碼的原位生成獨特地對各dna片段進行了條碼化,并消除了酶促制備雙鏈體銜接子(這已被認為會對輸入dna回收產生不利影響)的需要。最后,銜接子連接的片段經過有限數量的pcr循環,以產生兩條原始dna鏈的冗余拷貝(uid“家族”)(圖22a,步驟4)。
[0500]
文庫擴增循環數的作用和效率
[0501]
可以調整文庫擴增期間的pcr循環數和復制效率以優化saferseqs參數。因為saferseqs可以涉及將冗余watson和crick鏈衍生拷貝劃分為特定鏈特異性pcr以用于靶標富集,所以在優選實施方式中,應生成必需數量的拷貝以確保雙鏈體回收的高概率。例如,假設100%的效率,在一個pcr循環后,各模板dna雙鏈體被轉化為兩個雙鏈拷貝(一個代表各鏈),并且只有25%的概率正確分布這兩個拷貝,以使得一個watson鏈衍生的拷貝被劃分進入watson特異性pcr,一個crick鏈衍生的拷貝被劃分進入crick特異性pcr。增加pcr循環數或增加擴增效率會產生更多的冗余拷貝,從而增加回收原始dna雙鏈體的可能性。
[0502]
開發了一個概率模型來估計高效雙鏈體回收所需的pcr循環數和擴增效率。該模型由三個步驟組成:1)模擬文庫擴增過程中產生的pcr后代數量;2)將這些pcr拷貝隨機分入watson和crick鏈特異性反應;和3)確定雙鏈體回收率——即原始dna雙鏈體的比例,其中至少一個watson鏈衍生的拷貝被劃分進入watson鏈特異性反應,并且至少一個crick鏈衍生的拷貝被劃分進入crick鏈特異性反應。
[0503]
在各文庫擴增循環期間產生的原始模板鏈的pcr拷貝數遵循二項分布。對于第一pcr循環,鏈特異性拷貝數被初始化為一。應注意,計數被初始化為一(而不是二),因為第一文庫擴增循環僅用于使兩條原始模板鏈變性并將它們轉化為物理上不同的雙鏈形式。在隨后的第i個pcr循環中,ni個pcr拷貝各自都可以以概率p(即擴增效率)復制,從而產生總共n
i+1
個pcr拷貝,等于ni+二項(ni,p)。反復重復該過程以模擬i個pcr循環后產生的后代數量。形式上,產生的總pcr拷貝數可以表示如下:
[0504][0505]
文庫擴增后,各原始dna雙鏈體已被擴增以產生如上所述的watson鏈的n
i,w
個拷貝和crick鏈的n
i,c
個拷貝。n
i,w
和n
i,c
拷貝各自被隨機分配到watson和crick鏈特異性pcr反應中,概率q等于用于各反應的文庫的分數。當文庫分為單個watson和單個crick鏈特異性pcr
時,q等于50%。如果文庫分為兩個watson和crick鏈特異性pcr,q等于25%。分配到合適的鏈特異性pcr中的pcr拷貝數(n
k,w
或n
k,c
,分別用于第k個watson特異性或crick特異性pcr)從對于watson和crick拷貝分別具有n
i,w
或n
i,c“試驗”和“成功”概率q的二項分布得出。因此,將至少一個watson衍生的pcr拷貝分配到第k個watson特異性pcr反應的概率為:
[0506][0507]
類似地,將至少一個crick衍生的pcr拷貝分配到第k個crick特異性pcr反應的概率為:
[0508][0509]
只有當n
k,w
和n
k,c
大于零時,才能回收原始dna雙鏈的兩條鏈。由于pcr后代的劃分是獨立的,因此預測雙鏈體回收的概率為:
[0510][0511]
我們將pcr效率從100%變化到50%,文庫擴增循環數從1到11,以及用于各反應的文庫分數從50%到1.4%。對于各條件,我們對上述過程進行了10,000次模擬,并在圖28中報告了平均雙鏈體回收率。
[0512]
錨定半巢式pcr的片段大小和回收率
[0513]
錨定半巢式pcr理論上證明模板分子的回收率高于傳統的擴增子pcr。在傳統的擴增子pcr中,模板分子必須同時包含正向和反向引物結合位點以及定義擴增子的插入序列。相反,在錨定半巢式pcr中,模板分子只需要結合兩個基因特異性引物結合位點即可被回收。safeseqs中使用的巢式基因特異性引物的組合足跡約為30bp,而safeseqs用于分析cfdna的擴增子長度通常為70-80bp。形式上,假設均勻隨機片段起始/結束定位,回收長度為l的模板分子的概率是其中r是傳統pcr情況下的擴增子長度或錨定半巢式pcr情況下基因特異性引物的組合足跡的長度。因此,對于大小約為167bp的無細胞dna片段,錨定半巢式pcr理論上可以比傳統的擴增子pcr多回收約25%的原始模板片段。此外,與產生由正向和反向引物的位置決定的預定義產物大小的傳統擴增子pcr不同,錨定半巢式產生不同長度的片段,其中只有一個片段末端由基因特異性引物的位置決定。假設模板分子長度為l,在均勻隨機的起始/結束定位下,錨定半巢式pcr后觀察到的片段長度將為其中r是基因特異性引物的組合足跡的長度。
[0514]
saferseqs生物信息流水線的示例性實施方式
[0515]
在saferseqs生物信息學流水線的示例性實施方式中,將各樣品的watson和crick讀數合并到單個bam文件中,并使用samtools按讀數名稱排序,以便可以容易地提取匹配配對。自定義python腳本用于隨后重建雙鏈體家族和鑒定watson超突變體、crick超突變體和超準突變體。
[0516]
首先,將讀數分組到uid族中,同時通過檢查其按位標志(即flag字段)的值來記錄哪些讀數來自watson和crick鏈。包含按位標志值99和147的讀數來自watson鏈,而那些包含按位標志83和163的讀數來自crick鏈。具有任何其它按位標志值的讀數被排除在后續分析之外。按位標志是在映射期間分配給讀數對的數值。它們的值表明讀數配對如何與基因
組相對于彼此對齊。例如,如果一個讀數映射到參考鏈,而它的配對映射到反向(互補)鏈,那么這個讀數對來自watson鏈。類似地,如果讀數映射到反向(互補)鏈,并且它的配對映射到參考鏈,那么這個讀數對來自crick鏈。
[0517]
其次,在uid家族分組期間另實施了兩個質量控制標準,以改進內源性分子條形碼(即片段末端坐標)的確定:1)排除片段末端5'或3'處帶有軟修剪體(clipping)的讀數,2)讀數需要在外源性uid之后立即包含預期的恒定標簽序列(gccgtcgttttat;seq id no:117),且錯配不超過一個。
[0518]
第三,因為在該實施例中,可能的外源性uid序列的數量大大超過了起始模板分子的數量,所以兩個分子共享相同的外源性uid序列但具有不同的內源性uid的“條形碼沖突”應該是非常罕見的。具體而言,可以從經典的“生日問題”中計算出預期的條碼碰撞次數,即:
[0519][0520]
其中n等于模板分子的數量,n等于可能的條形碼數量。對于14bp外源性uid序列(總共包含268,435,456個可能的序列)和10,000個基因組等價物,預期的碰撞次數為0.37,或輸入的0.0037%。因此對于該實施例,要求各外源性uid序列只能與一個內源性uid相關聯。在外源性uid與多個內源性uid相關聯的情況下,最大的家族被保留,所有其它的被丟棄。
[0521]
需注意,在其它實驗設計參數中,可以使用非唯一外源性uid,并且可以將非唯一外源性uid與內源性uid結合使用以分配到uid家族中。
[0522]
最后,由于外源性條形碼本身容易受到pcr和測序錯誤的影響,我們使用umi-tools網絡鄰接方法對uid序列進行了錯誤校正并重新分組了uid系列。
[0523]
在將讀數組裝成uid家族后,watson超突變體、crick超突變體和超準突變體如本文他處所述被訪尋。為了排除常見的多態性,基因組聚合數據庫(gnomead)中以大于0.1%的等位基因頻率存在的所有突變都被排除在外。對包含超準突變體的讀數進行最終手動檢查,以排除可能的對齊偽影。
[0524]
非克隆體細胞突變率的估計
[0525]
本研究中使用的dna來自平均年齡為30歲的一組個體。因此,這些樣品中非克隆體細胞單堿基替換的預期頻率為各二倍體基因組426個,或大約7
×
10-8
個突變/bp。在這項研究中,我們使用來自健康對照對象的dna的saferseqs評估了總共42,695,395個堿基。在這42,695,395個堿基中,檢測到5個單堿基取代超準突變體,其突變頻率為12
×
10-8
。為了確定觀察到的超準突變體的頻率是否與先前對健康血細胞中非克隆體細胞突變率的估計一致,計算了以下精確的單邊二項式p值:
[0526][0527]
因此,觀察到的超準突變體的數量與健康造血干細胞產生的與年齡相關的非克隆體細胞突變的預測數量之間沒有統計學上的顯著差異。
[0528]
錨定半巢式pcr
[0529]
使用雙鏈測序所需的錨定半巢式pcr的關鍵修改來實現感興趣區域的靶標富集。在開發這種定制支架特異性測定的過程中,優化了各種反應條件,包括循環次數、引物濃度和聚合酶配方。最終優化方案如下:第一輪pcr在50μl反應中進行,條件如下:1x nebnext ultra ii q5主混物(new england biolabs,目錄號m0544l),2μm gsp1引物,和2μm p7短錨定引物,用于watson鏈擴增。gsp1引物對各擴增子具有特異性,p7短錨定引物用作所有擴增子的watson鏈的錨定引物(表11和12)。crick鏈以相同的方式在單孔中擴增,除了p5短引物錨定引物替代p7短引物之外。注意,用于擴增watson鏈的gsp1引物與用于crick鏈的gsp1引物相同;watson和crick鏈pcr之間的唯一區別是錨定引物。根據上述熱循環方案,兩種反應(watson和crick鏈)都被擴增19個循環。
[0530]
對于watson鏈,使用與第一輪pcr相同的反應條件,在50μl反應中形成第二輪pcr。差異是(i)模板:來自第一錨定watson鏈pcr的1%產物用作模板(而不是用作第一pcr的模板的文庫),和(ii)引物:基因特異性引物gsp2被替換為gsp1基因特異性引物,錨定p5索引引物被替換為p7短錨定引物。crick鏈的第二輪pcr以相同方式進行,除了(i)模板:第一條crick鏈pcr用作模板和(ii)引物:錨定p7索引引物替代錨定p5索引引物。根據前述熱循環方案,兩種反應(watson和crick鏈)都被擴增了17個循環。第二輪pcr所用引物序列見表12。第二輪pcr的產物在測序前用1.8x spri珠匯集和純化。
[0531]
對于在單個反應中同時擴增多個靶標的實驗,pcr條件與上述條件相同,除了:(i)各基因特異性引物的最終濃度為0.25μm,和(ii)錨定引物的最終濃度為各靶標0.25μm(例如,如果共擴增25個靶標,最終濃度為6.25μm)。
[0532]
測序
[0533]
如制造商所述,使用kapa文庫量化試劑盒(kapa biosystems,目錄號kk4824)確定文庫濃度。在illumina miseq儀器上使用具有8個堿基雙索引的2x75雙末端讀數進行測序。雙索引phix對照庫(seqmatic目錄號tm-502-nd)被摻入到總模板的25%以確保所有循環中的堿基多樣性。定制讀數1、索引和讀數2測序引物(表12)與標準illumina測序引物以1μm的終濃度組合。
[0534]
突變訪尋和saferseqs分析流水線
[0535]
使用定制python腳本如別處所述(參見例如,kinde等,2011proc natl acad sci u s a 8:9530-9535)對safeseqs數據進行分析。通過提取前14個核苷酸作為uid序列并使用picard的illuminabasecallstosam(broadinstitute.github.io/picard)遮蔽銜接子序列,測序讀數經歷了初始處理。然后使用bwa-mem(版本0.7.17)將讀數映射到hg19參考基因組,并使用samtools按uid序列排序。如果uid家族由2個或更多讀數組成,并且》90%的讀數映射到具有預期引物序列的參考基因組,則對它們進行評分。“超級突變體”被鑒定為存在于》95%的映射讀數中并且平均phred得分大于25的突變。
[0536]
為分析saferseqs開發了定制分析流程。簡言之,對讀數進行解多重化,并使用索引序列鑒定衍生讀數的鏈。為了清楚和簡潔起見,源自watson鏈的讀數稱為“watson讀數”,源自crick鏈的讀數稱為“crick讀數”。對于watson讀取,讀數1的前14個堿基被提取為uid序列。由于crick鏈的插入方向相反,因此將讀數2的前14個堿基提取為crick讀數的uid序列。使用picard的illuminabasecallstosam(broadinstitute.github.io/picard)遮蔽銜接子序列,并使用bwa-mem(版本0.7.17)將所得的模板特異性部分讀數映射到hg19參考基
因組。對齊后,映射的watson和crick讀數使用samtools合并和排序。
[0537]
python腳本用于隨后重建雙鏈體家族和鑒定watson超突變體、crick超突變體和超準突變體。在如別處所述校正分子條形碼序列內的pcr和測序錯誤后(參見例如,smith等,genome res 27:491-499),屬于同一雙鏈體家族的watson和crick讀數被分組在一起以重建原始模板分子的序列。為了排除源自文庫構建的最終修復步驟的偽影,不考慮對3'銜接子序列中少于10個堿基的堿基進行突變分析。watson和crick超突變體被定義為分別存在于雙鏈體家族的watson或crick讀數中》80%的突變。超準突變體被定義為在具有相同uid的watson和crick家族中》80%中存在的突變。
[0538]
統計學分析
[0539]
連續變量報告為中位數和范圍,而分類變量報告為整數和百分比。所有統計測試均使用r的stats包(版本3.5.1)進行。
[0540]
這些結果表明,saferseqs可以極高特異度檢測出罕見突變。該技術具有高度可擴展性、成本效益,并且適合高通量自動化。與現有的雙鏈體測序技術相比,saferseqs的輸入回收率提高了5到75倍,并且可以應用于有限數量的起始材料,并且與采用分子條形碼的基于標準pcr的方法相比,誤差校正提高了》50倍(圖23,表8)。與僅使用watson或crick超突變體而非超準突變體的基于最佳連接的技術相比,它還提供了》50倍的誤差校正改善(圖26,表9)。兩種減少都可用于檢測以單個或非常低拷貝數存在的突變,例如在癌癥篩查和最小殘留疾病設定中。最后,因為它結合了雙鏈體測序,saferseqs在分析單個擴增子時比數字微滴pcr靈敏得多,并且與數字微滴pcr不同,它可以高度多重化。
[0541]
其他實施方式
[0542]
應理解,雖然本發明已經結合具體實施方式進行了描述,但前述描述旨在說明而不是限制由所附權利要求書的范圍所限定的本發明的范圍。其它方面、優點和改進均在權利要求書的范圍內。
[0543]
通過引用納入
[0544]
出于所有目的,在本說明書的正文中引用的所有參考文獻、授權專利和專利申請均通過引用其整體方式納入本文。
技術特征:
1.一種方法,所述方法包括:a)a)將部分雙鏈3'銜接子(3'pdsa)連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'末端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,b)將5'銜接子退火至所述退火位點,其中5'銜接子在5'至3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;c)將5'銜接子延伸貫穿外源uid序列和所述第一區段,由此產生所述外源uid序列的互補序列和所述第一區段的互補序列,和d)將所述第一區段的所述互補序列的3'端共價連接至雙鏈dna片段的watson和crick鏈的5'端,由此產生多個銜接子連接的雙鏈dna片段。2.如權利要求1所述的方法,其還包括:用與所述通用3'銜接子序列互補的第一引物和與所述通用5'銜接子互補序列互補的第二引物擴增所述多個銜接子連接的雙鏈dna片段序列,由此產生擴增子,其中所述擴增子包含多個雙鏈watson模板和多個雙鏈crick模板。3.如權利要求2所述的方法,其還包括:用第一組watson靶標選擇性引物對選擇性擴增所述雙鏈watson模板,所述第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,和(ii)第二watson靶標選擇性引物,其包含靶標選擇性序列,由此產生靶標watson擴增產物。4.如權利要求3所述的方法,其還包括:用第一組crick靶標選擇性引物對選擇性地擴增所述雙鏈crick模板,所述第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其包含與通用5'銜接子序列的部分的互補序列互補的序列,和(ii)第二crick靶標選擇性引物,其包含與第二watson靶標選擇性引物序列相同的靶標選擇性序列,由此產生靶標crick擴增產物。5.如權利要求1所述的方法,其還包括:去除所述3'pdsa的所述第二鏈以產生單鏈3'銜接子(3'ssa)。6.如權利要求5所述的方法,其中所述去除所述第二鏈發生在步驟b)之后,或步驟b)之前,或步驟b)期間。7.如權利要求5所述的方法,其中所述第二鏈包含一個或多個脫氧尿苷,并且其中所述去除所述3'pdsa的所述第二鏈包括使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸以降解所述第二鏈。8.如權利要求5所述的方法,其中所述去除所述第二鏈通過具有核酸外切酶活性的聚合酶完成,其中所述聚合酶將所述5'銜接子延伸貫穿外源性uid序列和所述第一區段。9.如權利要求2所述的方法,其還包括:確定一個或多個所述擴增子的序列讀數。10.如權利要求9所述的方法,其還包括:將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列。11.如權利要求10所述的方法,其還包括:根據外源性uid序列與r1和r2讀數序列的空
間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族。12.如權利要求11所述的方法,其還包括:當至少50%的watson亞家族包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈。13.如權利要求12所述的方法,其還包括:當至少50%的crick亞家族包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈。14.如權利要求12所述的方法,其還包括:當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變。15.如權利要求14所述的方法,其還包括:當準確代表crick鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的序列中的突變。16.如權利要求15所述的方法,其還包括:當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。17.如權利要求10所述的方法,其中uid家族的各成員還包含相同的內源性uid序列,其中所述內源性uid序列包含來自的雙鏈dna片段的末端。18.如權利要求1所述的方法,其中,所述雙鏈dna片段具有鈍端。19.一種系統,其包括:a)部分雙鏈3'銜接子(3'pdsa),其被設置為連接至雙鏈dna片段的watson和crick鏈兩者的3'端,其中3'pdsa的第一鏈在5'至3'方向上包含(i)第一區段,(ii)外源uid序列,(iii)5'銜接子的退火位點,和(iv)包含r2測序引物位點的通用3'銜接子序列,并且其中3'pdsa的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團;和b)設置為退火至所述退火位點的5'銜接子,其中5'銜接子在5'到3'方向上包含(i)通用5'銜接子序列,其不與通用3'銜接子序列互補且包含r1測序引物位點,和(ii)與3'銜接子的退火位點互補的序列。20.如權利要求19所述的系統,還包括:c)來自生物樣品的所述雙鏈dna片段。21.如權利要求20所述的系統,其中,所述雙鏈dna片段具有鈍端。22.如權利要求19所述的系統,還包括:c)用于降解所述3'pdsa的所述第二鏈以產生單鏈3'銜接子(3'ssa)的試劑。23.如權利要求19所述的系統,還包括:c)與所述通用3'銜接子序列互補的第一引物,和與所述通用5'銜接子序列的互補序列互補的第二引物。24.如權利要求19所述的系統,還包括:c)與所述通用3'銜接子序列互補的watson錨定引物,和d)與所述通用5'銜接子序列互補的crick錨定引物。25.如權利要求19所述的系統,還包括:c)第一組watson靶標選擇性引物對,所述引物對包含(i)一個或多個第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,和(ii)一個或多個第二watson靶標選擇性引物,所述一個或多個第二watson靶標選擇性引物各自包含靶標選擇性序列,和d)第一組crick靶標選擇性引物對,所述引物對包含(i)一個或多個crick靶標選擇性引物,其包含與通用5'銜接子序列的部分的互補序列互補的序列,和(ii)一個或多個第二
crick靶標選擇性引物,所述一種或多種第二crick靶標選擇性引物各自包含與第二watson靶標選擇性引物序列相同的靶標選擇性序列。26.一種方法,其包括:a)形成反應混合物,其包含:i)去磷酸化和鈍端的多個雙鏈dna片段,其中各所述雙鏈dna片段包含watson和crick鏈;ii)多個銜接子,其中各所述銜接子在5'到3'方向上包含:a)條形碼,和b)通用3'銜接子序列;和iii)連接酶;和b)孵育所述反應混合物,從而使得:i)銜接子被連接至watson和crick鏈的3'端,并且ii)銜接子不被連接至watson或crick鏈的5'端,由此產生雙鏈連接產物。27.如權利要求26所述的方法,其中,所述多個銜接子各自包含獨特條形碼。28.如權利要求27所述的方法,其中所述雙鏈連接產物各自包含具有僅一個條形碼的watson鏈和具有與所述watson鏈上的所述條形碼不同的僅一個條形碼的crick鏈。29.一種用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段的各端具有雙鏈體分子條形碼;b)擴增在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段以產生擴增的雙鏈體測序文庫,其中所述擴增包括在全基因組pcr條件下,使在雙鏈dna片段各端上包含雙鏈體分子條形碼的雙鏈dna片段與通用引物對接觸;c)任選地,從擴增的雙鏈體測序文庫生成watson鏈的單鏈dna文庫;d)任選地,從擴增的雙鏈體測序文庫中產生crick鏈的單鏈dna文庫;e)使用包含能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物的引物對,擴增watson鏈的dna文庫的靶區域;f)使用包含能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物的引物對,擴增crick鏈的dna文庫的靶區域;g)對從watson鏈的dna文庫擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;h)對從crick鏈的dna文庫擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的crick鏈中突變的存在與否;i)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。30.如權利要求29所述的方法,其中產生在所述雙鏈dna片段的各端均具有雙鏈體分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)含有5'磷酸的第一寡核苷酸,第一分子條形碼,和退火至b)包含可降解3'封閉基團的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互補;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端,其中5'
雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子連接在第一分子條形碼上游的雙鏈dna片段上,并在雙鏈dna片段的5'端和5'銜接子之間留下單鏈核酸的缺口;和iv)填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸的缺口,以產生在雙鏈dna片段的各端包含雙鏈分子條形碼的雙鏈dna片段。31.如權利要求29所述的方法,其中從擴增的雙鏈體測序文庫產生watson鏈的dna文庫包括:i)使用由第一引物和第二引物組成的引物對擴增擴增的雙鏈體測序文庫的第一等分部分,其中第一引物能夠與watson鏈雜交,并且其中第一引物包含標簽,以產生具有帶標簽watson鏈的雙鏈擴增產物;ii)使具有帶標簽watson鏈的雙鏈擴增產物變性,以產生單鏈帶標簽watson鏈和單鏈crick鏈;和iii)回收單鏈帶標簽watson鏈,以從擴增的雙鏈體測序文庫產生watson鏈的dna文庫。32.如權利要求29-31中任一項所述的方法,其中所述雙鏈dna模板由來自哺乳動物的樣品獲得,從擴增的雙鏈體測序文庫產生crick鏈的dna文庫包括:i)使用包含第一引物和第二引物的引物對擴增擴增的雙鏈體測序文庫的第二等分部分,其中第一引物能夠與crick鏈雜交,并且其中第一引物包含標簽,以產生具有帶標簽crick鏈的雙鏈擴增產物;ii)使具有帶標簽crick鏈的雙鏈擴增產物變性,以產生單鏈帶標簽crick鏈和單鏈watson鏈;和iii)回收單鏈帶標簽crick鏈,以從擴增的雙鏈體測序文庫產生crick鏈的dna文庫。33.如權利要求29-32中任一項所述的方法,其中,所述哺乳動物是人。34.如權利要求29-33中任一項所述的方法,其中所述方法還包括,在產生在雙鏈dna片段的各端具有雙鏈分子條形碼的雙鏈dna片段之前:使雙鏈dna片段化以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。35.如權利要求29-34中任一項所述的方法,其中將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。36.如權利要求35所述的方法,其中所述連接酶是t4 dna連接酶。37.如權利要求29-36中任一項所述的方法,其中所述降解可降解的3'封閉基團包括使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。38.如權利要求29-37中任一項所述的方法,其中將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化的5'端包括,在連接酶存在下,使所述5'銜接子和從雙鏈dna模板獲得的所述雙鏈dna片段接觸。39.如權利要求38所述的方法,其中所述連接酶是大腸桿菌連接酶。40.如權利要求29-39中任一項所述的方法,其中填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接
觸。41.如權利要求40所述的方法,其中所述聚合酶是taq聚合酶。42.如權利要求29-31中任一項所述的方法,其中將5'銜接子連接至雙鏈dna片段的各5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。43.如權利要求29-42中任一項所述的方法,其中擴增在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段以產生擴增的雙鏈體測序文庫包括:在pcr條件下,使在雙鏈dna片段各端包含雙鏈體分子條形碼的雙鏈dna片段與通用引物對接觸。44.如權利要求43所述的方法,其中所述擴增包括全基因組pcr。45.如權利要求29-44中任一項所述的方法,其中帶標簽引物是生物素化的引物,并且其中所述生物素化的引物能夠產生生物素化的單鏈watson鏈和生物素化的單鏈crick鏈。46.如權利要求45所述的方法,其中所述變性步驟包括:naoh變性、熱變性或兩者的組合。47.如權利要求45或46所述的方法,其中回收步驟包括使帶標簽watson鏈與鏈霉親和素功能化珠接觸并且使帶標簽crick鏈與鏈霉親和素功能化珠接觸。48.如權利要求47所述的方法,其中回收步驟還包括使未帶標簽watson鏈變性和使未帶標簽watson鏈變性。49.如權利要求47或48所述的方法,其中回收步驟還包括從鏈霉親和素功能化珠釋放生物素化單鏈watson鏈和從鏈霉親和素功能化珠釋放生物素化單鏈crick鏈。50.如權利要求29-44中任一項所述的方法,其中帶標簽引物是磷酸化的引物,并且其中所述磷酸化的引物可以產生磷酸化單鏈watson鏈和磷酸化單鏈crick鏈。51.如權利要求50所述的方法,其中所述變性步驟包括λ核酸外切酶消化。52.如權利要求29-51中任一項所述的方法,其中從watson鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括:能夠與所述靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物;并且其中從crick鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物。53.如權利要求29-52中任一項所述的方法,其中所述測序步驟包括雙端測序。54.一種用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段的各端具有雙鏈體分子條形碼;b)從來自在雙鏈dna片段的各端具有雙鏈分子條形碼的雙鏈dna片段的擴增雙鏈體測序文庫產生watson鏈的dna文庫和crick鏈的dna文庫;c)使用由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成的引物對,擴增來自單鏈watson鏈的靶區域;d)使用由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成的引物對,擴增來自單鏈crick鏈的靶區域;e)對從watson鏈的dna文庫擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;f)對從crick鏈的dna文庫擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的
crick鏈中突變的存在與否;g)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。55.如權利要求54所述的方法,其中所述雙鏈dna模板是基因組dna樣品并且產生在雙鏈dna片段的各端均具有雙鏈體分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)含有5'磷酸的第一寡核苷酸,第一分子條形碼,和退火至b)包含可降解3'封閉基團的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互補;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端,其中5'雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子連接在第一分子條形碼上游的雙鏈dna片段上,并在雙鏈dna片段的5'端和5'銜接子之間留下單鏈核酸的缺口;和iv)填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸的缺口,以產生在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段。56.如權利要求54所述的方法,其中所述雙鏈dna模板是無細胞dna樣品,并且從來自在雙鏈dna片段各端均具有雙鏈體分子條形碼的雙鏈dna片段的擴增的雙鏈體測序文庫產生watson鏈的dna文庫和crick鏈的dna文庫包括:i)使用由第一引物和第二引物組成的通用引物對擴增在雙鏈dna片段的各端具有雙鏈體分子條形碼的雙鏈dna片段,其中所述擴增包括,在全基因組pcr條件下,使在雙鏈dna片段的各端均包含雙鏈體分子條形碼的雙鏈dna片段與所述引物對接觸,其中第一引物能夠與watson鏈雜交,并且其中第一引物被生物素化,以產生具有生物素化的watson鏈的雙鏈擴增產物;ii)在生物素化的watson鏈與鏈霉親和素功能化珠結合的條件下,使具有生物素化的watson鏈的雙鏈擴增產物與鏈霉親和素功能化珠接觸;iii)使具有生物素化watson鏈的雙鏈擴增產物變性,以使單鏈生物素化watson鏈與鏈霉親和素功能化珠保持結合并釋放單鏈crick鏈;iv)收集單鏈crick鏈;v)從鏈霉親和素功能化珠釋放單鏈生物素化watson鏈;和vi)收集單鏈生物素化watson鏈。57.如權利要求54-56中任一項所述的方法,其中雙鏈dna模板獲自哺乳動物的樣品。58.如權利要求54-57中任一項所述的方法,其中,所述哺乳動物是人。59.如權利要求54-58中任一項所述的方法,其中所述方法還包括,在產生在雙鏈dna片段的各端具有雙鏈體分子條形碼的雙鏈dna片段之前:使雙鏈dna片段化以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。60.如權利要求54-59中任一項所述的方法,其中將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈
dna模板獲得的雙鏈dna片段接觸。61.如權利要求60所述的方法,其中所述連接酶是t4 dna連接酶。62.如權利要求54-61中任一項所述的方法,其中所述降解可降解的3'封閉基團包括使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。63.如權利要求54-62中任一項所述的方法,其中將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化的5'端包括,在連接酶存在下,使所述5'銜接子和從雙鏈dna模板獲得的所述雙鏈dna片段接觸。64.如權利要求63所述的方法,其中所述連接酶是大腸桿菌連接酶。65.如權利要求54-64中任一項所述的方法,其中填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接觸。66.如權利要求65所述的方法,其中所述聚合酶是taq-b聚合酶。67.如權利要求54-66中任一項所述的方法,其中將5'銜接子連接至雙鏈dna片段的各5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。68.如權利要求54-67中任一項所述的方法,其中擴增在雙鏈dna片段的各端具有雙鏈體分子條形碼的雙鏈dna片段包括:在pcr條件下,使在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段與所述引物對接觸。69.如權利要求68所述的方法,其中擴增包括全基因組pcr。70.如權利要求54-69中任一項所述的方法,其中從watson鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括:能夠與所述靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物;并且其中從crick鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物。71.如權利要求54-70中任一項所述的方法,其中所述測序步驟包括雙端測序或單端測序。72.一種用于檢測從哺乳動物樣品獲得的雙鏈dna模板的靶區域中突變存在與否,以及確定該突變是否均存在于雙鏈dna模板的兩條鏈上的方法,其中所述方法包括:a)產生雙鏈dna片段,其各自在雙鏈dna片段的各端具有雙鏈體分子條形碼;b)使用通用引物對擴增在雙鏈dna片段的各端均具有雙鏈體分子條形碼的雙鏈dna片段,其中所述擴增包括:在全基因組pcr條件下,使在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段接觸所述引物對;c)使用由能夠與靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物組成的引物對,擴增來自各自在雙鏈dna片段的各端上具有雙鏈體分子條形碼的擴增的雙鏈dna片段的watson鏈的靶區域;d)使用由能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物組成的引物對,擴增來自各自在雙鏈dna片段的各端上具有雙鏈體分子條形碼的擴增的雙鏈dna片段的crick鏈的靶區域;e)對從watson鏈擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的watson鏈中突變的存在與否;
f)對從crick鏈擴增的靶區域進行測序,以產生測序讀數并檢測靶區域的crick鏈中突變的存在與否;g)通過各測序讀數中存在的分子條形碼對測序讀數進行分組,以確定突變是否均存在于雙鏈dna模板的兩條鏈上。73.如權利要求72所述的方法,其中所述雙鏈dna模板是基因組dna樣品并且產生在雙鏈dna片段的各端均具有雙鏈分子條形碼的雙鏈dna片段包括:i)將3'雙鏈體銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各3'端,其中3'雙鏈體銜接子包含a)含有5'磷酸的第一寡核苷酸,第一分子條形碼,和退火至b)包含可降解3'封閉基團的第二寡核苷酸的3'寡核苷酸,其中3'寡核苷酸和第二寡核苷酸序列互補;ii)降解可降解的3'封閉基團;iii)將5'銜接子連接至由雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化5'端,其中5'雙鏈體銜接子包含含有第二分子條形碼的寡核苷酸,其中第二分子條形碼不同于第一分子條形碼,其中5'銜接子連接在第一分子條形碼上游的雙鏈dna片段上,并在雙鏈dna片段的5'端和5'銜接子之間留下單鏈核酸的缺口;和iv)填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸的缺口,以產生在雙鏈dna片段的各端包含雙鏈分子條形碼的雙鏈dna片段。74.如權利要求73所述的方法,其中雙鏈dna模板是無細胞dna樣品。75.如權利要求72-74中任一項所述的方法,其中雙鏈dna模板是基因組dna樣品。76.如權利要求72-75中任一項所述的方法,其中,所述哺乳動物是人。77.如權利要求72-76中任一項所述的方法,其中所述方法還包括,在產生在雙鏈dna片段的各端具有雙鏈分子條形碼的雙鏈dna片段之前:使雙鏈dna片段化以產生雙鏈dna片段;使雙鏈dna片段的5'端去磷酸化;和使雙鏈dna片段的末端鈍化。78.如權利要求72-77中任一項所述的方法,其中將3'雙鏈體銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各3'端包括:在連接酶的存在下,使3'雙鏈體銜接子和從雙鏈dna模板獲得的雙鏈dna片段接觸。79.如權利要求50所述的方法,其中所述連接酶是t4 dna連接酶。80.如權利要求72-79中任一項所述的方法,其中所述降解可降解的3'封閉基團包括使3'雙鏈體銜接子與尿嘧啶-dna糖基化酶(udg)接觸。81.如權利要求72-80中任一項所述的方法,其中將5'銜接子連接至從雙鏈dna模板獲得的雙鏈dna片段的各去磷酸化的5'端包括,在連接酶存在下,使所述5'銜接子和從雙鏈dna模板獲得的所述雙鏈dna片段接觸。82.如權利要求81所述的方法,其中所述連接酶是大腸桿菌連接酶。83.如權利要求72-82中任一項所述的方法,其中填充雙鏈dna片段的5'端和5'銜接子之間的單鏈核酸缺口包括:在dna聚合酶和dntp的存在下,使雙鏈dna片段的5'端和5'銜接子接觸。84.如權利要求83所述的方法,其中所述dna聚合酶是taq-b聚合酶。85.如權利要求72-84中任一項所述的方法,其中將5'銜接子連接至雙鏈dna片段的各
5'端和填充雙鏈dna片段的5'端和5'銜接子之間的缺口同時進行。86.如權利要求72-85中任一項所述的方法,其中擴增在雙鏈dna片段的各端具有雙鏈體分子條形碼的雙鏈dna片段包括:在pcr條件下,使在雙鏈dna片段的各端包含雙鏈體分子條形碼的雙鏈dna片段與所述引物對接觸。87.如權利要求86所述的方法,其中所述擴增包括全基因組pcr。88.如權利要求72-87中任一項所述的方法,其中從watson鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括:能夠與所述靶區域雜交的第一引物和能夠與3'雙鏈體銜接子雜交的第二引物;并且其中從crick鏈的dna文庫擴增靶區域還包括使用第二引物對進行第二擴增,所述第二引物對包括能夠與靶區域雜交的第一引物和能夠與5'銜接子雜交的第二引物。89.如權利要求72-88中任一項所述的方法,其中所述測序步驟包括雙端測序。90.一種方法,其包括:a.使部分雙鏈3'銜接子連接至分析物dna樣品中雙鏈dna片段的watson和crick鏈兩者的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含,(i)第一段,(ii)外源性uid序列,(iii)5'銜接子的退火位點,和(iv)通用3'銜接子序列,其包含r2測序引物位點,并且其中所述部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中所述第二鏈可降解;b.通過退火位點使5'銜接子退火至3'銜接子,其中5'銜接子在5'到3'方向上包含:(i)通用5'銜接子序列,其不與通用3'銜接子序列互補,并且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;c.進行切口平移樣反應以使5'銜接子延伸貫穿3'銜接子的外源性uid序列,并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端;d.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;e.確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;f.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;g.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;h.當閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;h.當閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;j.當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變;k.當準確代表crick鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的序列中的突變;和l.當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。91.如權利要求90所述的方法,其中uid家族的各成員還包含相同的內源性uid序列,其中所述內源性uid序列包含來自的雙鏈dna片段的末端。
92.如權利要求91所述的方法,其中包含雙鏈dna片段的末端的內源性uid序列包含至少8、10或15個堿基。93.如權利要求90-92中任一項所述的方法,其中所述外源性uid序列對于各雙鏈dna片段是獨特的。94.如權利要求90-92中任一項所述的方法,其中所述外源性uid序列對于各雙鏈dna片段不是獨特的。95.如權利要求91-94中任一項的方法,其中uid家族的各成員包含相同的內源性uid序列和相同的外源性uid序列。96.如前述權利要求中任一項所述的方法,其中步驟(d)包括不多于11個pcr擴增循環。97.如權利要求96所述的方法,其中步驟(d)包括不多于7個pcr擴增循環。98.如權利要求97所述的方法,其中步驟(d)包括不多于5個pcr擴增循環。99.如前述權利要求中任一項所述的方法,其中步驟(d)包括至少1個pcr擴增循環。100.如前述權利要求中任一項所述的方法,其中在確定序列讀數之前,所述擴增子針對一個或多個靶多核苷酸進行富集。101.如權利要求100所述的方法,其中所述富集包括:a.用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第二watson靶標選擇性引物,其含有靶標選擇性序列,由此產生靶標watson擴增產物;和b.用第一組crick靶標選擇性引物對選擇性擴增包含相同靶多核苷酸序列的crick鏈的擴增子,第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子序列的部分是通用5'銜接子序列的r1測序引物位點,和(ii)第二crick靶標選擇性引物,其與第二watson靶標選擇性引物序列含有相同的靶標選擇性序列,由此產生靶標crick擴增產物。102.如權利要求101所述的方法,其包括從非靶多核苷酸純化靶watson擴增產物和靶crick擴增產物。103.如權利要求102所述的方法,其中所述純化包括將所述靶watson擴增產物和所述靶crick擴增產物附著至固體支持物。104.如權利要求103所述的方法,其中第一watson靶標選擇性引物和第一crick靶標選擇性引物包含親和結合對的第一成員,并且其中固體支持物包含親和結合對的第二成員。105.如權利要求104所述的方法,其中第一成員是生物素并且第二成員是鏈霉親和素。106.如權利要求102-105中任一項所述的方法,其中所述固體支持物包括珠、孔、膜、管、柱、板、瓊脂糖、磁珠或芯片。107.如權利要求102-106中任一項所述的方法,其包括去除未附著至所述固體支持物的多核苷酸。108.如權利要求101-107中任一項所述的方法,其包括:a.用第二組watson靶標選擇性引物進一步擴增靶標watson擴增產物,第二組watson靶標選擇性引物包含(i)第三watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互
補的序列,任選地,其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第四watson靶標選擇性引物,其在5'至3'方向上包含:r1測序引物位點和選擇性針對相同靶標多核苷酸的靶標選擇性序列,由此產生靶標watson文庫成員;b.用第二組crick靶標選擇性引物進一步擴增靶標crick擴增產物,第二組crick靶標選擇性引物包含(i)第三crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地,其中通用5'銜接子序列的部分是通用5'銜接子序列的r1測序引物位點,和(ii)第四crick靶標選擇性引物,其在5'至3'方向上包含:r2測序引物位點和選擇性針對第四watson靶標選擇性引物的相同靶標多核苷酸的靶標選擇性序列,由此產生靶標crick文庫成員。109.如權利要求108所述的方法,其中所述第三watson和crick靶標選擇性引物還包含樣品條形碼序列。110.如權利要求108或109所述的方法,其中第三watson靶標選擇性引物還包含能夠實現與測序儀上的第一移接引物的雜交的第一移接序列,并且其中第三crick靶標選擇性引物還包括能夠實現與測序儀上的第二移接引物的雜交的第二移接序列。111.如權利要求108-110中任一項所述的方法,其中第四watson靶標選擇性引物還包含所述第二移接序列,并且其中第四crick靶標選擇性引物還包含所述第一移接序列。112.如權利要求110或111所述的方法,其中第一移接序列是p7序列并且其中第二移接序列是p5序列。113.如權利要求101-112中任一項所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少50%的靶多核苷酸。114.如權利要求113所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少70%的靶多核苷酸。115.如權利要求114所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少80%的靶多核苷酸。116.如權利要求115所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少90%的靶多核苷酸。117.如權利要求101-112中任一項所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少50%。118.如權利要求117所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少70%。119.如權利要求118所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少80%。120.如權利要求119所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少90%。121.一種方法,其包括:a.將銜接子連接至分析物dna樣品中的雙鏈dna片段,其中銜接子包含雙鏈部分和分叉部分,所述雙鏈部分含有外源uid,且所述分叉部分含有(i)包含r2測序引物位點的單鏈3'銜接子序列和(ii)包含r1測序引物位點的單鏈5'銜接子序列;b.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;
c.用第一組watson靶標選擇性引物對選擇性擴增包含靶多核苷酸序列的watson鏈的擴增子,第一組watson靶標選擇性引物對包含:(i)第一watson靶標選擇性引物,其含有與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)第二watson靶標選擇性引物,其含有靶標選擇性序列,由此產生靶標watson擴增產物;d.用第一組crick靶標選擇性引物對選擇性擴增包含相同靶多核苷酸序列的crick鏈的擴增子,第一組crick靶標選擇性引物對包含:(i)第一crick靶標選擇性引物,其含有與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子序列的部分是通用5'銜接子序列的r1測序引物位點,和(ii)第二crick靶標選擇性引物,其與第二crick靶標選擇性引物序列含有相同的靶標選擇性序列,由此產生靶標crick擴增產物。e.確定靶標watson擴增產物和靶標crick擴增產物的序列讀數;f.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;g.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson亞家族和crick亞家族;h.當閾值百分數的watson家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;i.當閾值百分數的crick家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;和j.當準確代表watson鏈的核苷酸序列和準確代表crick鏈的核苷酸序列均包含相同突變時,鑒定分析物dna片段中的突變。122.如權利要求121所述的方法,其包括從非靶多核苷酸純化靶watson擴增產物和靶crick擴增產物。123.如權利要求122所述的方法,其中所述純化包括將所述靶watson擴增產物和所述靶crick擴增產物附著至固體支持物。124.如權利要求123所述的方法,其中第一watson靶標選擇性引物和第一crick靶標選擇性引物包含親和結合對的第一成員,并且其中固體支持物包含親和結合對的第二成員。125.如權利要求124所述的方法,其中第一成員是生物素并且第二成員是鏈霉親和素。126.如權利要求122-125中任一項所述的方法,其中所述固體支持物包括珠、孔、膜、管、柱、板、瓊脂糖、磁珠或芯片。127.如權利要求122-126中任一項所述的方法,其包括去除未附著至所述固體支持物的多核苷酸。128.如權利要求121-127中任一項所述的方法,其包括:a.用第二組watson靶標選擇性引物進一步擴增靶watson擴增產物,第二組watson靶標選擇性引物包含(i)第三watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)第四watson靶標選擇性引物,其在5'到3'方向上包含r1測序引物位點和選擇性針對相同靶多核苷酸的靶標選擇性序列,由此產生靶標watson文庫成員;b.用第二組crick靶標選擇性引物進一步擴增靶標crick擴增產物,第二組crick靶標選擇性引物包含(i)第三crick靶標選擇性引物,其包含與通用3'銜接子序列的rl測序引物位點互補的序列,和(ii)第四crick靶標選擇性引物,其在5'至3'方向上包含r2測序引物位
點和選擇性針對第四watson靶標選擇性引物的相同靶標多核苷酸的靶標選擇性序列,由此產生靶標crick文庫成員,由此產生靶標crick文庫成員。129.如權利要求128所述的方法,其中所述第三watson和crick靶標選擇性引物還包含樣品條形碼序列。130.如權利要求128或129所述的方法,其中第三watson靶標選擇性引物還包含能夠實現與測序儀上的第一移接引物的雜交的第一移接序列,并且其中第三crick靶標選擇性引物還包括能夠實現與測序儀上的第二移接引物的雜交的第二移接序列。131.如權利要求128-130中任一項所述的方法,其中第四watson靶標選擇性引物還包含所述第二移接序列,并且其中第四crick靶標選擇性引物還包含所述第一移接序列。132.如權利要求130或131所述的方法,其中第一移接序列是p7序列并且其中第二移接序列是p5序列。133.如權利要求121-131中任一項所述的方法,其中所述連接包括將a尾銜接子連接至雙鏈dna片段。134.如權利要求133所述的方法,其中所述連接包括將a尾銜接子連接至中dna片段的兩端。135.如權利要求121-131中任一項所述的方法,其中所述連接包括:a.使部分雙鏈3'銜接子連接至雙鏈dna片段的watson和crick鏈兩者的3'端,其中部分雙鏈3'銜接子的第一鏈在5'至3'方向上包含,(i)第一段,(ii)任選地,外源性uid序列,(iii)5'銜接子的退火位點,和(iv)通用3'銜接子序列,其包含r2測序引物位點,并且其中所述部分雙鏈3'銜接子的第二鏈在5'至3'方向上包含(i)與第一區段互補的區段,和(ii)3'封閉基團,任選地其中所述第二鏈可降解;和b.通過退火位點使5'銜接子退火至3'銜接子,其中5'銜接子在5'到3'方向上包含:(i)通用5'銜接子序列,其不與通用3'銜接子序列互補,并且包含r1測序引物位點,和(ii)與5'銜接子的退火位點互補的序列;和c.進行切口平移樣反應以使5'銜接子延伸貫穿3'銜接子,并將延伸的5'銜接子共價連接至雙鏈dna片段的watson和crick鏈的5'端。136.如權利要求121-135中任一項所述的方法,其中所述uid序列包含內源性uid序列,所述內源性uid序列包含來自所述的雙鏈dna片段的末端。137.如權利要求136所述的方法,其中包含雙鏈dna片段的末端的內源性uid序列包含至少8、10或15個堿基。138.如權利要求121-136中任一項所述的方法,其中所述外源性uid序列對于各雙鏈dna片段是獨特的。139.如權利要求121-136中任一項所述的方法,其中所述外源性uid序列對于各雙鏈dna片段不是獨特的。140.如權利要求136-139中任一項的方法,其中uid家族的各成員包含相同的內源性uid序列和相同的外源性uid序列。141.如權利要求121-140中任一項所述的方法,其中擴增銜接子連接的雙鏈dna片段以產生擴增子包括不多于11個pcr擴增循環。142.如權利要求141所述的方法,其中擴增銜接子連接的雙鏈dna片段以產生擴增子包
括不多于7個pcr擴增循環。143.如權利要求142所述的方法,其中擴增銜接子連接的雙鏈dna片段以產生擴增子包括不多于5個pcr擴增循環。144.前述權利要求中任一項的方法,其中擴增銜接子連接的雙鏈dna片段以產生擴增子包括至少1個pcr擴增循環。145.如權利要求121-143中任一項所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少50%的靶多核苷酸。146.如權利要求145所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少70%的靶多核苷酸。147.如權利要求146所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少80%的靶多核苷酸。148.如權利要求147所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表所述雙鏈dna片段中至少90%的靶多核苷酸。149.如權利要求121-143中任一項所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少50%。150.如權利要求149所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少70%。151.如權利要求150所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少80%。152.如權利要求151所述的方法,其中所述靶watson文庫成員和所述靶crick文庫成員代表總dna片段體的至少90%。153.如前述權利要求中任一項所述的方法,其中序列讀數的確定能夠確定模板分子兩端的序列。154.如權利要求153所述的方法,其中模板分子兩端的確定包括雙端測序。155.如前述權利要求中任一項所述的方法,其中序列讀數的確定包括跨模板長度的單讀數測序以產生所述序列讀數。156.如前述權利要求中任一項所述的方法,其中所述序列讀數的確定包括用大規模平行測序儀測序。157.如權利要求156所述的方法,其中所述大規模平行測序儀被設置為確定來自模板多核苷酸兩端的序列讀數。158.如前述權利要求中任一項所述的方法,其中所述雙鏈dna片段包含長度為約50-600nt的一個或多個片段。159.如前述權利要求中任一項所述的方法,其中雙鏈dna片段包含長度小于2000、小于1000、小于500、小于400、小于300或小于250nt的一個或多個片段。160.如權利要求101-159中任一項所述的方法,其還包括在初始擴增之后和選擇性擴增之前,制備對應于所述擴增子的正義鏈和反義鏈的單鏈(ss)dna文庫。161.如權利要求160所述的方法,其中ssdna文庫制備包括:a.使用兩個引物進行擴增反應,其中兩個引物中只有一個包含親和結合對的第一成員,由此產生擴增產物,所述擴增產物包含含有親和結合對的第一成員的鏈和不含有親和
結合對的第一成員的鏈;b.使擴增產物與固體支持物接觸,其中固體支持物包含親和結合對的第二成員;c.使擴增產物變性,以將包含親和結合對的第一成員的鏈與不包含親和結合對的第一成員的鏈分開;和d.純化包含親和結合對的第一成員的分離的鏈和不包含親和結合對的第一成員的分離的鏈。162.如權利要求161所述的方法,其中親和結合對的第一成員是生物素,親和結合對的第二成員是鏈霉親和素。163.如權利要求160所述的方法,其中ssdna文庫制備包括:a.將擴增子劃分成兩個擴增反應,各擴增反應使用正向引物和反向引物,其中兩個引物中只有一個被磷酸化,由此產生包含磷酸化鏈和非磷酸化鏈的擴增產物;b.使擴增產物與核酸外切酶接觸,所述核酸外切酶選擇性地消化具有5'磷酸的鏈。164.如權利要求163所述的方法,其中:a.在第一擴增反應中,正向引物是磷酸化的,且反向引物是非磷酸化的;b.在第二擴增反應中,反向引物是磷酸化的,且正向引物是非磷酸化的。165.如權利要求163所述的方法,其中所述核酸外切酶是λ核酸外切酶。166.如權利要求163-165中任一項所述的方法,其中所述磷酸化在5'位點。167.如權利要求90-153中任一項所述的方法,其中初始擴增包括:a.采用引物對進行擴增,其中引物對中的兩個引物中只有一個包含親和結合對的第一成員,由此產生擴增產物,其包含含有親和結合對的第一成員的鏈和不含有親和結合對的第一成員的鏈;b.使擴增產物與固體支持物接觸,其中固體支持物包含親和結合對的第二成員;c.使擴增產物變性,以將包含親和結合對的第一成員的鏈與不包含親和結合對的第一成員的鏈分開;和d.純化包含親和結合對的第一成員的分離的鏈和不包含親和結合對的第一成員的分離的鏈。168.如權利要求167所述的方法,其中親和結合對的第一成員是生物素,親和結合對的第二成員是鏈霉親和素。169.如前述權利要求中任一項所述的方法,其中當外源性uid序列位于r2序列下游和r1序列上游時,將uid家族的序列讀數分配給watson亞家族。170.如前述權利要求中任一項所述的方法,其中當外源性uid序列位于r1序列下游和r2序列上游時,將uid家族的序列讀數分配給crick亞家族。171.如前述權利要求中任一項所述的方法,其中當外源性uid序列與r2序列更接近而與r1序列距離更遠時,將uid家族的序列讀數分配給watson亞家族。172.如前述權利要求中任一項所述的方法,其中當外源性uid序列與r1序列更接近而與r2序列距離更遠時,將uid家族的序列讀數分配給crick亞家族。173.如前述權利要求中任一項所述的方法,當外源性uid序列緊鄰r2序列下游或與r2序列距離1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸之內時,將uid家族的讀數序列分配至watson亞家族。
174.如前述權利要求中任一項所述的方法,當外源性uid序列緊鄰r1序列下游或與r2序列距離1-300、1-70、1-60、1-50、1-40、1-30、1-20、1-10或1-5個核苷酸之內時,將uid家族的讀數序列分配至crick亞家族。175.如前述權利要求中任一項所述的方法,其中所述雙鏈dna片段來自生物樣品。176.如權利要求175所述的方法,其中所述生物樣品獲自對象。177.如權利要求176所述的方法,其中所述對象是人對象。178.如權利要求175-177中任一項所述的方法,其中所述生物樣品是流體樣品。179.如權利要求178所述的方法,其中所述流體樣品選自全血、血漿、血清痰、尿、汗液、淚液、腹水、精液和支氣管肺泡灌洗液。180.如權利要求178所述的方法,其中所述流體樣品是無細胞或基本上無細胞的樣品。181.如權利要求175-177中任一項所述的方法,其中所述生物樣品是固體生物樣品。182.如權利要求181所述的方法,其中所述固體生物樣品是腫瘤樣品。183.如前述權利要求中任一項所述的方法,其中所鑒定的突變以0.1%或更低的頻率存在于雙鏈dna片段中。184.如權利要求183所述的方法,其中所述鑒定的突變以0.1%至0.00001%的頻率存在于雙鏈dna片段中。185.如權利要求183所述的方法,其中所述鑒定的突變以0.1%至0.01%的頻率存在于所述雙鏈dna片段中。186.如前述權利要求中任一項所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少50%的包含靶多核苷酸的雙鏈dna片段的watson和crick鏈的序列讀數。187.如權利要求186所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少70%的包含靶多核苷酸的雙鏈dna片段的watson和crick鏈的序列讀數。188.如權利要求187所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少80%的包含靶多核苷酸的雙鏈dna片段的watson和crick鏈的序列讀數。189.如權利要求188所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少90%的包含靶多核苷酸的雙鏈dna片段的watson和crick鏈的序列讀數。190.如前述權利要求中任一項所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少50%的雙鏈dna片段的watson和crick鏈的序列讀數。191.如前述權利要求中任一項所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少70%的雙鏈dna片段的watson和crick鏈的序列讀數。192.如前述權利要求中任一項所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少80%的雙鏈dna片段的watson和crick鏈的序列讀數。193.如前述權利要求中任一項所述的方法,其中確定序列讀數包括確定分析物dna樣品中至少90%的雙鏈dna片段的watson和crick鏈的序列讀數。194.根據前述權利要求中任一項所述的方法,其中與不要求突變在分析物dna片段的watson和crick鏈兩者中均檢測到的鑒定突變的替代方法相比,與根據前述權利要求中任一項所述的方法鑒定分析物dna片段中的一個或多個突變相關聯的錯誤率降低至少2倍,4倍、5倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或100倍。195.如權利要求194所述的方法,其中所述替代方法包括標準分子條碼化或標準的基
于pcr的分子條碼化。196.如權利要求195所述的方法,其中所述替代方法包括:a.將銜接子連接至分析物dna樣品中的雙鏈dna片段,其中銜接子包含獨特的外源性uid;b.進行初始擴增,以擴增銜接子連接的雙鏈dna片段,以產生擴增子;c.確定一個或多個銜接子連接的雙鏈dna片段的一個或多個擴增子的序列讀數;d.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;e.當閾值百分數的uid家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段;和f.當鑒定為準確代表分析物dna片段的序列與缺乏突變的參考序列不同時,鑒定分析物dna片段中的突變。197.如前述權利要求中任一項所述的方法,其中與根據前述權利要求中任一項所述的方法鑒定分析物dna片段中的一個或多個突變相關聯的錯誤率不超過1x10-2
,不超過不超過1x10-3
,不超過1x10-4
,不超過1x10-5
,不超過1x10-6
,不超過5x10-6
,或不超過1x10-7
。198.一種計算機可讀介質,其包含用于分析來自核酸樣品的序列讀數數據的計算機可執行指令,其中所述數據通過前述權利要求中任一項所述的方法產生。199.如權利要求198所述的計算機可讀介質,包括用于以下的可執行指令a.將序列讀取分配到uid家族,其中uid家族的各成員包含相同的外源性uid序列;b.根據外源性uid序列與r1和r2讀數序列的空間關系,將各uid家族的序列讀數分配到watson和crick亞家族;c.當閾值百分數的watson亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的watson鏈;d.當閾值百分數的crick亞家族成員包含某一核苷酸序列時,將該序列鑒定為準確代表分析物dna片段的crick鏈;e.當準確代表watson鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表watson鏈的序列中的突變;f.當準確代表crick鏈的核苷酸序列與缺乏突變的參考序列不同時,鑒定該準確代表crick鏈的序列中的突變;g.當準確代表watson鏈的核苷酸序列中的突變和準確代表crick鏈的核苷酸序列中的突變為相同突變時,鑒定分析物dna片段中的突變。200.如權利要求199所述的計算機可讀介質,其包括在外源性uid序列緊鄰r2測序引物結合位點下游或距離r2測序引物結合位點1-300個核苷酸內時,將uid家族成員分配至watson亞家族。201.如前述權利要求中任一項所述的計算機可讀介質,其包括當外源性uid序列緊鄰r1測序引物結合位點下游或距離r1測序引物結合位點1-300個核苷酸內時,將uid家族成員分配給crick亞家族。202.前述權利要求中任一項所述的計算機可讀介質,其包括將所述序列讀數映射到參考基因組。203.如權利要求202所述的計算機可讀介質,其中所述參考基因組是人類參考基因組。
204.如前述權利要求中任一項所述的計算機可讀介質,其還包括計算機可執行指令以基于所述樣品中突變的存在、不存在或突變量來生成選項的報告。205.如前述權利要求中任一項所述的計算機可讀介質,其還包括能夠通過網絡傳輸所述數據的計算機可執行代碼。206.一種計算機系統,其包括:a.存儲單元,其被設置為接收來自核酸樣品的序列數據,其中所述數據通過前述權利要求中任一項所述的方法產生;b.一種可通信地耦合到所述存儲單元的處理器,其中所述處理器包括根據前述權利要求中任一項所述的計算機可讀介質。207.如權利要求206所述的計算機系統,其還包括被設置為將所述數據傳送到所述存儲器單元的測序系統。208.如前述權利要求中任一項所述的計算機系統,其還包括用戶界面,所述用戶界面被設置為向用戶傳達或顯示所述報告。209.如前述權利要求中任一項所述的計算機系統,其還包括數字處理器,所述數字處理器被設置為通過網絡傳輸所述數據分析的結果。210.一種系統,其包括:a.來自生物樣品的雙鏈dna片段;b.如前述權利要求中任一項所述的3'銜接子;c.如前述權利要求中任一項所述的5'銜接子;d.用于進行切口平移樣反應的試劑;e.用于針對一種或多種靶多核苷酸富集擴增子的試劑;和f.測序系統。211.如權利要求210所述的系統,其還包括如前述權利要求中任一項所述的計算機系統。212.一種試劑盒,包括:a.第一組watson靶標選擇性引物對,其包含(i)一個或多個第一watson靶標選擇性引物,其包含與通用3'銜接子序列的部分互補的序列,任選地其中通用3'銜接子序列的部分是通用3'銜接子序列的r2測序引物位點,和(ii)一個或多個第二watson靶標選擇性引物,所述一個或多個第二watson靶標選擇性引物各自包含靶標選擇性序列;b.第一組crick靶標選擇性引物對,其包含(i)一個或多個crick靶標選擇性引物,其包含與通用5'銜接子序列的部分互補的序列,任選地其中通用5'銜接子的部分序列是通用5'銜接子序列的r1測序引物位點,和(ii)一個或多個第二crick靶標選擇性引物,所述一個或多個第二crick靶標選擇性引物各自與第二watson靶標選擇性引物序列包含相同的靶標選擇性序列;c.第二組watson靶標選擇性引物對,其包含(i)一個或多個第三watson靶標選擇性引物,其包含與通用3'銜接子序列的r2測序引物位點互補的序列,和(ii)一個或多個第四watson靶標選擇性引物,所述一個或多個第四watson靶標選擇性引物各自在5'至3'方向上包含r1測序引物位點選擇性針對相同靶多核苷酸的靶標選擇性序列;和d.第二組crick靶標選擇性引物,其包含(i)一個或多個第三crick靶標選擇性引物,其
包含與通用3'銜接子序列的r1測序引物位點互補的序列,和(ii)一個或多個第四crick靶-選擇性引物,所述一個或多個第四crick靶標選擇性引物各自在5'至3'方向上包含r2測序引物位點和選擇性針對相同靶多核苷酸的靶標選擇性序列。
技術總結
本文提供了用于測序文庫制備和測序工作流程(例如,用于鑒定突變)的系統、試劑盒、組合物和方法。在某些實施方式中,本文提供了對兩條模板鏈等同地進行條碼化的系統和方法,以及不要求雜交捕獲的各鏈的基于PCR的富集。不要求雜交捕獲的各鏈的基于PCR的富集。
