多核苷酸文库的制作方法

1.本发明涉及包含多种多核苷酸序列、长度至少50bp的双链(ds)多核苷酸文库成员的文库，以及使用多样性寡核苷酸(oligonucleotide)文库合成双链(ds)多核苷酸文库的方法。

背景技术：

2.多核苷酸的人工合成目前通过两种不一定排斥的方法来实现：
3.多核苷酸合成的第一类方法是“化学合成法”。这是一种通过利用亚磷酰胺化学依次连接核苷酸来构建单链dna(或rna)分子的方法(beaucage and caruthers,1981)。这种方法可以构建具有任何复杂性、特定的、预先确定的模板序列的dna分子。化学方法因其成本低、易于平行化而广受欢迎，并且在某些实施中允许在芯片中高通量生产dna或rna(leproust et al.,2010)。这些方法的主要和最大缺点是反应的产量随合成模板的长度增加而急剧下降，从而通常将分子的大小限制在大约200个碱基对(bp或bps)。
4.dna合成的第二类方法是“组装方法”，它包括以特定方式生化连接不同大小和不同序列的寡核苷酸和多核苷酸，从而获得具有所需目标序列的更大分子。这些寡核苷酸的来源通常是化学合成，但也可以是天然存在的dna的酶消化产物。这些组装方法通常以产品名称“基因合成”进行商业化，术语“基因合成”是合成较大但不一定具有基因大小长度的多核苷酸链(1k-5k bp)的换喻词。文献中报道了将较小的多核苷酸组装成目标序列的几种方法(stemmer et al.,1995；smith et al.,2003；engler et al.,2008；gibson et al.,2009；horspool 2010)。
5.在过去几年中，“gibson组装”(gibson et al.,2009)已成为连接多个线性ds dna片段(大小范围从大约30bp到数个kbp)的流行方法。该方法包括连接许多具有成对重叠序列同源性的ds dna片段。片段之间的重叠同源区范围可介于大约15至80bp之间。不需要突出端，因为该方法的酶促机制负责产生突出端、补平间隙并正确连接片段。这种酶促机制采用三种酶：t5核酸外切酶、phusion dna聚合酶和taq dna连接酶，这三种酶都在等温反应中使用。这种方法简单通用，可以生产线性和环状ds dna产物。这种方法的缺点是其对自动化的限制，不适合大规模商业使用。
6.构建具有数千个碱基对的dna分子的共同主题是化学合成高达几百个核苷酸或碱基对的小片段，然后通过克隆、连接、pca或gibson组装将这些片段连接在一起。
7.一些方法表明可能通过化学合成预先构建涵盖可能遗传空间或其所需子集的寡核苷酸的文库。
8.chari和church建议采用合成的寡核苷酸(200个碱基)产生短dna片段，并在酵母和大肠杆菌中使用体内同源重组组装成大的dna片段(chari and church,2017)。
9.wo 2009/138954a2公开了一种通过固相组装合成较大多核苷酸的方法，其中根据需要化学合成较大多核苷酸组装所需的规定亚基。
10.pedersen等人(us2016/0215316a1)建议使用包含所有可能六聚体空间的文库(n
＝4096个寡核苷酸)。然后，使用寡核苷酸接头组装六个碱基对长的寡核苷酸，从而形成多核苷酸。寡核苷酸的串联和大规模dna合成存在一定的局限性。由于需要适当设计的文库和手动方案(例如克隆)、使用大量试剂，因此这些方法非常耗时。这些反过来又大幅增加了合成成本，随着目标序列长度增加，每bp的成本增加。
11.wo2002/081490公开了一种根据数据库(例如人类基因组数据库)中可用的信息，通过计算机指导多核苷酸组装，利用基因组序列信息结果的方法。具体地，它公开了一种产生目标多核苷酸的方法，其中通过计算机程序将目标多核苷酸解析为一系列连续的寡核苷酸，所述目标多核苷酸是通过以单向或双向方式将从头合成的寡核苷酸顺序添加到起始寡核苷酸中而产生的。
12.wo2004/033619还公开了一种利用基因组序列信息的结果进行计算机指导的多核苷酸组装的方法。
13.wo99/14318公开了一种使用具有互补序列和突出端的寡核苷酸重叠对产生目标多核苷酸的方法。寡核苷酸依次退火以产生双链dna片段。
14.wo2019/073072公开了一种使用短寡核苷酸的多样性文库合成具有预定序列的双链多核苷酸的方法。
15.wo2013/017950公开了一种用于组装和克隆多核苷酸的方法，其使用包括在固体载体上顺序组装多核苷酸分子的方法。
16.wo2012/084923公开了一种具有不同长度多核苷酸片段的文库，以鉴定具有改进特性的片段。
17.尽管最近几年合成dna的技术取得了长足的进步，但在dna体积、通量、纯度，特别长度方面仍然存在严格的限制。

技术实现要素：

18.本发明的目的是提供合成多种双链(ds)多核苷酸的改进方法和工具。
19.所述目的由本发明权利要求的主题解决，并在本文中进一步描述。
20.根据本发明，提供了包含多种多核苷酸核心序列和相同突出端的至少12bp长度的双链(ds)多核苷酸文库成员的文库。
21.具体地，所述突出端彼此不同。
22.具体地，所述突出端彼此不互补。
23.具体地，每个文库成员包含相同的第一突出端序列和相同的第二突出端序列。具体地，所述第一突出端序列和第二突出端序列彼此不互补。
24.根据一个具体实施方案，所述突出端在前导链和后随链上，并且其中每个文库成员包含：
25.a)相同的第一突出端序列，即前导链(leading strand)的5’突出端，以及相同的第二突出端序列，即后随链(lagging strand)的5’突出端；或者
26.b)相同的第一突出端序列，即前导链的3’突出端，以及相同的第二突出端序列，即后随链的3’突出端；
27.其中所述第一突出端序列和第二突出端序列彼此不互补。
28.有利的是，本文所描述的多种ds多核苷酸可以一起合并和处理，因为它们包含不
互补的相同突出端。因此，避免了不同文库成员的退火和连接。
29.具体地，每个文库成员的长度是至少12、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290或300个bp，高达320、350、380、400、500、600、700、800、900、1000或2000个碱基对或甚至更多个bp。
30.具体地，每个文库成员的长度相同或可变，或者可以具有与模板长度+/-5、10、15或20bp的相同长度。
31.具体地，所述多核苷酸是dna分子。
32.具体地，所述突出端在文库内是相同的。
33.具体地，每个所述文库成员具有相同的前导链5’突出端或3’突出端。
34.具体地，每个所述文库成员具有相同的后随链5’突出端或3’突出端。
35.具体地，前导链的所述突出端与后随链的所述突出端不同。
36.根据一个具体的实施方案，所述前导链包含5’突出端，并且所述后随链包含5’突出端。
37.根据另一个具体的实施方案，所述前导链包含3’突出端，并且所述后随链包含3’突出端。
38.根据另一个具体的实施方案，所述前导链包含5’突出端和3’突出端。在这种情况下，后随链不包含突出端。
39.根据另一个具体的实施方案，所述后随链包含5’突出端和3’突出端。在这种情况下，前导链不包含突出端。
40.为了比较所述(或所有)文库成员的序列，具体地，仅使用一个模板序列。
41.具体地，文库成员的所述核心序列包含至少一个相互比较或与模板序列比较的突变，从而产生多样性。具体地，所述突变是点突变，特别是将一个文库成员与另一个文库成员区分开和/或将文库成员与模板区分开的突变。
42.具体地，与模板序列相比，多核苷酸序列内点突变的数量是有限的，例如，其中点突变的数量是1、2、3、4、5、6、7、8、9或10。
43.具体地，5’突出端和3’突出端的长度至少是4、5、6、7或8个核苷酸，优选至多15、14、13、12、11、10、9或8个核苷酸，优选4-8个核苷酸。
44.具体地，每个所述文库成员包含选自由磷酸化、甲基化、生物素化或与荧光团或猝灭剂的连接组成的组的相同修饰。
45.具体地，每个所述文库成员被固定，优选通过将5’突出端和3’突出端之中的仅一个突出端与固体载体结合而固定。
46.具体地，所述文库成员被包含在一个文库容器中，或被包含在多个空间上不同的文库容器中。
47.根据一个具体的实施方案，所述文库成员包含在混合物中，所述混合物包含在一个文库容器中。
48.根据一个具体实施方案，所述文库成员以阵列形式提供，其中每个文库成员包含在空间上不同的文库容器中。
49.具体地，每个所述文库成员具有30、31、32、33、34、35、36、37、38、39、40、41、42、43、
44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％与模板相同的序列。优选地，每个所述文库成员与长度和文库成员相同的模板相比具有至少30、31、32、33、34或35％的序列一致性。
50.具体地，所述模板具有预定义的长度和感兴趣的序列。
51.根据一个具体方面，本发明提供了产生本文所述文库的方法，包括以下步骤：
52.a)提供模板核苷酸序列；和
53.b)合成多种长度至少是12bp的双链(ds)多核苷酸，其包含多样性的核心序列并包含相同的(所有文库成员相同)非互补突出端(意味着前导链的突出端与后随链的突出端不互补)，其中每个所述双链多核苷酸至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99％与所述模板相同，从而获得ds多核苷酸文库成员的文库。具体地，每个所述ds多核苷酸包含相同的突出端。优选地，每个所述ds多核苷酸包含：
54.a)相同的第一突出端序列，即前导链的5’突出端，以及相同的第二突出端序列，即后随链的5’突出端；或者
55.b)相同的第一突出端序列，即前导链的3’突出端，以及相同的第二突出端序列，即后随链的3’突出端；
56.其中所述第一突出端序列和第二突出端序列彼此不互补。具体实施方案采用修饰，例如，在富集或分离文库成员之前，结合、标记或固定文库成员。具体地，通过聚合酶链反应(pcr)富集双链多核苷酸，从而获得包含所述突出端序列的ds多核苷酸的拷贝。
57.具体地，所述ds多核苷酸在所述文库中富集，从而增加以本文进一步所描述文库成员的一个或多个(区别)特征为特征的ds多核苷酸分子的数量，该数量超过不具有所述特征的ds多核苷酸分子的数量。具体地，富集通过文库成员序列的扩增实现。
58.具体地，文库成员通过扩增方法富集，例如，采用使用聚合酶的酶促反应，例如聚合酶链反应(pcr)。
59.根据一个具体实施方案，文库成员使用引物对，特别是至少两组不同的引物对通过pcr富集。
60.具体地，本文所描述的多核苷酸文库成员使用以下项富集：
61.a)第一引物对，包含至少与第一链突出端互补的正向引物，以及与第二链核心序列的末端序列互补、不包括其突出端的反向引物；和
62.b)第二引物对，包含至少与第一链核心序列的末端序列互补、不包括其突出端的正向引物，以及至少与第二链的突出端互补的反向引物；和
63.产生和任选分离两条链上都包含突出端的扩增产物。
64.根据一个具体实施例，在相同的扩增反应(例如实施方案a或实施方案b)中使用第一和第二引物对。
65.根据实施方案a：
66.a)第一引物对包含至少与前导链突出端互补的正向引物，以及与前导链核心序列的3'末端序列互补，从而不包括后随链突出端的反向引物。换言之，反向引物与多核苷酸序
列从前导链3'末端最后一个核苷酸开始的部分杂交。
67.b)第二引物对包含与后随链的突出端序列互补，但不包括前导链突出端的正向引物，以及与后随链核心序列的末端序列互补，从而不包括前导链突出端的反向引物。换言之，反向引物与多核苷酸序列从后随链3'末端最后一个核苷酸开始的部分杂交。
68.根据实施方案b：
69.a)第一引物对包含至少与前导链核心序列的序列互补，从而不包括后随链突出端的正向引物，以及与前导链突出端互补的反向引物。换言之，正向引物与多核苷酸序列从前导链第一个核苷酸开始的部分杂交。
70.b)第二引物对包含至少与后随链核心序列的序列互补，从而不包括前导链突出端的正向引物，以及与后随链突出端互补的反向引物。换言之，正向引物与多核苷酸序列从后随链第一个核苷酸开始的部分杂交。
71.通过使用实施方案a或b的这种第一和第二引物对，产生扩增产物的混合物，其中大约20、21、22、23、24或25％的扩增序列产生是扩增文库成员的ds多核苷酸的精确拷贝，任选将它们与其他的分离。
72.本文进一步提供了产生本文所描述的多核苷酸文库的方法，所述文库富含预定文库成员，所述预定文库成员是由第一链和互补第二链组成的双链多核苷酸，每条链均包含多核苷酸核心序列和突出端，所述方法通过：
73.(i)采用聚合酶产生扩增产物的酶促反应扩增预定文库成员，并且：
74.a)第一引物对，包含至少与第一链突出端互补的正向引物，以及与第二链核心序列的末端序列互补、不包括其突出端的反向引物；和
75.b)第二引物对，包含至少与第一链核心序列的末端序列互补、不包括其突出端的正向引物，以及至少与第二链的突出端互补的反向引物；和
76.(ii)产生并任选分离所述扩增产物；和
77.(iii)产生富含所述扩增产物的文库。
78.具体地，酶促反应是聚合酶链反应(pcr)。
79.根据产生富含预定文库成员的多核苷酸文库的方法的一个具体实施方案，所述预定文库成员在所述第一和/或第二链的5'-末端包含标签，优选亲和标签，其中每条带标签的链通过所述标签固定在磁珠上。具体地，预定文库成员在所述第一和/或第二链的3'-末端包含标签，优选亲和标签。
80.根据一个具体的实施方案，多种ds多核苷酸通过以下方式合成：部分退火匹配的单链寡核苷酸(ss寡核苷酸)的文库，从而获得每个都具有相同突出端的双链寡核苷酸(ds寡核苷酸)的第一文库，并且任选进一步退火以及与具有与第一文库的突出端匹配的突出端的ds寡核苷酸连接，从而获得双链寡核苷酸的第二文库。具体地，所述ds寡核苷酸的第二文库是如本文进一步所描述的双链(ds)多核苷酸文库成员的文库。
81.具体地，
82.a)ss寡核苷酸文库包含长度至少是6、7、8、9或10nt，高达50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850或900或更多个nt的ss寡核苷酸；和/或
83.b)第一ds寡核苷酸文库包含长度至少是6、7、8、9或10bp，高达50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850或900或更多bp的ds寡核苷酸；和/
或
84.c)第二ds寡核苷酸文库包含长度至少是12、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290或300bp，高达320、350、380、400、450、500、550、600、650、700、750、800、850、900、950、1000、1500或2000或更多bp的ds寡核苷酸。
85.根据一个具体方面，本发明提供本文所述文库在合成多种目标ds多核苷酸的方法中的用途，其中通过将所述文库成员与具有与文库成员突出端匹配的突出端的ds寡核苷酸组装，使每个目标ds多核苷酸都比文库成员长，从而得到目标ds多核苷酸的文库。
86.根据一个具体方面，本发明提供了一种合成本文所述包含多种目标ds寡核苷酸的文库的方法，包括以下步骤：
87.a)在阵列装置内提供包含多样性寡核苷酸文库成员的寡核苷酸文库，其中每个文库成员具有不同的核苷酸序列，并包含在水溶液中的单独文库容器中，所述多样性包括具有至少一个突出端的单链寡核苷酸(ss寡核苷酸)和双链寡核苷酸(ds寡核苷酸)，涵盖至少10.000对匹配的寡核苷酸，
88.b)在第一步中，使用液体处理器将至少第一对匹配的寡核苷酸从所述文库转移到第一反应容器中，并组装匹配的寡核苷酸，从而获得包含至少一个突出端的第一反应产物，
89.c)在第二步和任选其它步骤中，使用液体处理器将至少第二对和任选其它对匹配的寡核苷酸从所述文库分别转移到第二和任选其它反应容器中，并组装匹配的寡核苷酸，从而获得分别包含至少一个突出端的第二和任选其它反应产物，
90.d)在预定的工作流程中组装所述第一、第二和任选其它反应产物，从而产生具有至少12bp长度和突出端的所述目标ds多核苷酸，
91.其中ds多核苷酸文库是通过组装多种所述第一、第二或任选其它反应产物中的一种或多种而产生的，所述多种包括核心序列的多样性和相同的非互补突出端。具体地，每个所述ds多核苷酸包含相同的非互补突出端，其中
92.a)相同的第一突出端序列，即前导链的5’突出端，以及相同的第二突出端序列，即后随链的5’突出端；或者
93.b)相同的第一突出端序列，即前导链的3’突出端，以及相同的第二突出端序列，即后随链的3’突出端；
94.其中所述第一和第二突出端序列彼此不互补。
95.具体地，所述双链多核苷酸文库的特征在于本文进一步描述的特征。
96.具体地，
97.a)所述ss寡核苷酸文库成员的长度至少是6、7、8、9或10nt，高达50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850或900或更多个nt；和/或
98.b)所述ds寡核苷酸文库成员的长度至少是6、7、8、9或10个bp，高达50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850或900或更多个bp；和/或
99.c)所述ds多核苷酸文库成员的长度是至少是12、20、30、40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290或300个bp，高达320、350、380、450、500、550、600、650、700、750、800、850、900、950、1000、1500或2000个碱基对或更多个bp；和/或
100.d)其中突出端的长度小于文库成员长度的50、49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、32、31、30、29、28、27、26、25、24、23、22、21或20或10％，特别是，所述5’和3’末端突出端序列的长度是4、5、6、7或8个核苷酸中的任一个长度，优选高达15、14、13、12、11、10、9或8个核苷酸中的任一个长度，优选4-8个核苷酸长度。
101.具体地，所述多核苷酸序列至少30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79或80％与模板相同。具体地，所述多核苷酸序列至少80、81、82、83、84％，优选至少85、86、87、88、89、90、91、92、93、94、95、96、97、98％或99％与模板(优选目标ds多核苷酸模板)相同。
102.具体地，所述组装通过退火或通过连接反应进行。
103.根据一个具体的实施例，本文所述的方法包括合成具有预定序列的目标双链多核苷酸的方法步骤，包括：
104.a)在阵列装置内提供包含多样性寡核苷酸文库成员的寡核苷酸文库，其中每个文库成员具有不同的核苷酸序列，并包含在水溶液中的单独文库容器中，所述多样性包括具有至少一个突出端的单链寡核苷酸(ss寡核苷酸)和双链寡核苷酸(ds寡核苷酸)，涵盖至少10.000对匹配的寡核苷酸，
105.b)在第一步中，使用液体处理器将至少第一对匹配的寡核苷酸从所述文库转移到第一反应容器中，并组装匹配的寡核苷酸，从而获得包含至少一个突出端的第一反应产物，
106.c)在第二步和其它步骤中，使用液体处理器将至少第二对和其它对匹配的寡核苷酸从所述文库分别转移到第二和其它反应容器中，并组装匹配的寡核苷酸，从而获得分别包含至少一个突出端的第二和其它反应产物，
107.d)在预定的工作流程中组装所述第一、第二和其它反应产物，从而产生具有突出端的所述目标ds多核苷酸，任选随后进行最终步骤以制备平末端，
108.其中所述匹配的寡核苷酸对和组装工作流程使用算法确定，以产生所述目标ds多核苷酸。
109.具体地，使用相同的寡核苷酸文库合成一系列不同的目标ds多核苷酸。具体地，所述不同的目标ds多核苷酸具有不同的序列，并且不是彼此的片段。
110.具体地，所述不同的目标ds多核苷酸具有小于50％，优选小于30％的序列一致性。具体地，所述不同的目标ds多核苷酸具有小于49、48、47、46、45、44、43、42、41、40、39、38、37、36、35、34、33、32、31、30、29、28、27、26、25、24、23、22或21％的序列一致性。甚至更优选的是，所述不同的目标ds多核苷酸彼此具有小于20或10％，具体地，小于19、18、17、16、15、14、13、12、11、9、8、7、6或5％的序列一致性。
111.具体地，所述目标ds多核苷酸是dna分子。
112.具体地，执行一个或多个扩增(例如通过执行pcr)步骤，优选25个循环。具体地，所述pcr采用hifi热稳定dna聚合酶(phusion或q5)及与组装片段的每个突出端互补的两个寡核苷酸，并且所述互补寡核苷酸包括typeiis限制酶(bfuai)的切割位点。具体地，扩增产物与typeiis限制酶接触，将原始突出端引入到扩增片段中。具体地，所述扩增步骤在第一、第二、第三或其它组装步骤中的任一个或多个步骤之后进行，其中分别扩增第一、第二、第三或其它反应产物。具体地，所述扩增步骤在目标双链多核苷酸组装之后进行，其中目标双链
多核苷酸被扩增。
113.具体地，预定工作流程(也称为“组装工作流程”)是一个分层工作流程，其具体特征如下：
114.分层工作流程应指的是平行或单独产生作为中间体产生的中间组装多核苷酸匹配对，每个中间体在单独的反应隔室中组装，这些中间体进一步组装，从而获得目标多核苷酸或目标多核苷酸的一部分。根据一个具体实例，在第一步中，匹配的寡核苷酸对在平行独立的反应隔室中组合，从而在每个反应隔室中产生具有试剂寡核苷酸组合大小及与试剂寡核苷酸相同突出端长度的多核苷酸。在第二步和随后的步骤中，通过使用先前的产物或其他寡核苷酸作为试剂，反复重复该过程，从而在每一层中产生具有试剂多核苷酸组合大小且保持相同突出端大小的多核苷酸。如果最后一步之前的步骤具有三个隔室，首先仅使携带匹配对的两个隔室反应，然后该产物与最后一个隔室之间的进一步反应步骤将产生目标多核苷酸。或者，如果三个隔室包含总共只能形成两个匹配对的多核苷酸，则将三个隔室组合起来产生目标多核苷酸。
115.具体地，组装工作流程是自动化的。具体地，自动化工作流程采用微流控处理器，其能够将一个或多个隔室的全部或部分内容物串行或并行转移到其他可能为空或可能不为空的其它预先指定的隔室中。
116.具体地，组装工作流程是序列相关的，这意味着特定的顺序由模板的序列决定，这样当匹配对在工作流程的任何步骤中组合时，它们会产生目标ds多核苷酸的较大部分或最终产生目标双链多核苷酸。具体地，工作流程根据模板序列或目标ds多核苷酸的序列确定。
117.具体地，采用本文所述的方法，可以低成本高速产生长度高达1.000、5.000、10.000或10.0000个碱基对(bp)或甚至更长的多核苷酸。具体地，采用本文所述的双链多核苷酸文库和方法，可以低成本高速产生长度高达1.000、5.000、10.000或100.000个碱基对(bp)或甚至更长的多种目标多核苷酸。
118.本文所述的方法具体包括以下组成部分：
119.a)预先构建的寡核苷酸文库，其可以设计为涵盖整个基因序列空间，并在空间中组织寡核苷酸，以便液体处理器或微流控装置有效访问。如果文库的空间组织减少了访问必要的寡核苷酸所需的时间，则所述访问被认为是有效的。具体地，如果所述访问减少或缩短了文库的总处理时间，则认为所述访问是有效的，其中所述总处理时间是在目标ds多核苷酸合成期间处理文库成员所花费的时间。具体地，如果与其他组织相比，特别是空间随机放置的寡核苷酸或字典排序的相比，如果所述访问减少了操作成本或减少了与访问寡核苷酸相关的必要消耗品的数量，则所述访问被进一步认为是有效的。具体地，如果与随机或按字典顺序组织的文库的总处理时间相比，所述文库的总处理时间至少减少5、10、15、20、25或50％，则访问被认为是有效的。
120.b)由算法确定的特定序列的分层组装工作流程，以产生无错配的长多核苷酸。
121.本文所述的寡核苷酸文库具体包括单链(ss)和双链(ds)寡核苷酸(oligo)，也称为寡核苷酸文库成员。这些文库成员是预先构建的，在存储稳定的解决方案中提供，并位于阵列装置内的规定位置。文库的寡核苷酸被合成并在需要前存储在阵列装置中。
122.具体地，寡核苷酸是核苷酸单体的线性聚合物，包括“a”表示脱氧腺苷，“t”表示脱氧胸苷，“g”表示脱氧鸟苷，“c”表示脱氧胞苷或除了常规碱基(a、g、c、t)之外，可以包括核
苷酸类似物，例如肌苷和2'-脱氧肌苷及其衍生物(例如7'-脱氮杂-2'-脱氧肌苷、2'-脱氮杂-2'-脱氧肌苷)、唑-(例如苯并咪唑、吲哚、5-氟吲哚)或硝基唑类似物(例如3-硝基吡咯、5-硝基吲哚、5-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑)及其衍生物、无环糖类似物(例如由次黄嘌呤或吲唑衍生物衍生的那些、3-硝基咪唑或咪唑-4,5-二甲酰胺)、通用碱基类似物的5'-三磷酸酯(例如衍生自吲哚衍生物)、异喹诺酮及其衍生物(例如甲基异喹诺酮、7-丙炔基异喹诺酮)、氢键结合的通用碱基类似物(例如吡咯并嘧啶)和其他化学修饰的碱基(例如二氨基嘌呤、5-甲基胞嘧啶、异鸟嘌呤、5-甲基-异胞嘧啶、k-2'-脱氧核糖、p-2'-脱氧核糖)或例如可以具有不同的碱基配对偏好，并且可以以相似严格度/概率与一种以上天然核碱基配对的其他修饰碱基。单体通过磷酸二酯键或在某些情况下通过肽基键或硫代磷酸酯键或通过任何其他类型的核苷酸键连接。
123.具体地，寡核苷酸文库的单链dna寡核苷酸文库成员(本文简称为ss寡核苷酸)是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)；核苷类似物(例如，肌苷，或5-甲基异胞嘧啶、或3-硝基吡咯、5-硝基吲哚、吡咯烷、4-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、4-氨基苯并咪唑、5-硝基吲唑、3-硝基咪唑、5-氨基吲哚、苯并咪唑、5-氟吲哚、吲哚、甲基异喹诺酮、吡咯并嘧啶、7-丙炔基异喹诺酮、2-氨基腺苷、2-硫代胸苷、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、c5-溴尿苷、c5-氟尿苷、c5-碘尿苷、c5-丙炔基-尿苷、c5-丙炔基-胞苷、c5-甲基胞苷、2-氨基-腺苷、7-脱氮杂-腺苷、7-脱氮杂-鸟苷、8-氧代腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤和2-硫代胞苷)；化学或生物修饰的碱基(包括甲基化碱基)；插入的碱基；修饰的糖(例如，核糖、2'-脱氧核糖、阿拉伯糖和己糖)；和/或修饰的磷酸酯基团(例如，硫代磷酸酯和5'-n-亚磷酰胺键)。
124.具体地，双链dna寡核苷酸文库成员(本文简称为ds寡核苷酸)是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷)；核苷类似物(例如，肌苷，或5-甲基异胞嘧啶、或3-硝基吡咯、5-硝基吲哚、吡咯烷、4-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、4-氨基苯并咪唑、5-硝基吲唑、3-硝基咪唑、5-氨基吲哚、苯并咪唑、5-氟吲哚、吲哚、甲基异喹诺酮、吡咯并嘧啶、7-丙炔基异喹诺酮、2-氨基腺苷、2-硫代胸苷、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、c5-溴尿苷、c5-氟尿苷、c5-碘尿苷、c5-丙炔基-尿苷、c5-丙炔基-胞苷、c5-甲基胞苷、2-氨基-腺苷、7-脱氮杂-腺苷、7-脱氮杂-鸟苷、8-氧代腺苷、8-氧代鸟苷、0(6)-甲基鸟嘌呤和2-硫代胞苷)；化学或生物修饰的碱基(包括甲基化碱基)；插入的碱基；修饰的糖(例如，核糖、2'-脱氧核糖、阿拉伯糖和己糖)；和/或修饰的磷酸酯基团(例如，硫代磷酸酯和5'-n-亚磷酰胺键)，它们是由完全或部分互补的单链寡核苷酸退火形成。
125.具体地，寡核苷酸文库成员可以通过任何化学多核苷酸(寡核苷酸)合成方法产生，包括h-膦酸酯、磷酸二酯、磷酸三酯或亚磷酸三酯合成方法，或通过任何大规模平行寡核苷酸合成方法，例如基于微阵列或微流控的寡核苷酸合成方法(例如，如参考文献(gao et al.2001)(leproust et al.2010)(bonde et al.2014a)中所描述的)产生。
126.具体地，寡核苷酸文库成员可以通过任何酶促多核苷酸(寡核苷酸)合成方法产生，包括通过dna聚合酶蛋白或通过逆转录酶蛋白合成ssdna，其产生杂交rna-ssdna分子。具体地，酶促多核苷酸合成反应可在体内或体外发生。
127.具体地，寡核苷酸文库成员是通过任何多核苷酸合成方法从核苷酸结构单元合成
寡核苷酸序列产生的，其中所述结构单元由“a”表示脱氧腺苷，“t”表示脱氧胸苷，“g”表示脱氧鸟苷，“c”表示脱氧胞苷或其他天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷)，核苷酸类似物，例如肌苷和2'-脱氧肌苷及其衍生物(例如7'-脱氮杂-2'-脱氧肌苷、2'-脱氮杂-2'-脱氧肌苷)、唑-(例如苯并咪唑、吲哚、5-氟吲哚)或硝基唑类似物(例如3-硝基吡咯、5-硝基吲哚、5-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑)及其衍生物、无环糖类似物(例如由次黄嘌呤或吲唑衍生物衍生的那些、3-硝基咪唑或咪唑-4,5-二甲酰胺)、通用碱基类似物的5'-三磷酸酯(例如衍生自吲哚衍生物)、异喹诺酮及其衍生物(例如甲基异喹诺酮、7-丙炔基异喹诺酮)、氢键结合的通用碱基类似物(例如吡咯并嘧啶)和任何其他化学修饰的碱基(例如二氨基嘌呤、5-甲基胞嘧啶、异鸟嘌呤、5-甲基-异胞嘧啶、k-2'-脱氧核糖、p-2'-脱氧核糖)组成。所述结构单元通过磷酸二酯键或肽基键或硫代磷酸酯键或通过任何其他类型的核苷酸键连接。
128.优选ss寡核苷酸的长度是至少6、7、8、9、10、11、12、13、14或15个核苷酸。在本发明的一个具体实施方案中，所述ss寡核苷酸的长度是6至26个核苷酸。
129.根据具体实施方案，ss寡核苷酸的长度可以是至少50、60、70、80、90、100或甚至更多个nt，例如高达200或400或更多个nt。
130.具体地，本文所述的双链多核苷酸可以通过将两个或多个，例如2、4、6、8或10个匹配并产生5'或3'突出端的ss寡核苷酸退火合成。
131.根据一个具体实施方案，本文所述的ds多核苷酸可以通过仅将两个ss寡核苷酸退火来合成，每个寡核苷酸根据模板通过合适的方式合成。
132.在这种方法中，ds多核苷酸的多样性可以通过合成多种ss寡核苷酸来产生，其中所述多样性包括与模板相比通过一个或多个点突变与其他寡核苷酸不同的ss寡核苷酸，但仍允许对ss寡核苷酸退火，从而获得ds多核苷酸的多样性。
133.根据一个具体实施方案，本文所述的ds多核苷酸，特别是本文所述的多核苷酸文库中的那些，可以通过对第一组两个ss寡核苷酸退火，产生第一ds寡核苷酸来合成；以及对第二组和任选其它组的两个ss寡核苷酸退火，分别产生第二和任选其它ds寡核苷酸来合成，其中第一、第二和任选其它ds寡核苷酸具有匹配(互补)的突出端，其退火形成所需长度的更长的ds多核苷酸。
134.在这种方法中，ds多核苷酸的多样性可以通过采用所述第一、第二和/或其它组ss寡核苷酸中的多种ss寡核苷酸来产生，所述多样性包括与模板相比通过一个或多个点突变与其他寡核苷酸不同的ss寡核苷酸，但仍允许对ss寡核苷酸和各自的ds寡核苷酸退火，从而获得多种更长的ds多核苷酸。
135.具体地，本文所述的寡核苷酸文库的ds寡核苷酸文库成员具有至少一个突出端。具体地，本文所述的多核苷酸文库的ds多核苷酸具有两个突出端，优选每条链上一个突出端，位于5'末端或3'末端上。突出端的具体特征在于作为ds寡核苷酸或ds多核苷酸一部分和/或延伸的一个或多个核苷酸的反应性(即能够与另一个ss寡核苷酸或突出端退火或杂交)单链末端延伸。
136.本文所述的寡核苷酸文库可具体包含具有一个突出端和平末端的ds寡核苷酸。平末端的具体特征在于作为ds寡核苷酸或多核苷酸一部分的一个或多个碱基对的ds末端延伸。
137.具体地，两个末端具有突出端且没有平末端的ds寡核苷酸可包含在本文所述的寡核苷酸文库中。
138.具体地，本文所述的寡核苷酸文库的ds寡核苷酸的长度是至少6个碱基对，并且所述突出端不超过各ds寡核苷酸长度的一半。具体地，ds寡核苷酸的长度是至少6、7、8、9、10、11、12、13、14或15个bp。具体地，ds寡核苷酸的长度是至少50、60、70、80、90、100或甚至更多个bp，例如，高达200、400、500或600个或更多个bp。
139.具体地，如果所述ds寡核苷酸的长度是6个碱基对，则突出端的长度不超过3个核苷酸。具体地，如果所述ds寡核苷酸的长度是24个碱基对，则突出端的长度不超过12个核苷酸。
140.本文所述的文库具体由物理寡核苷酸或多核苷酸组成，并在标准化条件下合成。寡核苷酸或多核苷酸可以被纯化，可以包含修饰，并且以标准浓度和体积理想地保持在合适的缓冲液和/或赋形剂中，以便它们随时可用。
141.具体地，可使用以下任何缓冲液和/或赋形剂将寡核苷酸或多核苷酸保持在溶液中：tris buffer(三羟甲基氨基甲烷缓冲液)、t.e.缓冲液(tris-edta缓冲液)或无核酸酶的水。具体地，文库成员可以保存在tris缓冲液中，其中所述tris缓冲液以大约10mm(+/-1mm或2mm)的浓度提供。具体地，文库成员可以保存在t.e.缓冲液中。具体地，所述t.e.缓冲液至少由浓度大约10mm(+/-1mm或2mm)的tris及浓度为0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9或1.0mm中任一浓度的edta组成。具体地，无核酸酶的水是经过去离子、过滤和高压灭菌的水，基本上不污染非特异性核酸内切酶、核酸外切酶和核糖核酸酶活性。
142.具体地，所有文库成员在每种情况下都使用相同或不同的缓冲液和/或赋形剂保存在混合物或分隔的阵列装置中。
143.本文所述的文库可包含数千个寡核苷酸或多核苷酸。具体地，本文所述的文库包含多样性的文库成员，其中每个文库成员具有不同的核苷酸序列，特别是关于本文所述的寡核苷酸文库，多样性涵盖至少10.000对匹配的寡核苷酸。具体地，文库包含至少20.000、30.000、40.000、50.000、60.000、70.000、80.000、90.000或100.000对匹配的寡核苷酸。具体地，优选的寡核苷酸文库包含足够的匹配寡核苷酸对，以涵盖整个序列空间。
144.本文所述的匹配寡核苷酸对是指包含部分或完全互补序列的单链寡核苷酸。所述匹配寡核苷酸对可以作为单独容器中的ss寡核苷酸存在于文库中，或者两个或更多个互补的ss寡核苷酸可以包含在一个容器中，其中它们可以退火，形成双链寡核苷酸。一对匹配的ss寡核苷酸的核苷酸序列可以在至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26个核苷酸中互补，从而匹配对可以通过ss寡核苷酸序列的退火或杂交形成新的ds多核苷酸分子，优选其中ss寡核苷酸部分杂交，从而获得具有突出端，尤其是5'和3'突出端的ds多核苷酸。
145.ss寡核苷酸可以特别是由两个或三个杂交配偶体组成的匹配对的一部分。具体地，ss寡核苷酸可作为能够与第二杂交配偶体杂交的第一杂交配偶体，第二杂交配偶体是具有互补突出端的另一个ss寡核苷酸或ds寡核苷酸。
146.具体地，ss寡核苷酸可作为第一杂交配偶体，能够与作为第二和第三杂交配偶体的两种不同的ss和/或ds寡核苷酸或两种不同的ds多核苷酸杂交。具体地，第一杂交配偶体是匹配的ss寡核苷酸，其中ss寡核苷酸的第一部分与第二杂交配偶体杂交，ss寡核苷酸的
第二部分与第三杂交配偶体杂交，从而获得一个由三个杂交配偶体组成的没有缺口的ds多核苷酸。
147.一对匹配的ds寡核苷酸的具体特征在于ds寡核苷酸各突出端的互补序列，例如，其中各突出端在至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26个核苷酸中互补，从而匹配对可以通过突出端序列的杂交形成新的ds多核苷酸分子。
148.本文所述的文库可具体包含多样性的双链寡核苷酸或多核苷酸文库成员，其中每个ds文库成员具有不同的核苷酸序列。
149.具体地，本文所述寡核苷酸文库的所述多样性涵盖至少100个、500个、1000个、2000个、3000个、4000个、5000个、10000个、20000个、40000个、60000个、80000个、100000个、120000个、140000个、160000个、180000个或200000个不同的ds文库成员。
150.具体地，本文所述ds多核苷酸文库的所述多样性包括或由至少10个、15个、20个、25个、30个、35个、40个、45个、50个、55个、60个、63个、64个、65个、70个、80个、90个、100个、150个、200个、250个、255个、256个、257个、500个、1000个、2000个、3000个、4000个、5000个、10000个、20000个、40000个、60000个、80000个、100000个、120000个、140000个、160000个、180000个或200000个不同的ds文库成员组成。
151.本文所述的寡核苷酸文库可具体包含多样性的单链寡核苷酸文库成员，其中每个ss寡核苷酸文库成员具有不同的核苷酸序列。具体地，所述多样性涵盖至少100个、500个、1000个、2000个、3000个、4000个、5000个、10000个、20000个、40000个、60000个、80000个、100000个、120000个、140000个、160000个、180000个或200000个不同的ss寡核苷酸。具体地，所述ss寡核苷酸可以用作接头，特别是在ds多核苷酸的组装中。
152.具体地，所述多样性是指不同的文库成员在至少一个点突变、碱基或碱基对上不同。一个文库成员实际上可能包含具有相同序列的ss或ds寡核苷酸或ds多核苷酸的多个拷贝。文库成员的所述多个拷贝具体仅包含在一个文库容器中。
153.在本发明的一个具体实施方案中，所述多样性涵盖包含标签或标记的文库成员，例如，使用亲和配体例如生物素，例如仅在5'末端或3'末端中的一个末端，特别是其中每个文库成员仅在5'末端或3'末端中的一个末端具有相同的标签或标记。这允许通过分别识别所述标签和标记的反应或亲和纯化来分离和纯化生物素化文库成员。
154.在本发明的一个具体实施方案中，所述多样性涵盖磷酸化的ss寡核苷酸和/或ds寡核苷酸和/或ds多核苷酸。具体实施方案是指通过磷酸化、甲基化、生物素化或与荧光团或猝灭剂连接中的任何一种或多种修饰的ss寡核苷酸和/或ds寡核苷酸和/或ds多核苷酸。优选文库成员包含5'磷酸化。
155.在一个具体实施方案中，在阵列装置内提供文库，文库成员包含在单独的文库容器中，每个容器在水溶液中。具体地，所述阵列装置是微量滴定板、微流控微板、毛细管组、微阵列或生物芯片(优选dna和/或rna生物芯片)中的任一种。所述阵列装置可以仅包括一个、全部或任意数量的前述容器。
156.在另一个具体实施方案中，不止一个不同的文库成员可仅包含在一个文库容器中。具体地，包含在一个文库容器中的所述不同的文库成员是其序列使它们彼此不能退火的ss寡核苷酸。具体地，包含在一个文库容器中的所述不同的文库成员是其序列使它们不
能与其中包含的其他ds寡核苷酸和/或ds多核苷酸连接的ds寡核苷酸和/或ds多核苷酸。具体地，包含在一个文库容器中的所述不同的文库成员是其序列使它们彼此不能退火的ss寡核苷酸和ds寡核苷酸(及任选ds多核苷酸)。
157.在一个具体实施方案中，所述单独的文库容器以三维顺序在空间上排列，其中各个隔室位于x轴、y轴和z轴定义坐标处的装置内。具体地，所述三维顺序包括至少二、三、四、五、六、七、八、九、十、十五、二十、三十、四十、五十、六十或甚至更多个堆叠的文库容器，这些文库容器至少部分或完全堆叠。优选文库容器放置在不同的层中，它们在不同的层中一个堆在另一个之上。具体地，各层放置在三维顺序内的预定位置。优选一个层内的每个所述文库容器包括空间上以二维顺序布置在预定位置的一系列文库成员。
158.具体地，三维顺序由主要用于缩短合成时间的参数预先定义。优选所述参数是使用频率，将那些经常在(例如天然存在的或常用于目标双链多核苷酸或其片段的)dna序列中形成匹配对的寡核苷酸彼此靠近放置。由于构建任何给定序列需要大量寡核苷酸，扫描文库和搜索需要的寡核苷酸需要时间，文库中寡核苷酸的大多数空间分布会导致时间和资源的浪费。然而，通过使用寡核苷酸的特定分布，最大限度地减少了自动装置将匹配的寡核苷酸对转移到反应容器中的移动。例如，寡核苷酸可以储存在微孔板中，其中第一个板包含最常见的寡核苷酸匹配对，然后以降序排列其他板，直到最后一个板包含最不常用的寡核苷酸。
159.在本文所述的方法中，使用液体处理器将来自本文所述文库的寡核苷酸或ds多核苷酸转移到反应容器中。具体地，所述液体处理器可以是微滴处理器。具体地，所述液体处理器是自动的。使用液体处理器，可以转移至少10、20、30、40、50、60、70、80、90 100、200或500nl合适的体积，例如，从而文库成员(例如单链寡核苷酸、单链寡核苷酸和双链寡核苷酸或双链多核苷酸的匹配对)的至少109、10
10
、10
11
或10
12
个拷贝被置于一个反应容器中。优选将特定寡核苷酸或双链多核苷酸的至少大约10
11
个拷贝(例如6.06
×
10
11
个拷贝)置于一个反应容器中，以分别与另一种寡核苷酸和双链多核苷酸反应。优选液体处理器转移的寡核苷酸或双链多核苷酸的体积是10至1000nl。更优选转移的体积是10至500nl，甚至更优选是50至250nl。
160.具体地，反应容器是隔室单元，例如，微量滴定板、微流控微板、毛细管组、微阵列或生物芯片(优选dna和/或rna生物芯片)中任一种的孔。具体地，反应容器的特征在于一种环境，在该环境中，一条核酸链通过互补链相互作用和氢键与第二条核酸链结合，以产生双链寡核苷酸。此类条件包括含有核酸的水性或有机溶液的化学成分及其浓度(例如盐、螯合剂、甲酰胺)，以及混合物的温度。其他众所周知的因素，例如培养时长或反应隔室的尺寸，可能会对环境产生影响。
161.根据本文所述的方法，将寡核苷酸或双链多核苷酸从文库转移到反应容器中，并组装以获得反应产物。具体地，所述组装是通过杂交单链核苷酸序列、退火和/或连接的任何方法，是酶促和/或化学反应。具体地，所述连接反应是使用能够进行连接反应的连接酶或核酶的酶促连接反应。优选在连接反应中使用t4 dna连接酶、t7dna连接酶、t3 dna连接酶、taq dna连接酶、dna聚合酶或工程化酶。优选使用以下连接反应：t4 dna连接酶，浓度为每微升10个粘性末端单位，并添加1mm atp(sambrook and russel,2014,chapter 1,protocol 17)。
162.具体地，所述组装是直接通过杂交匹配突出端，或间接通过杂交合适的ss寡核苷酸接头实现，ss寡核苷酸接头是包含在文库中的ss寡核苷酸，选自所述文库并转移以组装所述第一、第二或其它反应产物。
163.具体地，本文所述的ds多核苷酸在通过组装一种或多种选自ss寡核苷酸、ds寡核苷酸或ds多核苷酸的其他组装分子来合成更长的ds多核苷酸的方法中用作中间体。
164.根据定义的工作流程专门组装寡核苷酸或ds多核苷酸。该工作流程专门设计用于避免错配或产生不能用于组装以产生目标ds多核苷酸的反应产物。如果存在可以以替代方式退火的部分构建体，则可能会发生失控，即不受控制的聚合反应。为避免会导致不需要的构建体或失控反应的匹配寡核苷酸对组合，匹配寡核苷酸对以预定的组装步骤顺序即特定工作流程组装。优选所述特定工作流程不是线性的而是分层的，即遵循提供中间反应产物的算法，在所述中间反应产物进一步组装成进一步的中间反应产物或目标ds多核苷酸序列之前，尽可能避免不需要的反应产物，所述中间反应产物是方便地产生的目标ds多核苷酸的定义非连续部分。
165.在线性工作流程中，多核苷酸以线性方式从前导链的3'末端开始组装，然后添加下一个寡核苷酸以将前导链的3'末端与下一个寡核苷酸的5'末端连接。例如，寡核苷酸b与寡核苷酸a连接，寡核苷酸c与寡核苷酸b连接，寡核苷酸d与寡核苷酸c连接，依此类推。这种组装可以通过同时将所有寡核苷酸添加到反应容器中来同时实现，或者通过将寡核苷酸a、b、c、d等依次添加到反应容器中来逐步延长多核苷酸。
166.例如，当由于互补序列或突出端，寡核苷酸d不仅能够与寡核苷酸c连接，而且还能够与寡核苷酸a连接时，可能需要分层工作流程。除了所需的多核苷酸a-b-c-d之外，上述线性工作流程还会导致不需要的多核苷酸a-d-b-c-d。因此，多核苷酸优选在分层工作流程中组装。因此，在两个单独的反应容器中，分别连接寡核苷酸a和b以及寡核苷酸c和d。连接反应将产生反应产物a-b和c-d，然后可以将其转移到第三反应容器中，其中在连接时形成所需的多核苷酸a-b-c-d。
167.具体地，所述工作流程是使用算法设计的。具体地，所述算法选择匹配的寡核苷酸、多核苷酸和ss寡核苷酸接头对(必要的话)，不是仅仅通过序列划分，而是通过确定组装目标ds多核苷酸的最佳或接近最佳方式，确定组装工作流程，尽可能避免错配或不想要的反应产物。特异性选择匹配的寡核苷酸对和组装工作流程，以避免不希望(不正确)的反应或反应产物，例如回文序列、失控反应和明确组装。如果除了正确的反应产物之外还有不正确的反应产物，将这些不正确的反应产物与正确的反应产物适当地分开，例如如下：使用凝胶电泳检测一定大小的寡核苷酸或多核苷酸，并切割和纯化与所需反应产物大小相对应的凝胶条带。具体地，可以通过将标签或标记掺入到序列中来检测正确的反应产物。具体地，可以使用能够与寡核苷酸的突出端杂交的生物素化寡核苷酸接头来捕获寡核苷酸，其中，所述接头被固定在底物上并被链霉抗生物素蛋白包被。未捕获的不正确产物通过清洗去除，随后通过升高温度从接头释放出正确的产物。具体地，可以采用本领域熟悉的其它分离方法。具体地，所述方法可涉及色谱法或亲和分离法。
168.在本发明的一个具体实施方案中，所述目标ds多核苷酸的长度是至少48个核苷酸。具体地，所述双链多核苷酸的长度是至少100、200、300、400、500、1000、10000、100000、200000或500000个核苷酸。
169.通常，模板作为合成目标ds多核苷酸的模型。具体地，所述目标ds多核苷酸的核苷酸序列与模板的核苷酸序列相同，并且文库中包含的多种ds多核苷酸包含或由与所述模板具有一定序列一致性的文库成员组成。
170.在一个具体实施方案中，感兴趣序列(sequence of interest)(soi)作为单链模板提供和/或翻译成两个单链模板序列，根据该序列合成目标ds多核苷酸。在某个实施方案中，第一模板包含soi的序列，而第二模板包含soi的反向互补序列。
171.在其它实施方案中，所述目标ds多核苷酸是具有与所述模板相同的序列的代理ds多核苷酸，所述代理双链多核苷酸被进一步修饰，以获得具有与目标双链多核苷酸的序列不同的感兴趣序列(soi)的多核苷酸。通常，代理ds多核苷酸作为中间产物产生，由此中间产物，可以通过一个或多个进一步的诱变步骤产生以soi为特征的ds多核苷酸。
172.具体地，合成所述代理ds多核苷酸所依据的所述模板序列与所述soi不同。具体地，所述模板的序列与所述soi的一致性小于100、99、98、97、96、95、94、93、92或91％，和/或两者的一致性是至少90、91、92、93、94、95、96、97、98或99％。
173.在一个具体的实施方案中，在分成较短的序列之前，一条链或ds中的每条链的序列的3’末端或5’末端或这两个末端的末端核苷酸被去除。具体地，它们通过计算被去除。由此，产生与soi不同的模板。具体地，序列的3'末端或5'末端的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个末端核苷酸被去除，以产生模板。具体地，去除所述核苷酸从而产生突出端和/或通过在目标ds多核苷酸的每个末端产生平末端为合成的最终完成做准备。
174.具体地，模板由单链或双链序列组成。优选所述模板是单链。具体地，所述两个单链模板序列退火产生双链模板。具体地，所述模板的序列被划分为更短的序列(包含寡核苷酸文库成员的子序列)，并且所述文库成员在文库中的位置以数字注明。具体地，划分为子序列取决于分层工作流程和文库中存在的文库成员。
175.具体地，目标ds多核苷酸在两端均具有平末端。
176.具体地，本文提供的方法包括最终步骤。
177.具体地，所述最终步骤用于添加一个或多个核苷酸，这些核苷酸与先前分别从3’末端和5’末端去除以制备模板，旨在生成平末端的那些核苷酸对应。具体地，从文库中选择分别与3’末端和5’末端的核苷酸互补，即与多核苷酸的粘性末端互补的寡核苷酸。具体地，这些寡核苷酸在pcr反应中用作引物，准备所述pcr反应以扩增最终产物，并将剩余的核苷酸添加到每条链上，以合成具有平末端的完整的目标多核苷酸。
178.具体地，所述最终步骤包括使用标准试剂盒，例如新英格兰生物实验室(new england biolabs)的monarch pcr&dna纯化试剂盒(产品编号t1030)清除残留的寡核苷酸、酶和试剂，留下目标双链多核苷酸作为dna产物，用于下游应用的pcr产物纯化步骤。
179.或者，目标ds多核苷酸的一个或两个平末端可以这样产生：通过选择具有平末端的匹配ds寡核苷酸或通过选择与突出端互补的ss寡核苷酸，并杂交，但不产生任何进一步的突出端，从而产生平末端。
180.具体地，目标ds多核苷酸、soi或模板的所述核苷酸序列可以是天然的或人工的。
181.为了以更简单且因此更快的组装工作流程中产生具有复杂soi的双链多核苷酸，可以产生具有与soi低于100％一致性的目标序列的代理ds多核苷酸。然后，可以进一步修
饰采用本文所述的组装方法产生的所述代理ds多核苷酸，以产生具有与soi的核苷酸序列100％相同的核苷酸序列的ds多核苷酸。具体地，所述代理ds多核苷酸通过定向诱变、核酸内切酶或核酸外切酶中的任一种进一步修饰，以获得与所述模板的核苷酸序列相同的核苷酸序列。
182.在另一个具体实施例中，目标ds多核苷酸被进一步修饰，以产生其衍生物，它们是ds dna、ss dna或rna分子中的任一种。
183.具体地，所述目标双链多核苷酸通过定点诱变进行修饰，从而引入一个或多个点突变，所述点突变是核苷酸插入、缺失或取代中的任一种。
184.具体地，所述目标双链多核苷酸使用甲基转移酶、激酶、crispr/cas9、使用λ-红重组的多重自动化基因组工程(mage)、接合组装基因组工程(cage)、argonaute蛋白家族(ago)或其衍生物、锌指核酸酶(zfn)、转录激活因子样效应核酸酶(talen)、大范围核酸酶、酪氨酸/丝氨酸位点特异性重组酶(tyr/ser ssr)、杂交分子、硫酸化酶、重组酶、核酸酶、dna聚合酶、rna聚合酶或tnase中的任何一种或多种，通过酶促修饰来进行修饰。
185.在一个具体实施方案中，对所述目标ds多核苷酸进行测序，以验证与模板或soi序列的一致性程度。可以使用任何合适的测序方法，例如snp基因分型方法，包括基于杂交的方法(例如分子信标、snp微阵列、限制性片段长度多态性；基于pcr的方法，包括等位基因特异性pcr、引物延伸-、5'-核酸酶或寡核苷酸连接分析、单链构象多态性、温度梯度凝胶电泳、变性高效液相色谱、整个扩增子的高分辨率熔解(hrm)、snplex和surveyor核酸酶分析；基于测序的突变分析，包括ptr的整个pcr扩增子的毛细管测序或高通量测序(扩增子测序)中的任一种方法。所述高通量(ht)扩增子测序方法包括但不限于聚合酶克隆测序(polony sequencing)、焦磷酸测序、illumina(solexa)测序、solid测序、半导体测序、dna纳米球测序、heliscope单分子测序、单分子实时(smrt)测序、纳米孔dna测序、隧道电流dna测序、杂交测序、质谱测序、微流控sanger测序、基于显微镜的测序、rnap测序。
186.具体地，在阵列装置内提供包含多样性文库成员的寡核苷酸文库，所述文库成员是具有至少一个突出端的单链寡核苷酸(ss寡核苷酸)和双链寡核苷酸(ds寡核苷酸)，其中每个文库成员具有不同的核苷酸序列，并包含在水溶液中的单独文库容器中，所述容器以三维顺序在空间上排列，其多样性涵盖至少10.000对匹配的寡核苷酸。
187.具体地，所述文库容器优选根据使用频率以三维顺序在空间上排列，并且其中所述三维顺序包括至少二、三、四、五、六、七、八、九、十、十五、二十、三十、四十、五十、六十或甚至更多个堆叠的文库容器，这些容器至少部分或完全堆叠。
188.本文进一步描述了寡核苷酸文库用于合成一系列具有预定序列的不同目标双链(ds)多核苷酸的用途，其中所述不同目标双链(ds)多核苷酸具有小于50％，优选小于30％的序列一致性。
189.本文进一步提供了一种通过聚合酶链反应(pcr)富集在前导链和后随链上都包含突出端的双链多核苷酸的方法，其使用
190.a)第一引物对，所述第一引物对包含至少与前导链突出端互补的正向引物及与后随链末端序列互补、不包括后随链突出端的反向引物；和
191.b)第二引物对，所述第二引物对包含至少与前导链的末端序列互补、不包括前导链突出端的正向引物，以及至少与后随链的突出端互补的反向引物；和
192.产生和任选分离前导链和后随链上都包含突出端的扩增产物。
附图说明
193.图1a.用于构建文库的源序列(仅示出100bp的片段)，对应于人类线粒体高变区ii的四种单倍型(anderson et al.,1981:gene bank accession nr.:j01415)；
194.图1b.构建任何可能的单倍型组合所需的寡核苷酸设计支架(假设每个多态位点完全杂合)。两条链均示出。每个z形块是一个寡核苷酸对，其中n代表四个碱基a、t、g或c中的任何一个。每个寡核苷酸序列支架上方和下方的数字表示寡核苷酸的长度，括号中的数字表示文库中存在的涵盖可变位点处所有可能单倍型的寡核苷酸的数量。除了下划线的那些作为退火对存储之外，每个单链寡核苷酸单独存储在文库的一个隔室中；
195.图2a.soi的核苷酸序列，称为discover(seq id no:1)；
196.图2b.构成soi discover的16个寡核苷酸的核苷酸序列；
197.图2c.构成寡核苷酸的二聚体结构。本文描述的是d+和d-，但相同的结构适用于所有其他二聚体；
198.图3.寡核苷酸在孔板中的位置；
199.图3a.退火后，第1列和第3列的内容物分别转移到第2列和第4列；
200.图3b.第一次连接反应培养后，将第2列的内容物转移到第4列；
201.图3c.在第二次连接反应培养后，将a4的内容物转移到b4孔中，并为第三次和最后一次连接反应培养。b4孔包含128bp目标双链多核苷酸；
202.图4.丙烯酰胺凝胶(10％)显示了实施例2所述方法的内容物。泳道1：反应d+i(图3b中的a2孔)。泳道2：具有64bp dsdna的阴性对照(用于连接)。泳道3：具有64bp dsdna的阳性对照(用于连接)。泳道4和5：两种稀释度的反应di+sc(图3c中的a4孔)。泳道6和7：128bp目标ds多核苷酸的两个等分试样。泳道8：50bp梯(ladder)(neb)；
203.图5a.部分soi及其反向互补序列(位置65-100；否则如图1a所示)。斜体、粗体和常规字体元件表示不同的二聚体。下划线部分突出了必须避免的自互补突出端。上序列是seq id no:18；下序列是seq id no：19；
204.图5b.用于产生代理ds多核苷酸的模板的部分序列(位置65-100)。黑色背景的碱基对表示改变的位点，现在使二聚体非自我互补。(所得修饰寡核苷酸与实施例2的o-和v+一致。)。上序列是seq id no:20；下序列是seq id no：21；
205.图5c.用于修饰代理ds多核苷酸以产生具有soi的ds多核苷酸的诱变引物。带下划线的字母表示诱变的碱基。上序列是seq id no:22；下序列是seq id no：23；
206.图6.从实施例1的文库中转移的寡核苷酸在96孔板上的布置，为退火和分层合成做准备；
207.图7.琼脂糖凝胶电泳(2％)，示出了分层合成方法的结果。顶部条带是包含608bp产物的条带。左泳道是600bp梯；
208.图8.实施例4的序列；
209.图9.实施例9的序列；
210.图10.实施例6的序列；
211.图11.琼脂糖凝胶电泳(2％)，示出了分层合成方法的结果。顶部条带是包含1024
产物的条带。左泳道是1000bp梯；
212.图12.使用pcr引物富集多核苷酸文库成员的示意图；
213.图13.实施例8的序列；
214.图14.示出了sanger测序的结果，验证了文库中存在seq id no:218的16个变体。示出的序列是seq id no:361(它是seq id no:218第20位至第80位的序列)。
具体实施方式
215.整个说明书使用的特定术语具有以下含义。
216.本文所述术语“一(a)”、和“一(an)”“所述(the)”在本文用于指代一个或多个，即至少一个。
217.术语“感兴趣的序列”或“soi”是指采用本文提供的方法产生的ds多核苷酸的所期望的核苷酸或碱基对序列。
218.术语“目标双链(ds)多核苷酸”是指采用本文提供的合成方法产生的具有预定序列的多核苷酸。具体地，所述目标双链多核苷酸的特征在于与soi相同和/或对应的序列。如果目标ds多核苷酸序列具有与soi小于100％一致性的序列，则将目标ds多核苷酸理解为可以进一步修饰以产生具有与soi相同和/或对应序列的ds多核苷酸的代理ds多核苷酸。
219.术语“代理双链(ds)多核苷酸”是指其序列与soi的核苷酸序列一致性小于100％且至少90％、优选95％的目标双链(ds)多核苷酸。为了产生具有与soi相同和/或对应的序列的ds多核苷酸，由于其序列可能易于进行明确组装或失控反应而难以合成，可以首先合成代理双链(ds)多核苷酸。代理双链多核苷酸的序列被设计为避免回文序列、失控反应和明确组装和/或促进分层组装。具体地，可以通过计算来设计序列。然后，合成的代理ds多核苷酸可以进一步修饰，以产生具有与soi的核苷酸序列相同的核苷酸序列的双链多核苷酸。具体地，所述代理ds多核苷酸使用甲基转移酶、激酶、crispr/cas9、使用λ-红重组的多重自动化基因组工程(mage)、接合组装基因组工程(cage)、argonaute蛋白家族(ago)或其衍生物、锌指核酸酶(zfn)、转录激活因子样效应核酸酶(talen)、大范围核酸酶、酪氨酸/丝氨酸位点特异性重组酶(tyr/ser ssr)、杂交分子、硫酸化酶、重组酶、核酸酶、dna聚合酶、rna聚合酶或tnase中的任何一种，通过定向诱变、核酸内切酶或核酸外切酶和/或酶促修饰中的任一种进行修饰，以获得具有与soi相同和/或对应序列的双链多核苷酸。
220.术语“模板”是指以可用于合成和产生目标ds多核苷酸的特定序列或多核苷酸序列为特征的多核苷酸。如果在本文提供的合成方法中使用模板，则如此产生的目标ds多核苷酸具有与模板100％相同的序列。
221.具体地，所述模板是单链或双链。所述模板可以是包含所需产物的天然核苷酸序列或人工的、计算设计的核苷酸序列。所述模板可以与soi相同或与soi的一致性小于100％，优选小于95％，但至少80％。
222.优选所述模板通过计算产生，并且分别包含目标双链多核苷酸的前导链的序列和目标多核苷酸的反向互补序列。通常，本文所述合成方法中使用两个模板，一个模板用于目标双链多核苷酸的一条链。在计算设计模板序列时，优选与用于组装的实验策略兼容。
223.术语“单链dna寡核苷酸”，也称为“ssdna寡核苷酸”或简称为“ss寡核苷酸(ss oligonucleotide)”或“ss寡核苷酸(ss oligo)”，是指核苷酸单体线性聚合物的寡核苷酸。
构成寡核苷酸的单体能够通过单体与单体相互作用的规则模式，例如watson-crick类型的碱基配对、碱基堆积、hoogsteen或反向hoogsteen类型的碱基配对、摆动碱基配对等与天然多核苷酸特异性结合。本文所述的ssdna寡核苷酸的大小通常在6到26个核苷酸之间，但可以更长。本文所述的ssdna寡核苷酸的大小可以在6到220个核苷酸之间，例如27到200个核苷酸之间。任何时候，当寡核苷酸由字母序列(大写或小写)，例如“atgc”表示时，应理解核苷酸从左到右为5'
→
3'顺序，“a”表示脱氧腺苷，“t”表示脱氧胸苷，“g”表示脱氧鸟苷，“c”表示脱氧胞苷。除了常规核苷酸(a、g、c、t)之外，可以使用修饰的核苷酸，例如k-2'-脱氧核糖、p-2'-脱氧核糖、2'-脱氧肌苷、2'-脱氧黄苷或具有核碱基类似物的核苷酸，例如肌苷或5-甲基异胞嘧啶，或3-硝基吡咯、5-硝基吲哚、吡咯烷、4-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、4-氨基苯并咪唑、5-硝基吲唑、3-硝基咪唑、5-氨基吲哚、苯并咪唑、5-氟吲哚、吲哚、甲基异喹诺酮、吡咯并嘧啶、7-丙炔基异喹诺酮。术语和原子编号惯例遵循strachan and read,human molecular genetics 2中公开的那些(wiley-liss,new york,1999)惯例。通常寡核苷酸包含通过磷酸二酯或肽基键或硫代磷酸酯键连接的四种天然核苷(例如对于dna是脱氧腺苷、脱氧胞苷、脱氧鸟苷、脱氧胸苷，或对于rna是它们的核糖对应物)；然而，它们也可以包含非天然核苷酸类似物，例如包括修饰的碱基、糖或核苷间键。
224.在一些实施方案中，单链寡核苷酸库是使用化学合成方法产生的，例如通过由单体亚磷酰胺、二聚体-亚磷酰胺(neuner,cortese,and monaci 1998)或三聚体-亚磷酰胺(sondek and shortle 1992)、单体亚磷酰胺混合物、二聚体-亚磷酰胺混合物、三聚体-亚磷酰胺混合物或它们的组合合成寡核苷酸序列来产生的。
225.在一些实施方案中，寡核苷酸是从天然存在的来源产生和纯化的，或采用多种众所周知的酶促方法中的任一种方法，在经历体内诱变的细胞内体内合成，正如farzadfard et al.(2014)所述。具体地，合成软随机化寡核苷酸库的酶包括但不限于在合成过程中以高频率掺入错配核苷酸的低保真dna聚合酶蛋白或低保真逆转录酶蛋白。或者，由于本领域技术人员熟知的化学物质的存在，错配核苷酸通过dna聚合酶或逆转录酶以更高的频率掺入到寡核苷酸中。
226.术语“碱基对”或“bp”，(缩写，单数或复数)还有“bps”(复数)，是指连接dna或rna分子互补链且由通过氢键与嘧啶连接的嘌呤组成的任何核苷酸对。碱基对是dna中的腺嘌呤和胸腺嘧啶，rna中的腺嘌呤和尿嘧啶，以及dna和rna中的鸟嘌呤和胞嘧啶。
227.术语“匹配的寡核苷酸对”是指两个或更多个互补的寡核苷酸。“互补”是指两条单链核酸的相似区域或一个或多个双链核酸的突出部分的核苷酸序列具有允许单链区域在严格的退火或扩增条件下在稳定的双链氢键区域中一起退火的核苷酸碱基组成，这种退火也称为“杂交”。当一个单链区域的连续核苷酸序列能够与另一个单链区域的类似核苷酸序列形成一系列“标准”氢键结合碱基对时，从而a与u或t配对，c与g配对，则核苷酸序列100％互补。除了常规碱基(a、g、c、t)之外，类似物，例如肌苷和2'-脱氧肌苷及其衍生物(例如7'-脱氮杂-2'-脱氧肌苷、2'-脱氮杂-2'-脱氧肌苷)、唑-(例如苯并咪唑、吲哚、5-氟吲哚)或硝基唑类似物(例如3-硝基吡咯、5-硝基吲哚、5-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑)及其衍生物、无环糖类似物(例如由次黄嘌呤或吲唑衍生物衍生的那些、3-硝基咪唑或咪唑-4,5-二甲酰胺)、通用碱基类似物的5'-三磷酸酯(例如衍生自吲哚衍生物)、异喹诺酮和其他疏水性类似物，及其任何衍生物(例如甲基异喹诺酮、7-丙炔基异喹诺酮)、氢键结合的通
用碱基类似物(例如吡咯并嘧啶)和其他化学修饰的碱基(例如二氨基嘌呤、5-甲基胞嘧啶、异鸟嘌呤、5-甲基-异胞嘧啶、k-2'-脱氧核糖、p-2'-脱氧核糖)可以具有不同的碱基配对偏好，并且可以以相似严格度/概率与一种以上天然核碱基配对。在某些情况下，单体通过磷酸二酯或肽基键或硫代磷酸酯键连接。
228.术语“双链dna寡核苷酸”，也称为“dsdna寡核苷酸”或简称为“ds寡核苷酸”或“ds oligo”，是指核苷酸二聚体线性聚合物的寡核苷酸。构成寡核苷酸的二聚体是通过单体与单体相互作用的规则模式，例如watson-crick类型的碱基配对、碱基堆积、hoogsteen或反向hoogsteen类型的碱基配对、摆动碱基配对等结合的两个互补的核苷酸。本文所述的dsdna寡核苷酸的大小通常在6到26个碱基对(bp)之间，但可以更长。本文所述的dsdna寡核苷酸的大小可以在6到200个碱基对之间，例如27到200个碱基对之间。任何时候，当寡核苷酸由字母序列(大写或小写)，例如“atgc”表示时，应理解核苷酸从左到右为5'
→
3'顺序，“a”表示脱氧腺苷，“t”表示脱氧胸苷，“g”表示脱氧鸟苷，“c”表示脱氧胞苷。除了常规核苷酸(a、g、c、t)之外，可以使用修饰的核苷酸，例如k-2'-脱氧核糖、p-2'-脱氧核糖、2'-脱氧肌苷、2'-脱氧黄苷或具有核碱基类似物的核苷酸，例如肌苷或5-甲基异胞嘧啶，或3-硝基吡咯、5-硝基吲哚、吡咯烷、4-硝基咪唑、4-硝基吡唑、4-硝基苯并咪唑、4-氨基苯并咪唑、5-硝基吲唑、3-硝基咪唑、5-氨基吲哚、苯并咪唑、5-氟吲哚、吲哚、甲基异喹诺酮、吡咯并嘧啶、7-丙炔基异喹诺酮。术语和原子编号惯例遵循strachan and read,human molecular genetics 2中公开的那些(wiley-liss,new york,1999)惯例。通常寡核苷酸包含通过磷酸二酯或肽基键或硫代磷酸酯键连接的四种天然核苷(例如对于dna是脱氧腺苷、脱氧胞苷、脱氧鸟苷、脱氧胸苷，或对于rna是它们的核糖对应物)；然而，它们也可以包含非天然核苷酸类似物，例如包括修饰的碱基、糖或核苷间键。
229.双链分子最简单的dna末端称为平末端。在平末端分子中，两条链均以碱基对终止。非平末端由各种突出端产生。本文使用的术语“突出端”是指在双链寡核苷酸或多核苷酸分子的一端或两端的未配对核苷酸的延伸。这些未配对的核苷酸可以位于任一链中，产生3'或5'突出端。包含两个突出端的双链分子被理解为在分子每个末端包含一个突出端的双链分子，而不管是哪条链。因此，突出端可以仅在一条链上，即在两侧的同一条链上，或在两条链上，即在分子的有义和反义(前导或后随)链上。突出端的最简单情况是单个核苷酸。突出端可包含或由1、2、3、4、5、6、7、8、9、10、11或12个核苷酸组成，或包含或由至少1、2、3、4、5、6、7、8、9、10、11或12个核苷酸组成。突出端通常不超过双链寡核苷酸长度的一半。例如，如果所述双链寡核苷酸的长度是6个核苷酸，则突出端的长度不超过3个核苷酸，这意味着突出端的长度也可以是1或2个核苷酸。根据另一个实例，如果所述双链寡核苷酸的长度是24个核苷酸，则突出端的长度不超过12个核苷酸，这意味着突出端的长度也可以是1、2、3、4、5、6、7、8、9、10或11个核苷酸。
230.本文所述的术语“核心序列”是指包含两个突出端的双链核酸分子的核苷酸序列的一部分，所述部分是核酸分子的双链部分，即减去突出端的序列。换言之，在包含两个单链突出端的双链核酸分子中，所述核心序列是双链段。
231.本文涉及寡核苷酸文库时使用的术语“文库”，也称为“寡核苷酸文库”，应指是核酸片段且包含至少10.000对匹配寡核苷酸文库成员的集合。优选所述文库包括单链寡核苷酸文库成员和双链寡核苷酸文库成员。文库成员具有共同的特征(例如基因组序列赋予的
特征)，但在至少一个碱基对、核苷酸、突变和/或表型方面存在差异。除了具有共同特征的那些文库成员之外，文库通常包含多样性的文库成员。一种具体类型的文库是通过随机诱变产生的寡核苷酸随机突变体文库。另一个具体实例是合理设计(或合成)的文库，例如包含特异性工程化的dna片段或寡核苷酸的文库。本文所述的寡核苷酸文库包括由不同长度和不同序列的寡核苷酸适当组成的文库成员，其中寡核苷酸可以对应于dna的某个区域或者甚至可以跨越整个遗传空间。例如，本文提供的文库可以包含可能合成人类染色体基因组或线粒体基因组任何和所有天然多核苷酸所必需的多样性寡核苷酸文库成员。在其它实例中，所述多样性可以涵盖除人类之外的真核物种，例如，小鼠、大鼠、兔、猪、羊、植物、真菌或酵母的任何和所有天然存在的多核苷酸。在另一个实例中，所述多样性可以涵盖原核生物，例如古细菌或细菌的任何和所有天然存在的多核苷酸。
232.本文提供的文库具体包含至少10.000对匹配的寡核苷酸，它们是单链寡核苷酸，具体地，它们是不同长度的单链寡核苷酸，包含部分或完全互补的序列。所述匹配的寡核苷酸对可以作为单独容器中的单链寡核苷酸存在于文库中，或者两个或更多个互补的单链寡核苷酸可以包含在一个容器中，其中它们可以退火，形成双链寡核苷酸。一对匹配的单链寡核苷酸的核苷酸序列可以在至少1、2或3个核苷酸，优选在至少4个或更多个核苷酸中互补，从而匹配对可以通过单链寡核苷酸序列的杂交形成新的双链多核苷酸分子，优选其中单链寡核苷酸部分杂交，从而获得具有突出端的双链多核苷酸。
233.文库优选包含人工或化学合成的寡核苷酸，或通过本领域熟悉的合适方法合成的化学修饰的(例如，包括肽基核酸或硫代磷酸酯键)寡核苷酸。文库中包含的寡核苷酸也可以通过天然dna的酶促消化产生。本文所述的所述寡核苷酸文库成员的具体特征在于不同的序列、突变或核碱基或核苷酸改变，例如一个或多个后续核苷酸的取代、插入或缺失。通常，文库成员在至少一个或多个点突变方面不同。具体地，在一些实施方案中，变化涵盖特定位置处每个可能的天然存在的核碱基残基。如果突变体通过亲本寡核苷酸的诱变产生，则会产生亲本寡核苷酸的多种序列变异。
234.涉及多核苷酸文库时使用的术语“文库”，也称为“多核苷酸文库”，应指包含多种多核苷酸序列的双链多核苷酸文库成员的集合，每个多核苷酸序列包含两个突出端。换言之，多核苷酸文库成员是部分双链的。文库成员具有共同的特征(例如基因组序列赋予的特征)，但在多核苷酸核心序列中至少有一个碱基对不同。每个文库成员包含作为第一突出端序列的相同的第一序列和作为第二突出端序列的相同的第二序列。除了它们彼此不互补之外，对第一和第二序列没有限制，特别是，从而避免多核苷酸文库内文库成员之间杂交。根据一个具体的实施例，两个突出端包括在前导链上或后随链上。根据另一个具体的实施方案，一个突出端包含在前导链上，一个突出端包含在后随链上。
235.一种具体类型的多核苷酸文库是通过随机诱变产生的多核苷酸随机突变体文库。本文所述的所述多核苷酸文库成员的具体特征在于不同的序列、突变或核碱基或核苷酸改变，例如一个或多个后续核苷酸的取代、插入或缺失。通常，文库成员在至少一个或多个点突变方面不同。具体地，在一些实施例中，变化涵盖特定位置处每个可能的天然存在的核碱基残基。如果突变体通过亲本多核苷酸的诱变产生，则会产生亲本多核苷酸的多种序列变异。
236.另一个具体实例是合理设计(或合成)的文库，例如包含具有特异性工程化序列变
异的特异性工程化的多核苷酸的文库。
237.本文所述的多核苷酸文库通常由相同长度的多核苷酸文库成员组成。多核苷酸文库成员的长度至少是48、50、60、70、80、90、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950或1000bp。根据进一步的具体实施例，多核苷酸文库成员的长度是2000、3000、4000、5000、6000、7000、8000、9000、10000bp或更长。
238.具体地，本文所述的多核苷酸文库成员包含文库成员多核苷酸序列大约50％或小于50％的突出端。优选本文所述的多核苷酸文库成员包含长度大约4-8个核苷酸的突出端。
239.根据一个具体实例，文库优选包含通过寡核苷酸组装，具体地，通过部分退火一个或多个部分匹配的ss寡核苷酸文库合成的多核苷酸。
240.根据另一个实例，本文所述的多核苷酸文库成员是通过本领域熟悉的合适方法人工或化学合成的，或化学修饰的(包括肽基核酸或硫代磷酸酯键)多核苷酸。多核苷酸文库中包含的多核苷酸也可以通过天然dna的酶促消化产生。
241.例如，目标多核苷酸可以通过将多核苷酸文库的文库成员与包含互补的5'或3'突出端的另一个多核苷酸文库的文库成员退火来合成。
242.本文所述文库的多样性可以进一步包括磷酸化、甲基化、生物素化或与荧光团或猝灭剂连接的文库成员。如本文所述，文库成员可包含一个或多个额外的磷酰基。
243.文库成员的甲基化，即向dna分子，优选向半胱氨酸或腺嘌呤添加甲基，根据本领域熟悉的合适的dna甲基化方法进行。
244.本文所述生物素化是指将一个或多个生物素分子与核酸，例如ss寡核苷酸或ds寡核苷酸共价连接的方法。本文所述的文库成员可以采用本领域熟悉的合适方法进行生物素化；优选采用化学生物素化的方法。寡核苷酸可以在寡核苷酸合成过程中，使用本领域熟知的采用生物素亚磷酰胺的亚磷酰胺方法容易地进行生物素化。
245.本文所述的文库成员可以通过本领域熟悉的合适的化学和酶促方法与荧光团缀合。用于核酸荧光标记的示例性方法可以采用用荧光染料酶促标记dna的方法，例如，使用赛默飞世尔公司(thermo fisher)的ares dna标记试剂盒，其采用两步法用荧光染料酶促标记dna。其他示例性方法可以采用化学方法来标记核酸，而无需酶促掺入标记的核苷酸，例如使用ulysis核酸标记试剂盒。其它示例性方法可以使用胺封端寡核苷酸的化学标记来制备单独标记的荧光寡核苷酸缀合物，例如，使用alexa fluor寡核苷酸胺标记试剂盒。其它示例性方法可以采用dna阵列/微阵列和其他杂交技术。
246.文库成员可以采用本领域熟悉知的合适方法与一种或多种猝灭剂，例如从荧光团吸收激发能量的物质连接。猝灭剂的实例包括但不限于dabsyl(二甲基氨基偶氮苯磺酸)、黑洞猝灭剂、qxl猝灭剂、iowa black fq、iowa black rq和irdye qc-1。
247.本文所述术语“点突变”或核碱基改变应指例如通过引入或交换单个核碱基或氨基酸或引入缺口，在特定位置改变核酸或氨基酸序列的突变事件。点突变或核碱基改变可能涉及序列中一个或多个单个或相邻或连续核碱基或氨基酸残基的变化。具体地，以靶向方式将点突变引入到ds多核苷酸或目标多核苷酸的序列中，导致与模板相比的一定程度的变异。在包含涵盖有限多样性的突变体库的文库中，序列中点突变的频率是有限的，从而突变体至少与亲本(或参考)序列共享特定的序列一致性，例如至少80％、90％、95％、96％、97％、98％或99％。
248.本文所述相对于核苷酸序列的“核苷酸序列一致性的百分数(％)”定义为在比对序列和引入缺口后，如果必要的话，为了实现最大的序列一致性百分数，并且任何保守取代并不视为序列一致性的一部分时，候选序列中与特定核苷酸序列中核苷酸一致的核苷酸的百分数。熟悉本领域的技术人员能够确定衡量比对的合适参数，包括在待比较序列的全部长度实现最大对齐所需的任何算法。
249.本文所述术语“多样性”是指表征本文提供文库的变化性的程度。具体地，所述关于寡核苷酸文库的多样性包括不同长度和不同序列的单链和双链寡核苷酸。例如，文库可以包含8个核碱基长的单链寡核苷酸(本文称为八聚体)的所有可能的序列变异，它们是65.536个不同的8个核碱基长度的单链寡核苷酸，此外还有不同长度的其他单链寡核苷酸或双链寡核苷酸，通常包含在目标序列中，因此需要更频繁地构建任何给定的序列。将常用的单链或双链寡核苷酸纳入文库的多样性可降低合成成本，提高时间效率。
250.具体地，所述多样性可以涵盖整个基因组，例如人类基因组。具体地，所述多样性可以涵盖整个遗传空间。具体地，所述多样性可以以多种方式多次涵盖基因组或整个遗传空间。例如，通过涵盖所有可能的六聚体、七聚体和/或八聚体序列组合。例如，所述文库还可包括所有或选定的9-聚体和10-聚体或任何高达26-聚体。
251.根据一个具体的实例，本文所述寡核苷酸库内的多样性的特征如下：多样性可以由寡核苷酸序列内的突变数确定。例如，在长度是16个核苷酸的单个寡核苷酸中，对于四种天然存在的dnaa、t、g或c核苷酸，单个核苷酸可能变化的理论数量是16x3＝48。对于每个寡核苷酸，对于四种天然存在的dna a、t、g或c核苷酸，两个单核苷酸变化(双突变体)的可能序列数是6.408。对于每个寡核苷酸，三个单核苷酸变化(三重突变体)的这个数字是563.904。对于四重突变，这个数字是36.794.736。通过在寡核苷酸序列中掺入非天然核碱基，这些数字可以进一步增加。
252.具体地，关于多核苷酸文库的多样性包括双链多核苷酸文库成员，其序列中的至少一个核碱基(碱基对)不同，但第一核碱基及5'和3'突出端序列分别不存在不同。多核苷酸文库成员包含相同的第一序列和相同的第二序列。第一序列可以与第二序列相同或不同。具体地，第一序列和第二序列不互补，从而它们将允许彼此退火或杂交。
253.本文涉及多核苷酸文库时使用的术语“富集”是指相对于未富集的多核苷酸文库，多核苷酸文库中包含所需特征的多核苷酸的数量增加。具体地，富集多核苷酸文库包含大约15、16、17、18、19、20，优选21、22、23、24或25％具有所有文库成员共有区别特征的那些多核苷酸(或至少那些需要纯化或与其他多核苷酸分离的多核苷酸)，其以包含不具有此类区别特征的数量减少的那些多核苷酸的混合物形式提供。富集特定核酸分子中溶液的各种方法是本领域技术人员已知的。具体地，本文所述的多核苷酸文库通过使用聚合酶链反应(pcr)方法扩增特定核酸分子来富集。
254.根据一个具体实施方案，本文提供的多核苷酸文库可以通过多核苷酸文库成员的靶向扩增富集。具体地，可以通过pcr扩增来实现富集，其中使用两个引物组，每个引物组包含两个不同的引物。多核苷酸文库成员是部分双链的，包含双链段(即核心序列)，分别包含在前导链的5'或3'末端上的5'或3'突出端以及分别包含在后随链的3'或5'末端上的3'或5'突出端。具体地，每组包含至少与突出端互补的引物及与多核苷酸双链段中的第一核苷酸互补的引物。例如，第一组引物包括第一个引物和第二个引物，第一个引物与包括5'突出
端的前导链5'末端的第一(例如4、6、8或10个)核苷酸互补，第二个引物与多核苷酸双链段前导链的第一(例如4、6、8或10个)核苷酸互补。
255.根据另一具体实施例，本文提供的多核苷酸文库可通过使用标签(例如生物素标签)将文库成员固定在固相上，并使用例如pcr扩增富集固定的文库成员来纯化。根据优选实施例，如上所述，两组引物用于靶向特异性富集和同时消除标签。具体地，通过使用一组对前导链的5'末端特异性的引物和一组对要富集的多核苷酸的后随链的5'末端特异性的引物，每组引物都包含至少与突出端互补的引物及与多核苷酸的核心序列互补的引物，目标多核苷酸在没有标签序列的情况下进行扩增。这具有巨大的优势，不需要额外的步骤，例如酶消化来去除标签序列。
256.纯化程度理解为每体积或每总(多)核苷酸质量的文库成员的数量。确定核酸分子制备纯度的各种方法是本领域技术人员已知的。具体地，纯度可以使用凝胶电泳、下一代测序或qpcr来测定。
257.用于对文库内的寡核苷酸进行基于测序的筛选的示例性方法如下：snp基因分型方法，包括基于杂交的方法(例如分子信标、snp微阵列、限制性片段长度多态性；基于pcr的方法，包括等位基因特异性pcr、引物延伸-、5'-核酸酶或寡核苷酸连接分析、单链构象多态性、温度梯度凝胶电泳、变性高效液相色谱、整个扩增子的高分辨率熔解(hrm)、snplex和surveyor核酸酶分析；基于测序的突变分析，包括ptr的整个pcr扩增子的毛细管测序或高通量测序(扩增子测序)。所述高通量(ht)扩增子测序方法包括但不限于聚合酶克隆测序(polony sequencing)、焦磷酸测序、illumina(solexa)测序、solid测序、半导体测序、dna纳米球测序、heliscope单分子测序、单分子实时(smrt)测序、纳米孔dna测序、隧道电流dna测序、杂交测序、质谱测序、微流控sanger测序、基于显微镜的测序、rnap测序。
258.每个文库成员可以单独表征，并采用选择标记或dna序列标签或条形码标记，以方便文库中文库成员的选择或文库中文库成员的识别。或者，基因突变可以通过合适的测定方法直接测定，例如，高通量测序、毛细管测序或使用与预定序列杂交的特异性探针，以选择相应的寡核苷酸。
259.可能需要将文库成员定位在单独的容器中，以在容器中获得寡核苷酸文库。根据一个具体实施方案，文库以阵列形式提供，例如dna生物芯片，其中所述阵列包括固体载体上的一系列斑点。
260.本文所述术语“诱变”是指改变寡核苷酸或多核苷酸序列的过程。具体地，定点诱变是指在已知核苷酸序列中产生特定突变的方法。这种突变是一种特异性的靶向改变，可能包括单个或多个核苷酸插入、缺失或取代。这种任务可以通过限制酶，特别是核酸内切酶和/或核酸外切酶来执行。核酸内切酶切割寡核苷酸或多核苷酸中间的磷酸二酯键，而核酸外切酶切割寡核苷酸或多核苷酸5'或3'末端的磷酸二酯键。
261.本文使用的术语“算法”是指要执行动作的自包含序列。算法是一种有效的方法，可以在有限的空间和时间内用定义明确的形式语言表达，用于计算函数。从初始状态和初始输入开始，指令描述了一种计算，该计算在执行时，通过有限数量的明确定义的连续状态进行，最终产生“输出”，并在最终结束状态终止。从一种状态到另一种状态的转换必然是确定性的。
262.术语“工作流程”或“组装工作流程”是指寡核苷酸子集的最佳数量及其组装成目
标双链多核苷酸的序列。在本文提供的方法中，模板的序列可以分成子序列，对应于寡核苷酸的子集，避免了特定的核苷酸合成问题，例如回文序列、失控反应和明确组装。特别是，这种分成较短的寡核苷酸可能非常有效地缩短组装过程，并且不需要分离不想要的反应产物。具体地，寡核苷酸子集的连接产生中间反应产物，也称为中间体，并且中间反应产物的组装最终产生目标双链多核苷酸。优选可以使用上面列出的其它标准来选择寡核苷酸的子集。这些其它标准包括但不限于最大限度地减小任何单一连接反应中使用的寡核苷酸子集的大小(例如为了避免错配连接)，最大限度地缩小寡核苷酸前体子集成员的退火温度差异，最大限度地缩小不同双链亚基突出端的退火温度差异，无论是否使用移码接头或单链寡核苷酸接头，以及是否最大限度地降低组成子集的不同寡核苷酸的杂交形成部分之间的交叉杂交程度。
263.子集中寡核苷酸的数量可能会有所不同。优选子集的大小在1至100，或2至100的范围内，更优选在1至50，或2至50的范围内，并且更优选在1至10，或在2至10的范围内。
264.在其中已经最大限度地降低交叉杂交程度的子集中，由该集合的一个亚基和该集合的任何其他亚基的互补体组成的双链体或三链体包含至少一个错配。换言之，这种子集的寡核苷酸的序列与子集的每个其它寡核苷酸的序列至少相差一个核苷酸，更优选至少相差两个寡核苷酸。在特定实施例中可用的寡核苷酸标签的数量取决于每个标签的亚基数量和亚基的长度。
265.具有与组合突出端互补的序列的单链寡核苷酸接头连接目标多核苷酸中的相邻寡核苷酸。接头可以例如包括连接分别一个在3'末端，另一个在5'末端的两个相邻寡核苷酸的6个碱基，每个寡核苷酸都有3个碱基长的突出端。
266.在本发明的一个具体实施方案中，确定组装工作流程的过程由算法执行。根据本文提供的方法，系统地检查模板序列的候选划分，以找到将其划分为用于合成的子集的最佳数量和组装序列。最初，整个模板序列被视为单个子集，之后随着尺寸减小的候选寡核苷酸数量的增加而形成越来越小的子集，直到找到满足上面列出的子集标准的划分。
267.术语“组装”或“使组装”是指通过连接和/或杂交单链和/或双链寡核苷酸形成寡核苷酸或多核苷酸。具体地，所述组装通过杂交单链核苷酸序列的任何方法，和/或作为酶促和/或化学反应的连接反应进行。优选所述组装是通过体外连接方法进行。
268.目标ds多核苷酸的组装可以直接通过杂交匹配的ss寡核苷酸、ds寡核苷酸的突出端，或间接通过杂交一个或多个合适的ss寡核苷酸接头进行，其中ss寡核苷酸接头包含在文库中，并从文库中选择和转移以组装所述第一、第二或其它反应产物中的任一种。
269.对于直接组装，寡核苷酸序列通过它们的单链寡核苷酸部分或重叠部分(即重叠部分或突出端)连接在一起，使得重叠部分仅包含在连续序列中一次。在将两个具有重叠的寡核苷酸序列比对时，形成连续序列，其长度是两个单独的寡核苷酸加在一起的长度减去重叠的长度。因此，获得了包含每个比对寡核苷酸片段的连续序列。
270.对于间接组装，在比对ss寡核苷酸并通过单链接头将它们连接时，形成目标ds多核苷酸或所述第一、第二或其它反应产物中的任一种。例如，两个寡核苷酸，每个例如10个碱基长度，可以通过例如6个碱基长度的ss寡核苷酸接头连接，使得第一个寡核苷酸3'末端的3个碱基与ss接头5'末端的3个碱基对齐，并且第二个寡核苷酸5'端的3个碱基与ss接头3’末端的3个碱基对齐。
271.术语“第一、第二或其它反应产物”是指在一个或多个反应容器中进行的连接反应的产物。在第一步中，使用液体处理器将至少第一对匹配的寡核苷酸从所述文库转移到第一反应容器中，并在连接反应中组装匹配的寡核苷酸，从而获得第一反应产物。具体地，所述第一、第二和其它反应产物各自包含至少一个突出端。如果匹配的寡核苷酸包括与所述反应产物的突出端杂交的第一部分，并且进一步包括产生新反应产物另一个突出端的第二部分，则反应产物的这种突出端允许在突出端的方向上与另一个匹配的寡核苷酸进一步组装，例如，以产生具有突出端的新反应产物。或者，如果匹配的寡核苷酸仅由在突出端的全长上与突出端杂交的部分组成，例如涵盖突出端的所有核苷酸，则可以产生平末端。
272.在具体情况下，产生在一个或两个末端具有平末端的ds目标双链(ds)多核苷酸。这种平末端优选这样产生：通过将任何末端突出端与与此类突出端全长杂交的匹配ss寡核苷酸和/或ds寡核苷酸杂交，但不产生新的突出端，从而产生平末端。
273.在所述第一步骤中，使用液体处理器将一对或多对匹配的寡核苷酸和一个或多个ss寡核苷酸接头转移到所述第一反应容器中，并组装匹配的寡核苷酸，从而获得第一反应产物。优选转移到所述第一反应容器中的匹配对的数量是1、2、3、4、5、6、7、8、9、10、15、20或25，优选是4，甚至更优选是1、2或3，并且转移的ss寡核苷酸接头的数量是0、1、2、3、4、5、6、7、8、9、10、15、20或25中的任一个，优选是4，甚至更优选是1、2或3。
274.在第二步和其它步骤中，使用液体处理器将至少第二对和其它对匹配的寡核苷酸从所述文库分别转移到第二和其它反应容器中，并组装匹配的寡核苷酸，从而分别获得第二和其它反应产物，在所述第二步中，一对或多对匹配的寡核苷酸和一个或多个单链寡核苷酸接头被转移到所述第二反应容器中。优选所述第二步中转移的匹配对的数量是1、2、3、4、5、6、7、8、9、10、15、20或25，优选是4，甚至更优选是1、2或3，并且转移的单链寡核苷酸接头的数量是0、1、2、3、4、5、6、7、8、9、10、15、20或25中的任一个，优选是4，甚至更优选是1、2或3。在所述其它步骤中，一对或多对匹配的寡核苷酸和一个或多个单链寡核苷酸接头被转移到所述其它反应容器中。优选所述其它步中转移的匹配对的数量是1、2、3、4、5、6、7、8、9、10、15、20或25中的任一个，优选是4，甚至更优选是1、2或3，并且转移的单链寡核苷酸接头的数量是0、1、2、3、4、5、6、7、8、9、10、15、20或25中的任一个，优选是4，甚至更优选是1、2或3。
275.步骤和相应反应产物的数量是无限的。为了合成较大的目标ds多核苷酸，可能需要产生一系列反应产物以组装成目标多核苷酸，例如可能需要至少5、10、20、50、100、500、1.000、5.000或更多个反应产物。
276.本文所述术语“杂交”、“杂交反应”、“使杂交”和“退火”、“使退火”通常是指一种反应，其中一种或多种多核苷酸反应形成通过核苷酸残基的碱基之间的氢键结合稳定的复合物。氢键结合可以通过watson crick碱基配对、hoogstein结合或任何其他序列特异性方式发生。复合物可包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单条自杂交链、或它们的任何组合。杂交反应可以构成更广泛过程中的一个步骤，例如pcr的起始，或核酶对多核苷酸的酶促切割。
277.本文所述术语“连接”旨在表示两个核酸片段的末端通过在适当条件下形成共价键(例如磷酸二酯键)而连接在一起的过程。
278.连接产物，本文也称为反应产物，可以由双链核酸和单链核酸形成。双链核酸可以
通过“粘性末端”连接或“平末端”连接来连接。在粘性末端连接中，包含末端突出端的交错末端可以与连接配偶体杂交。在平末端连接中，不存在末端突出端，成功连接取决于5'末端和3'末端的瞬时结合。平末端连接通常比粘性末端连接效率低，并且可以采用各种优化，例如调整浓度、培养时间和温度来提高效率。单链多核苷酸也可以连接。
279.两个互补序列或充分互补序列之间的连接效率取决于所使用的操作条件，特别是严格度。严格度可以理解为表示同源性的程度；严格度越高，序列之间的同源性百分数越高。严格度可以特别由两个核酸序列的碱基组成和/或这两个核酸序列之间的错配程度来定义。通过改变条件，例如盐浓度和温度，给定核酸序列可以仅与其精确互补(高严格度)的序列或与任何某种程度相关的序列(低严格度)连接。提高温度或降低盐浓度可能会增加连接反应的选择性。
280.连接反应由酶，特别是dna连接酶进行。dna连接酶催化形成将核苷酸永久连接在一起的共价磷酸二酯键。此外，如果不存在dsdna模板，t4dna连接酶也可以连接ssdna，尽管这通常是一个缓慢的反应。可用于连接反应的酶的非限制性实例有atp依赖性双链多核苷酸连接酶、nad+依赖性dna或rna连接酶和单链多核苷酸连接酶。连接酶的非限制性实例有大肠杆菌dna连接酶、丝状栖热菌(thermus filiformis)dna连接酶、嗜热栖热菌(thermus thermophilus)dna连接酶、水管致黑栖热菌(thermus scotoductus)dna连接酶(i和ii)、环化连接酶
tm
(circligase
tm
)(威斯康星州麦迪逊市epicentre公司)、t3 dna连接酶、t4 dna连接酶、t4rna连接酶、t7dna连接酶、taq连接酶、ampligase(科技公司)、vanc型连接酶、9n dna连接酶、tsp dna连接酶、dna连接酶i、dna连接酶iii、dna连接酶iv、sso7-t3 dna连接酶、sso7-t4 dna连接酶、sso7-t7dna连接酶、sso7-taq dna连接酶、sso7-大肠杆菌dna连接酶、sso7-amp dna连接酶和耐热连接酶。连接酶可以是野生型、突变同种型和基因工程变体。连接反应可以包含缓冲液成分、小分子连接增强剂和其他反应成分。
281.优选在连接反应中使用t4 dna连接酶。在本文提供的方法中，连接反应在阻断副反应并最大限度减少错配的高保真条件下进行。
282.可以使用合适的连接缓冲液，进行组装，生成中间反应产物或目标多核苷酸。连接缓冲液是例如水溶液，通常在无核酸酶的环境中，其ph值可确保所选连接酶具有活性；ph值通常是大约7-9。优选ph通过浓度5mm至50mm的tris-hcl维持。连接缓冲液可以包括一种或多种核酸酶抑制剂，通常是钙离子螯合剂，例如edta。通常，包含的edta的浓度是大约0.1至10mm。连接缓冲液包括使所选连接酶具有活性所需的任何辅助因子。通常，这是浓度大约0.2mm至20mm的二价镁离子，通常以氯化物盐的形式提供。对于t4 dna连接酶，需要atp作为辅助因子。连接酶缓冲液还可包含还原剂，例如二硫苏糖醇(dtt)或二硫赤藓糖醇(dte)，通常浓度大约0.1mm至大约10mm。任选连接酶缓冲液可以包含减少寡核苷酸和多核苷酸非特异性结合的试剂。示例性试剂包括鲑鱼精子dna、鲱鱼精子dna、血清白蛋白、denhardt溶液等。优选调整连接条件，从而如果第一和第二寡核苷酸与目标序列连续互补区的碱基形成完全匹配的双链体，则发生连接。然而，应当理解的是，在一些实施例中，允许在第一寡核苷酸的5'末端和第二寡核苷酸的3'末端上的非配对核苷酸辅助检测或减少平末端连接可能是有利的。连接反应中的重要参数包括温度、盐浓度、变性剂(如甲酰胺)的存在与否以及浓度、第一和第二寡核苷酸的浓度以及所用连接酶的类型。选择用于反应的杂交条件的方法是本领域技术人员熟悉的。
283.优选连接在严格的杂交条件下发生，以确保仅完全匹配的寡核苷酸杂交。通常，通过调节发生杂交的温度，同时将盐浓度保持在某个恒定值(例如100mm nacl，或等同物)来控制严格度。其他因素可能是相关的，例如第一和第二寡核苷酸的特定序列、第一和第二寡核苷酸的长度以及所选连接酶的热不稳定性。优选连接反应在接近连接缓冲液中杂交寡核苷酸的解链温度的温度下进行。更优选连接反应在连接缓冲液中杂交寡核苷酸的解链温度
±
10℃的温度下进行。最优选连接反应在比连接缓冲液中杂交寡核苷酸的解链温度低0至5℃的温度下进行。
284.连接之后可以进行一个或多个扩增反应。在一些实施方案中，在扩增之前分离或富集连接产物或目标多核苷酸。分离可以通过各种合适的纯化方法实现，包括亲和纯化和凝胶电泳。例如，连接产物或目标多核苷酸可以通过固定在支持物上的选择性结合剂与附着在捕获探针上的标签的结合来分离。然后可以使用支持物将捕获探针和与捕获探针杂交的任何多核苷酸与样品反应体积的其他内容物分开或分离。然后可以将分离的多核苷酸用于扩增和进一步的样品制备步骤。在一些实施方案中，在环状目标多核苷酸扩增之前降解或选择性去除捕获探针。反应产物或目标多核苷酸的扩增可以通过本领域技术人员熟悉的各种合适的扩增方法来实现。
285.术语“衍生物”是指与原始寡核苷酸或多核苷酸不同但保留其基本特性的寡核苷酸或多核苷酸。衍生物可以例如使用双链多核苷酸(例如dna)作为起始材料，设计单链dna或互补rna分子，引入一个或多个点突变，或通过化学和/或酶促方式结合异源部分或标签来产生。
286.通常，衍生物总体上与原始寡核苷酸或多核苷酸非常相似，并且在许多区域中完全相同。实际上，可以使用已知的计算机程序，以常规方式确定任何特定的核酸分子或多肽是否至少90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％与本发明的核苷酸序列相同。用于确定查询序列(本发明的序列)和主题序列之间的最佳整体匹配的优选方法，也称为全局序列比对，可以使用基于brutlag等人算法的fastdb计算机程序来确定(comp.app.blosci.(1990)6:237-245)。在序列比对中，查询序列和主题序列都是dna序列。rna序列可以通过将u转换为t来比较。所述全局序列比对的结果以一致性百分数表示。如果主题序列由于5'或3'缺失而不是内部缺失导致比查询序列短，则必须对结果进行手动校正。这是因为fastdb程序在计算一致性百分数时并未考虑主题序列的5'和3'截断。例如，将90个碱基的主题序列与100个碱基的查询序列进行比对，以确定一致性百分数。缺失发生在主题序列的5'末端，因此fastdb比对未显示5'末端前10个碱基的匹配/对齐。10个未配对碱基代表序列的10％(5'和3'末端不匹配的碱基数/查询序列中的碱基总数)，因此从fastdb程序计算的一致性百分数分数中减去10％。如果剩余的90个碱基完全匹配，则最终的一致性百分数将是90％。在另一个实例中，将90个碱基的主题序列与100个碱基的查询序列进行比较。这次缺失是内部缺失，因此在主题序列的5'或3'上没有与查询不匹配/对齐的碱基。在这种情况下，fastdb计算的一致性百分数不进行手动校正。再一次，仅对与查询序列不匹配/对齐的主题序列的碱基5'和3'进行手动校正。
287.本发明的文库可以包含涵盖整个序列空间所必需的数千个寡核苷酸。每个寡核苷酸文库成员可以物理地放置在隔室中。所有隔室可方便地设置在装置的一个或多个部分内，这些部分一起作为“阵列装置”提供。所述阵列装置是微量滴定板、微流控微板、毛细管
组、微阵列或生物芯片(优选dna和/或rna生物芯片)中的任一种或多种。寡核苷酸可以通过自动化方式方便地转移，例如通过机器人或通过使用例如自动液体处理器的专用流体，从此隔室转移到本文称为反应隔室的其他隔室，即从一个容器转移到另一个容器。为了促进多核苷酸的时间有效组装，可以采用与寡核苷酸文库成员的使用频率相对应的反应层次和各个容器。转移到新容器涉及从相应位置拾取一个或多个寡核苷酸分子的装置的物理运动，或通过微流控进行气动/液压沉积。由于理论上构建任何给定序列需要大量寡核苷酸，扫描文库和液体处理器移动需要较长时间，文库中文库成员的大多数空间分布会导致时间和资源的浪费。然而，通过使用文库成员的特定分布，可以确保根据目标序列最大限度地减少移动。一个实例是存储到微孔板中，其中第一个板包含最常见的寡核苷酸对组合，按降序排列，直到最后一个微孔板包含最不常用的文库成员。
288.具体地，所述单独的文库容器以二维顺序在空间上排列，其中各个隔室位于x轴和y轴定义坐标处的装置内。所述顺序由主要用于缩短合成时间的参数具体预先定义。优选所述参数是使用频率，将那些经常在(例如天然存在的或常用于目标双链多核苷酸或其片段的)dna序列中形成匹配对的寡核苷酸彼此靠近放置。甚至更优选的是，所述单独的文库容器以三维顺序在空间上排列，其中各个隔室位于x轴、y轴和z轴内定义坐标处的装置内。所述顺序具体由使用频率确定，将那些经常在天然存在的dna序列中形成匹配对的寡核苷酸彼此靠近放置。具体地，文库成员的空间排列可取决于以下参数中的任何一个或多个：寡核苷酸的使用频率、寡核苷酸在天然dna序列中的出现频率、寡核苷酸在一组设计dna序列中的出现频率、最大限度地减少微流控装置的处理或访问时间、最大限度地降低微流控装置的运营成本或减少消耗品的数量。
289.在一个具体实例中，所述单独的文库容器是微孔板，以堆叠板布置，任选贴有条形码，并且可由自动化微滴处理器访问。文库成员可以方便地储存在所述堆叠的微孔板中，其中顺序和堆叠根据使用频率降序而定。
290.本文所述术语“液体处理器”、“自动处理器”或“微滴处理器”是指在液体处理方法，优选自动液体处理中使用的任何装置，优选在传感器集成机器人系统中使用的装置。随着小容量分配在生命科学中变得越来越普遍，已经出现高精度的密封微型注射器。一些手动或电子保持器设计用于精确控制活塞位移，以确保分配体积的准确性。除了注射器之外，移液器是另一种流行的液体处理工具。分配体积可以是微升或微升以下水平。建议使用多通道移液器进行一次多路移液。市场上有固定体积和可调节体积的移液器。前者更准确、精确，而后者适用范围更广，因为操作者可以根据需要选择不同的体积。此外，高通量在生命科学研究中变得至关重要。代表性的应用之一是微阵列打印。这种技术创建生物样品点阵列，每个点都在纳升范围内，从而能够只采用少量样品同时开展大量实验分析。使用手持式分配工具对数千个生物样品进行点样的过程几乎是不可能完成的任务，这使得机器人液体处理成为一个重要方面。
291.机器人工作站与手动液体处理相比具有多种优势，因为机器人不会疲倦、提高通量、一致地执行，并确保准确性和精确度。根据对集成化、多功能化平台的要求，还有其中液体处理任务只是功能一部分的更复杂的系统。液体处理的通用架构可以构建如下。首先，控制中心控制机器人在机器人工作站的分配部件和清洗站之间移动。清洗站用于清洗分液头，延长其使用寿命并确保样品安全。液体样品从分配头排出并沉积在基材上以供进一步
处理。集成传感器以监控分配部件的状态，以便控制中心可以执行反馈控制。传感器并不总是安装在所有工作站上，但越来越多地用于构建反馈回路以提供更好的性能。
292.术语“毛细管”是指玻璃毛细管、微流控毛细管和自主微流控毛细管系统中的任一种。毛细管微流控是许多不同领域的重要工具。由于其轴对称流动和耐受有机溶剂的能力，与光刻制造的聚二甲基硅氧烷(pdms)装置相比，玻璃毛细管装置在微流控应用方面具有优势。特别是，圆形管插入到方形外流道内，大大简化了这些装置的对齐和居中。这些装置可以产生从10微米到数百微米的小液滴和大液滴。
293.术语“微量滴定板”是指孔板、多孔板或微孔板中的任一种。这些板通常为2:3的矩形，具有96、384或1536个孔，但也可以使用其他腔室配置。其他一些不太常见的尺寸是6、24、3456和9600个孔。微孔板的孔通常容纳数十纳升至数毫升的液体。
294.术语“微阵列”是指其上以规则的方式附着许多通常为dna或蛋白质的分子或片段的支持材料(例如玻璃或塑料载玻片)。更具体地，它指的是在确定位置印有数千个微小点的显微镜载玻片，其中所述点能够结合dna或rna。所述载玻片通常也称为生物芯片、dna芯片、rna芯片或基因芯片。所述微阵列可以共价或非共价方式结合dna或rna，因此可以用作在预定位置(即点)储存寡核苷酸的阵列装置。
[0295]“微流控装置”能够以微滴的形式操纵离散的流体包，这为进行生物和化学分析提供了许多好处。这些好处包括大幅减少了分析所需的试剂量、所需的样品量以及大幅缩小设备本身的大小。这种技术还通过减少加热、扩散和对流混合等过程发生的体积来提高生物和化学分析的速度。一旦产生液滴，精心设计的液滴操作允许大量液滴的多路传输，从而实现大规模复杂的生物和化学分析。
[0296]
术语“微流控微孔板”是指微流控微孔板技术形式的微流控技术与标准sbs配置的96孔微孔板架构的组合。微流控微孔板可改进基本工作流程、保存样品和试剂、改进反应动力学，以及能够通过加载多种分析物提高检测灵敏度(kai et al.,2012)。
[0297]
本文所述术语“甲基转移酶”可以指dna甲基转移酶、rna甲基转移酶、蛋白质甲基转移酶和组蛋白甲基转移酶中的任一种。甲基转移酶可以进一步细分为i类甲基转移酶、ii类甲基转移酶和iii类甲基转移酶，i类甲基转移酶全部包含用于结合s-腺苷甲硫氨酸(sam)的罗斯曼折叠(rossman fold)，ii类甲基转移酶包含set域，例如set域组蛋白甲基转移酶，iii类甲基转移酶与膜相关。
[0298]
术语“crispr/cas9”是指本领域技术人员熟知的基因编辑方法及其修饰。所述修饰包括但不限于核酸酶失活的cas9(dcas9)与胞苷脱氨酶的融合，使胞苷位点特异性转化为尿嘧啶，及使cas9蛋白突变，从而产生仅产生单链dna切割(切口)的cas9蛋白形式。
[0299]
术语“多重自动化基因组工程”或“mage”是指一种通常包括将多个核酸序列引入到一个或多个细胞中，使整个细胞培养物接近涉及一系列基因组或靶向区域变化状态的技术。这种方法可用于生成等位基因的一种特定构型，或可用于设计的等位基因的组合探索，任选包括其它随机或非设计变化。
[0300]
ssdna结合蛋白介导的重组、同源重组和基于mage的方法通常包括将多个寡核苷酸引入到细胞内，包括以下步骤：使用包含寡核苷酸的转化培养基或转染培养基转化或转染细胞，采用生长培养基替换转化培养基或转染培养基，在生长培养基中培养细胞，并在必要或需要时重复这些步骤，直到将多个核酸突变引入感兴趣的核苷酸序列。增加诱变循环
的次数通常会增加引入突变的多样性。
[0301]
mage特别采用高效的λ噬菌体red重组系统(λred系统)，该系统是一种过程，通过该过程，对细胞基因组进行重新编程以通过加速定向进化的形式执行所需功能。λred系统包括β、γ和exo基因，其产物分别称为beta、gam和exo。gam抑制宿主recb、c、d核酸外切酶和sbcc、d核酸酶活性，从而使外源添加的线性dna不会降解。exo蛋白是一种dsdna依赖性核酸外切酶，它与每条链的末端结合，同时沿5'到3'方向降解另一条链。beta与产生的ssdna突出端结合，最终将它们与互补的染色体dna靶配对。λred系统已广泛用于大肠杆菌、沙门氏菌、柠檬酸杆菌和志贺氏杆菌(shigella)中的特定基因失活，以及将小的生物标签或单个基因引入到这些染色体中。
[0302]
术语“接合组装基因组工程”或“cage”是指使用接合将来自多个大肠杆菌菌株的不同基因型分层组合成单个嵌合基因组的精确的基因组组装方法。cage允许在菌株之间大规模转移指定的基因组区域，而不受体外操作的限制。通过建立包含接合机制的供体菌株和从供体接收dna的受体菌株，以成对方式组装菌株。在菌株对中，在供体和受体基因组中靶向放置转移的接合源和选择标记，能够控制所需供体-受体嵌合基因组的转移和选择。通过设计，可选择标记充当基因组锚定点，并且它们在随后的分层基因组转移轮次中循环使用。
[0303]“ago”是指argonaute蛋白，已经表明，该蛋白提供基于dna的dna干扰，其中单链dna向导可以指导质粒dna靶基于ago的切割。一个关键优势是，与crispr-cas9不同，它不需要前间区序列邻近基序(pam)。
[0304]
锌指核酸酶(zfn)和转录激活因子样效应核酸酶(talen)通过其dna结合域以序列特异性方式识别大小为25至40bp的dna靶位点，并通过foki核酸酶结构域对相反dna链的作用产生交错的双链断裂。
[0305]“大范围核酸酶”，也称为归巢核酸内切酶，可识别14到40bp之间的特异性dna序列，对切割并诱导dsb。大范围核酸酶的效率相当高，并且它们对于每个靶位点只需使用单一的定制生物聚合物。
[0306]“酪氨酸/丝氨酸位点特异性重组酶”或“tyr/ser ssr”通常识别长度在30到40bp之间的靶序列，是最早实现哺乳动物基因组同源定向修复(hdr)的基因组工程工具之一。简而言之，靶位点包括三部分，两侧有两个反向重复序列的短dna序列，重组可以在一对靶位点之间发生，其中靶位点之间的dna序列可以被删除、反向或取代。值得注意的是，虽然tyr ssr利用链交换机制而不产生双链断裂，但ser ssr确实会产生双链断裂，但与更简单的设计双链核酸酶不同，ssr需要与存在的供体dna协同切割和重新-连接。
[0307]
参照下述实施例将更充分地理解前述说明。但是，这些实施例仅代表实践本发明一个或多个实施方案的方法，不应视为限制本发明的范围。
[0308]
实施例
[0309]
在以下实施例中，描述了寡核苷酸文库和多核苷酸文库的产生方法、处理方法以及其内容和性质的验证。此外，描述了如何根据本文提供的方法合成多核苷酸。
[0310]
实施例1：寡核苷酸文库的产生
[0311]
1.1确定遗传信息的空间结构
[0312]
a.首先，必须列出要包含在文库中的所有寡核苷酸序列。这些序列是从涵盖所有
可能需要目标的输入序列集合中预先计算出来的。该信息可以来自多种标准，例如可能组合的子集(例如所有七聚体、所有八聚体等)、采用一组限制酶消化基因组的预测结果或任何其他计算标准。
[0313]
在这个实施例中，从人类参考基因组中随机采样400个编码基因，总共大约500万个碱基对，作为文库的基础。理想情况下，所有报告的序列，不仅在人类基因组中，而且在例如基因库中，都将以如下所述和图1中描述的相同方式获取和处理。
[0314]
每个参考序列被系统地划分为长度8至26bp的寡核苷酸二聚体。类似地，计算每个参考序列的反向互补序列，并将其系统地划分为长度8至26个核苷酸的寡核苷酸。接下来，通过将序列先移动1个、然后2个、然后3个，直到15个核苷酸，重复执行相同的过程。文库大小固定为536,736个寡核苷酸，包含：所有可能的八聚体，按其标准化出现率加权，得到0至1的分数，更长的寡核苷酸是9至26bp，根据它们在参考集中的发生率进行优先排序。
[0315]
即使我们只计算重叠4bp的那些，该数据库中匹配对的数量在组合上很高。一般来说，变异序列应该以类似的方式处理，这样会以非线性的方式增加多样性。例如，仅包含16个多态性位点的大约100bp窗口增加了400多个寡核苷酸和近20.000个匹配对(图1)。组合学意味着当考虑更多可变位点时，寡核苷酸文库以非多项式方式用其设计中考虑的序列变体数量来填充。
[0316]
一些寡核苷酸在单倍型间是保守的，并在文库中作为配对元件分配(图1b)。跨越可变位点(并取决于变异的程度)的寡核苷酸作为ssdna元件独立保存。
[0317]
b.文库的二维排列是通过根据优选标准对文库成员进行分选来确定的。在这里，16聚体首先按序列移位分选，然后根据它们在序列中首次出现的顺序和交替缀合对分选。当给定位置出现替代寡核苷酸时，根据其出现频率对它们进行细分。将在所有输入序列间保守的寡核苷酸与其相同位置的缀合对一起进行分配。
[0318]
反映寡核苷酸的单独使用及其匹配对的相对使用的替代标准可以是字典序、长度、匹配对的邻接、频率或任何其他任意但已知的方式。
[0319]
c.接下来，将第一序列分配到与1536微孔板中放置实际寡核苷酸的位置相对应的二维阵列中。
[0320]
d.添加后续的寡核苷酸，直到剩余的1535个孔都按照反映步骤b分选偏好的顺序全部被寡核苷酸占据。
[0321]
e.然后采用接下来的1536个寡核苷酸重复步骤c，依此类推，直到所有33.120个或更多个寡核苷酸都分布在微孔板中。
[0322]
f.这些信息以数字化方式存储以跟踪每个寡核苷酸的位置。在稍后的步骤中，这有两个目的：首先，它用作查找表，以便于更容易访问寡核苷酸；其次，它允许监控每个寡核苷酸的使用和访问频率，以跟踪可用容量。
[0323]
1.2.文库的合成
[0324]
一旦序列被正确地构建，就开展每个寡核苷酸的实际合成。实际上，所述文库由聚丙烯(优选聚丙烯，但可以使用可最大限度减少dna吸附到表面的任何材料)制造的326个1536微孔板(康宁公司(corning)1536孔板，西格玛奥德里奇公司(sigma aldrich)产品编号cls3726-50ea)组成。每块板都明确地标记和/或设有条形码，以便于访问和内容登记。
[0325]
如上所确定，每个产生的寡核苷酸都位于其预定义的板中。在这个实施例中，寡核
苷酸在5'末端被磷酸化。其他应用可能需要在3’末端、5’末端或这两个末端等采用其他修饰进行处理，例如二磷酸酯或三磷酸酯、生物素、teg或硫醇改性剂等，或进行甲基化。寡核苷酸保存在水溶液中(无核酸酶ddh20或tris 10mm ph 8.0和1mm edta)，10μl体积每个寡核苷酸/微孔，浓度为200μm(sambrook and russell,2014)。
[0326]
文库的实际产生可以采用分子生物学的标准方法，通过用核酸酶消化天然存在的dna，采用寡核苷酸合成仪等化学构建，然后采用hplc、毛细管电泳或其他技术进行分离和纯化进行。由于寡核苷酸的合成和修饰是标准的，因此也可以外包给许多服务提供商。根据这个实施例，所述文库是使用自动dna合成仪产生的，该合成仪反复进行脱氧核苷亚磷酰胺的化学反应，以将单核苷酸共价键合到固相连接的多核苷酸上(beaucage and cartuthers,1981)。
[0327]
所述文库在短期不使用时在-20℃储存，或长期在-80℃储存。
[0328]
1.3文库的使用
[0329]
a.通过将板置于3℃下至少60分钟解冻文库，然后将其保存在冰上或温度3-5℃的冷却板上。
[0330]
b.每个微孔板在行星式混合器中以2500rpm的速度涡旋30秒，然后在离心机中以900rpm的速度离心1分钟。
[0331]
c.使用小体积微液滴处理器(tpp lab tech mosquito x1)，将100nl(推荐范围：50-250nl)转移到含有1.8μl(推荐范围为1-5μl)溶液或溶液液滴的新的384微孔板中(也可使用其他容量，如96或1536孔，或表面)，其中寡核苷酸在板中组合和/或进一步反应。
[0332]
d.在数字数据库中，对各个微孔的使用体积进行了注明，以确保总是有足够所需寡核苷酸供下一轮使用。请注意，一些液体处理器可以准确实时地测量每个访问孔中的已用体积和剩余体积。此功能有助于更准确的跟踪。
[0333]
e.文库使用完毕后，将其返回到-80℃下储存。
[0334]
1.4确定文库的特性
[0335]
定义本发明文库的主要特性是i)寡核苷酸的确定长度，ii)具有至少一个突出端的单链和/或双链和iii)一定数量的寡核苷酸。本实施例中使用的文库的主要特性是i)寡核苷酸的长度是8到26nt，ii)存在具有至少一个突出端的单链和双链寡核苷酸，以及iii)文库中至少包含33.120个寡核苷酸。
[0336]
出于质量控制的目的，希望能够验证这些特性是否成立。
[0337]
i.验证寡核苷酸的长度。
[0338]
使用微滴处理器，从每个微孔中取出5-10nl的等分试样，并汇集到共同溶液中。或者，随机抽取等分试样并将其汇合到10个不同的合并溶液中，这样每个寡核苷酸仅在一个库中。一个或多个库通过涡旋混合。将每个合并溶液几微升的小等分试样开展毛细管电泳分析(kemp，1998)。或者，可以在25％丙烯酰胺凝胶上分析样品，并与6至24bp的ssdna的梯进行比较。
[0339]
ii.验证文库中存在的寡核苷酸的结构。
[0340]
ss寡核苷酸、ds寡核苷酸和具有ss突出端的ds寡核苷酸通过将给定寡核苷酸的变性但未经处理的样品与采用核酸外切酶(例如大肠杆菌核酸外切酶i(例如赛默飞科技公司核酸外切酶i，产品编en0581))处理的样品进行比较来区分。这种酶将ssdna消化成单核苷
酸和双核苷酸，但使dsdna保持完整(lehman and nussbaum,1964)。因此，未处理和处理过的样品在通过毛细管电泳检查时会给出以下结果之一：
[0341]-未处理的样品在6-26nt范围内显示单个条带，处理后的样品没有显示条带。这意味着原始样品由ss dna组成。
[0342]-未处理的样品在6-26nt范围内显示单个条带，处理后的样品显示相同的条带。这意味着原始样品由ds dna组成(不含突出端)。
[0343]-未处理的样品显示出两个不同的条带，均在6-26nt的范围内，处理后的样品显示出长度与未处理样品最小条带一致的单一条带。这意味着原始样品由具有一个突出端的dna二聚体组成。突出端的长度是未处理样品两个条带的尺寸差，ds部分的长度是处理后样品显示的长度。
[0344]-未处理样品在6-26nt范围内显示单一条带，处理后样品显示长度比未处理样品短的单一条带。这意味着原始样品由具有两个相同大小的突出端的dna二聚体组成。突出端的长度是处理后样品和未处理样品的尺寸差，ds部分的长度是处理后样品条带所示的长度。
[0345]-未处理样品显示两个条带，均在6-26nt范围内，处理后样品显示长度比未处理样品两个条带都短的单一条带。这意味着原始样品由具有两个不同大小突出端的dna二聚体组成。突出端的长度由每个条带的尺寸相对于处理后样品尺寸的差异确定，ds部分的长度是处理后样品显示的长度。
[0346]
其他分析技术(例如hplc)也可以在其谱图中表明未经处理样品的组成，直接表明存在单一种类的dna或其中两种，为文库中一个孔内寡核苷酸的性质提供直接证据。此外，圆二色性可用于区分单链和双链dna，甚至是带有突出端的dsdna。
[0347]
iii.验证寡核苷酸的数量和匹配对的数量。将每个微孔中内容物的50-100nl样品汇集到通过在95℃加热3分钟而退火的共同溶液中，并使其至少冷却至室温或降至16℃。添加连接所需的相应缓冲液，包括必要的辅助因子，例如mg+、atp等。添加足够的连接酶(例如t4连接酶，neb，产品编号m0202)催化反应(1u每μl反应溶液)。将反应混合物在室温下培养1小时或在16℃下培养1个晚上。
[0348]
根据假设，如果有足够多的匹配对，连接酶会将它们共价连接，从而产生具有随机序列的一系列长度的dna分子。通过tae上2-4％琼脂糖进行电泳来解析长度分布。样品与合适的梯(在单独的泳道上；推荐50或100bp)一起运行，显示沿样品泳道的dna弥散，没有离散的条带。通过切割梯引导的凝胶，可以分离出大约100-200bp的窄范围(sambrook and russell,2014；ch.5)。按照凝胶提取的标准方案，从切除的琼脂糖块中分离dna(例如zymoclean凝胶dna回收试剂盒，zymo research，产品编号d4001t)。纯化后的样品进行深度测序，以确定库中的不同序列(bentley et al.,2008)。
[0349]
开展以下分析，以估计寡核苷酸和匹配对的数量。如果反应起始材料由6到26nt的dna组成，并且序列不是高度重复的，则可以得出结论，平均而言，至少有2x n x 100/26个寡核苷酸(n是报告序列的数量)，以及不超过2 x n x 200/6个寡核苷酸和几乎相同的匹配对。如下所示，进一步的生物信息学分析用于提取寡核苷酸的序列。取其中一个序列的前6nt，在完整序列库中对该模式进行搜索和匹配，并注明出现次数。对7nt重复上述步骤，然后是8nt，依此类推，直到26nt。通过使用统计t-检验，确定哪个数值与随机事件显著不同。
这种独特的模式存储在推定的寡核苷酸列表中，其所有出现都从数据库中删除。剩余的序列重复这个过程，直到只剩下不能进一步划分的6到26nt之间的dna子序列，现在，这些子序列被添加到模式列表中。鉴定出的寡核苷酸的数量称为m。由于这些寡核苷酸与至少一个其他寡核苷酸相连，这意味着，连续的寡核苷酸连同它们在相反链中的部分互补序列是匹配对的一部分。因此，除了末端的那些之外，匹配对的数量至少与已鉴定寡核苷酸的数量一样多。例如，有大约m-n个匹配对。开展了统计分析和自举模拟，以确定鉴定的数量是否可以预期是至少33.120个寡核苷酸的更大集合的子样本。
[0350]
实施例2：使用实施例1的寡核苷酸文库合成128bp的目标dna分子
[0351]
在此实施例中，展示了如何通过本文提出的方法合成128bp的序列。图2a示出了感兴趣的序列(seq id no:1)，称为discover，由16个匹配对(图2b)构建而成，这些匹配对形成8个16nt的双链寡核苷酸，每条链上有4nt突出端(参见图2c)和8个互补位点。每个双链寡核苷酸分别用字母d、i、s、c、o、v、e、r表示，它们的构成前导链和后随链分别用+和-上标表示。寡核苷酸是实施例1中产生的文库的一部分。它具有以下特性：所有寡核苷酸都在5'末端被磷酸化，它们在无核酸酶的ddh2o上以200μm的浓度提供，并且使用的寡核苷酸是单链且纯的。
[0352]
a.配制退火溶液。
[0353]
在反应管中，采用252μl ddh2o配制含有tris-hcl(50mm)、mgcl2(10mm)、dtt(10mm)和atp(1mm)的溶液。ph值设置为7.5。一些商业缓冲液(例如新英格兰生物实验室的连接酶反应缓冲液，产品编号b0202s)可以在h2o中混合，并且容易包含连接酶活性所需的atp。溶液通过涡旋充分混合。将28μl这种混合溶液分配到4x2阵列中的8个微孔中。将1μl的每个寡核苷酸转移到板的预定义微孔中，并通过移液充分混合：
[0354]
d+和d-移到a1孔中
[0355]
i+和i-移到a2孔中
[0356]
s+和s-移到a3孔中
[0357]
c+和c-移到a4孔中
[0358]
o+和o-移到b1孔中
[0359]
v+和v-移到b2孔中
[0360]
e+和e-移到b3孔中
[0361]
r+和r-移到b4孔中
[0362]
b.退火。
[0363]
将板密封并在热循环仪中在95℃下培养5分钟，使单链寡核苷酸的匹配对退火。然后使用每分钟降低1℃的降温速率将温度降低至16℃。降温完成后，双链寡核苷酸保持在16℃。
[0364]
c.配制连接溶液。
[0365]
连接溶液通过在冰上按以下顺序混合13.3μl无核酸酶ddh2o、2μl连接酶缓冲液和4μl atp制备，最终浓度为1mm。连接溶液通过涡旋和离心充分混合。加入0.7μl t4连接酶(neb，产品编号m0202)，每μl最终溶液共加入1个单位，并通过轻轻移液充分混合。溶液在需要前一直保持在冰上。将2.5μl连接溶液转移到含有b双链寡核苷酸的8个微孔中的每一个微孔内，并通过移液混合。然后将该板再次密封。
[0366]
d.连接轮次。
[0367]
对于第一轮连接，如下合并以下孔：d+i、s+c、o+v、e+r。这是通过将一个孔的内容物转移到另一个孔中(也可以将两个孔的内容物转移到新孔中)来实现的。使用将最左边的内容物转移到最右边的方案(图3a)。连接反应混合物在16℃下培养至少1小时。重复该过程将孔di+sc和ov+er合并(图3b)，并再次将每个孔培养1小时。对于最后一轮连接，将孔disc+over合并，并再培养1小时(图3c)。含有128bp产物的最终体积是140μl。
[0368]
e.纯化。
[0369]
制备具有11个孔梳的2％琼脂糖凝胶(50ml tae中加入1mg琼脂糖，并加入5μl sybr safe dna染色剂)。将4.5μl 50bp梯(新英格兰生物实验室产品编号n3236或invitrogen产品编号10416014)添加到第一个泳道上，并将步骤d获得的140μl溶液分配到其余孔中。将凝胶在85v、200ma和12瓦下运行50分钟。电泳完成后，将凝胶置于紫外透照仪上，切下对应于128bp片段的凝胶条带。这些条带的纯化可以使用用于所述目的的商业试剂盒(例如zymoclean，参见前面的实施例)进行，或遵循任何用于此目的的标准方案进行。
[0370]
f.扩增。
[0371]
为了进一步增加产物数量，将步骤d所得产物采用pcr扩增(sambrook and russell,2014；chapter 8)。起始16nt d-和r+用作所述扩增的引物。扩增后，将构建体从酶和引物中分离出来并分成两等份，一份标记并在-20℃储存供进一步使用，另一份用于对构建体进行序列验证。
[0372]
图4描述了显示了该过程中间步骤和最终结果的丙烯酰胺凝胶。在泳道6和7中，上部条带对应于128bp目标双链多核苷酸。将该构建体分离(从2％琼脂糖凝胶分离；未示出)、纯化、扩增和两条链都开展sanger测序。所得序列与目标及其反向互补序列相同。
[0373]
实施例3：用于复杂序列或rna合成的目标dna序列的后处理。
[0374]
3.1代理双链多核苷酸的设计
[0375]
在这个实施例中，合成了双链多核苷酸，其工作流程通常包括一个不明确的步骤，例如自互补的寡核苷酸二聚体(例如图5a)。由于必须从工作流程中排除这种自互补二聚体以避免不必要的失控反应，因此通过用不同的碱基替换自互补元件来设计模板序列，从而使最终的组装工作流程明确无误。根据该模板，合成了代理双链多核苷酸。
[0376]
图5a描述了感兴趣的序列。下划线部分表示序列中能够自互补和自聚合的那些部分。为了避免这些序列，设计了包含跨越三个寡核苷酸的两个碱基对修饰的模板序列(图5b)。
[0377]
如实施例2中所示，采用本文所述方法合成了代理双链多核苷酸。选择代理序列以与实施例2的寡核苷酸o-和v+一致，因此，其合成完全按照上述进行。
[0378]
一旦合成了代理双链多核苷酸，按照如下所述产生具有与感兴趣序列相同的序列的双链多核苷酸。采用定向诱变原理，即在pcr扩增时，采用原始目标序列替换合成的代理双链多核苷酸中排除的目标序列部分。
[0379]
合成完成后，纯化128bp的代理双链多核苷酸，准备pcr反应。在该反应混合物中，不仅包括3'末端引物，还包括一对“诱变引物”(attb)。这些诱变引物在诱变元件(在本实施例中是三个碱基)的任一侧具有十个与代理序列完全重叠的核苷酸。根据这些规定，在本例中，通过使用标准化反应条件和试剂的商业试剂盒(taq pcr试剂盒，新英格兰生物实验室
公司，产品编号e5000s)，执行标准pcr，以检索具有与soi相同序列的双链多核苷酸(sambrook and russell,2014；ch.13)。
[0380]
3.2rna的产生
[0381]
具有给定目标序列的rna分子也必须使用代理双链多核苷酸产生。这分两步完成。首先，必须计算感兴趣的rna序列的反向互补序列(即dna序列)。dna序列是将要合成的序列。其次，将特定的启动子序列整合到模板dna序列中，以便被随后将dna转录成rna的dna依赖性酶识别(rio,2011)。在本例中，我们使用了t7 rna聚合酶i系统。必要的步骤是：
[0382]
a.dna模板的设计。对于给定感兴趣的rna序列，计算其dna反向互补序列，包括反向互补序列5'末端的t7 rna pol启动子序列taatacgactcactatag(seq id no:24)。
[0383]
b.代理ds多核苷酸的合成。如实施例2中所述(也参见实施例1和3.1)，根据步骤3.2.a的dna模板合成代理ds dna多核苷酸。在合成代理dna后，将它的末端进行修饰以产生平末端。在33um的每种dntp存在下，通过在25℃下，以1单位/微克大肠杆菌dna聚合酶i大klenow片段培养15分钟使ss突出端变平，并通过添加10mm etda，在75℃加热20分钟使其失活(从新英格兰生物实验室获得，产品编号m0210；sambrook and russell,2014；ch.12)。接下来，纯化代理ds多核苷酸，并再次扩增和纯化：下面描述的rna合成反应最少需要1μg dna。
[0384]
c.rna的转录、后处理和纯化。遵循rna转录的标准方案(例如，hiscribe t7 arca mrna试剂盒，新英格兰生物实验室，产品编号e2060等)，其中包括从代理dna合成rna。为了从代理dna合成rna，采用以下方案：
[0385]
将1-3ug dna溶解在由2μl 2x rntp混合物、2μl t7 rna聚合酶混合物和18ul不含核酸酶的水组成的溶液中，然后在37℃下培养30分钟，从而产生rna分子。通过加入2μl dnase并在37℃下培养15分钟以消化模板dna来停止反应，然后使用前面实施例中所述的离心柱纯化所得rna。
[0386]
实施例4：使用实施例1的寡核苷酸文库合成608bp的目标dna分子
[0387]
在该实施例中，展示了如何使用本文提供的方法合成608bp的目标双链多核苷酸(soi是序列“ribbon_test_608”，seq id no：26)。寡核苷酸是实施例1中产生的文库的一部分。寡核苷酸具有与实施例2中相同的特性。
[0388]
在反应板中以不对称方式制备寡核苷酸，以便在第四次连接时获得不同大小的部分构建体。608bp的序列是通过完成四轮连接得到一个128bp的反应产物和三个160bp的反应产物，然后将其纯化并再进行两轮连接，从而获得608bp目标双链多核苷酸的每条链。
[0389]
4.1配制退火溶液
[0390]
制备864μl退火溶液的预混液，其由772μl ddh2o和92μl t4连接酶缓冲液构成。将21.6μl这种混合溶液分配到38个微孔中。将0.7μl的每个寡核苷酸(150μm)转移到板的预定义微孔中，并通过移液混合。
[0391]
部分互补的单链寡核苷酸来自实施例1的文库，并放置在96孔板上的特定孔中，如图6所示。为了简单起见，寡核苷酸根据它们在板上放置以进行退火的位置命名。如实施例2中，前导链和后随链分别用+和-上标表示；参见fasta格式的seq id no:27至102的序列。请注意，e-g行第2-7列中的孔有意保持为空。
[0392]
4.2退火
[0393]
退火如实施例2中进行。
[0394]
4.3配制连接溶液
[0395]
连接溶液的制备与实施例2类似，但将数量调整为80μl，足够用于38个反应孔。即：7.2μl无核酸酶的ddh2o、8μl连接酶缓冲液、40μl atp，涡旋混合后，加入24.8μl t4连接酶，通过移液混合。
[0396]
用分配器将2μl所得溶液转移到b中38个反应孔中的每一个孔中以准备连接，然后使用多通道移液器轻轻混合。
[0397]
4.4前四轮连接
[0398]
对于第一轮连接，将(1-7)列全部内容物分别从a行和c行的孔转移到b行和d行，并分别从e1和g1孔转移到f1和h1。使用多通道移液器进行转移，然后轻轻混合。此方案与实施例2中方案相当：将最左侧的内容转移到最右侧的孔中。将板密封，并将反应混合物在热循环仪中在16℃培养至少1小时。请注意，第2-7行的e至g孔保持是空的。
[0399]
对于第二轮连接，打开板，通过移液从(1-7)列b行的孔转移到d行的孔内，及从孔f1转移到h1，并混合，将全部内容物转移。将板再次密封，并在16℃培养至少1小时。
[0400]
对于第三轮连接，打开板，通过移液从(1-7)列d行的孔转移到h行的孔内，然后混合，将全部内容物转移。将板再次密封，并在16℃培养至少1小时。
[0401]
对于第四轮连接，打开板，通过移液分别从孔h2、h4和h6转移到孔h3、h5和h7内，然后混合，将全部内容物转移。请注意，孔h1保持不变。将板再次密封，并在16℃培养至少1小时。
[0402]
4.5中间纯化
[0403]
按照实施例2的e部分制备三个琼脂糖凝胶，具有7个泳道梳，包括50bp梯。将d部分的h1孔中的内容物分配到凝胶的六个泳道中(每个泳道上33μl)。将内容物h3、h5和h7分配到另外两个凝胶的三个泳道中(每个泳道上41μl)。如实施例2部分e中所示运行凝胶，然后根据需要进行条带切除(凝胶1的2-4泳道为128bp，凝胶1和凝胶2的其余泳道为80bp)。如实施例2e部分中所述进行纯化，将含有相同合成子的样品合并在相同的纯化柱中。4个样品中的每一个样品都用10μl ddh2o(如zymoclean纯化试剂盒中所示)洗脱，在35℃下加热以提高洗脱效率。将内容物转移到一排pcr反应管中，并以s1到s4进行标记。
[0404]
从s1和s4中取出0.5μl样品，并在0.5μl ddh2o中稀释。这些样品用于通过分光光度法(nanodrop 2000，赛默飞世尔科技公司)在260nm估计dna浓度，结果分别为1.52μg/μl和1.98μg/μl。假设样品s2和s3的摩尔浓度范围相似。
[0405]
4.6配制连接溶液
[0406]
将样品置于冰中。向样品s1和s4中加入0.5μl ddh2o(以补偿e部分中测量所取的0.5μl)。通过向每个样品中加入1.14μl连接酶缓冲液来准备连接反应。在s1和s3中加入0.3μl t4连接酶。通过移液混合溶液。
[0407]
4.7最后两轮连接
[0408]
对于第五轮连接反应，通过分别从管1和管3移液到管2和管4中，然后混合，将全部内容物转移。将管密封。将反应物在热循环仪中在16℃下培养80分钟。
[0409]
对于最后一轮连接反应，通过从管2移液到管4中，然后混合，将全部内容物转移。将管密封。将反应物在热循环仪中在16℃下培养80分钟。这样就完成了分层合成过程。
[0410]
4.8最后纯化
[0411]
采用8泳道梳的2％琼脂糖凝胶进行纯化。第一条泳道包含50bp梯，如实施例2e部分所示。将完整样品与10μl不含sds的紫色上样染料混合，并分配到单个泳道中。凝胶在100v、200ma、12瓦下运行45分钟。图7显示了所得凝胶。切除对应于608bp预期大小的上条带，并使用20μl加热至35℃的ddh2o水，用zymo凝胶提取试剂盒纯化，如实施例2的e部分所示。如果该样品采用分光光度法估计该溶液含有10ng/μl样品，则使用0.5μl样品。
[0412]
4.9测序
[0413]
将溶液分成两个样品，一个大约10μl，一个大约9.5μl。向每个样品溶液中加入引物(“引物1”和“引物2”)，并用sanger方法测序。中央可靠区域的测序结果证实了目标ds多核苷酸与soi完全的序列一致性。
[0414]
实施例5：使用实施例1的寡核苷酸文库合成10.000bp的dna分子
[0415]
在此实施例中，根据实施例1的文库设计，通过使用形成具有4个核苷酸突出端的ds二聚体的26bp寡核苷酸，展示了由10.000bp感兴趣序列组成的ds多核苷酸的构建。
[0416]
5.1序列处理
[0417]
a.计算感兴趣序列前导链的反向互补序列，并在两个序列(前导链和反向互补序列)中去除3'末端的最后4个核苷酸。这样得到两个单链模板序列，一个对应于soi的前导链，另一个对应于soi的反向互补序列，在3'末端减去4个核苷酸。
[0418]
b.将两个单链模板的序列对齐，得到双链模板序列，然后将其划分为较短的序列，称为寡核苷酸子集或子序列，出现在文库中包含的寡核苷酸中，它们在文库中的位置采用数字注明。
[0419]
c.确定允许明确组装步骤b中所确定子序列的工作流程。
[0420]
5.2反应
[0421]
除非另外说明，以下所有步骤均在16℃下进行，所有溶液均在冰上制备并保存。
[0422]
a.制备700μl 2x连接酶缓冲液的ddh20溶液，并将1.8μl这种预混液分配到384微孔板的每个孔中。
[0423]
b.按照在目标序列中出现的顺序，从文库中提取0.1μl与4.1步骤b ss模板序列中确定的子序列(所述序列是soi的前导链减去3’末端的4个核苷酸)对应的每个寡核苷酸文库成员，并分配到348微孔板的微孔中，从孔a1、b1、
……
、p1开始，然后推进到后续的列a2、b2等，直到所有寡核苷酸都分配到孔中。
[0424]
c.按照反向序列的顺序，从文库中提取0.1μl与4.1步骤b ss模板序列中确定的子序列(所述序列是soi的反向互补序列减去3’末端的4个核苷酸)对应的每个寡核苷酸文库成员，并分配到步骤b的微孔板中，再次从孔a1开始，直到所有寡核苷酸都分配到孔中。此时，每个微孔包含两个具有22个互补bp和包含4个核苷酸的突出端的寡核苷酸。总之，这些孔现在应该包含寡核苷酸文库成员的匹配对。
[0425]
d.将微孔板密封并在热循环仪中从95℃开始，然后以每分钟1℃的降温速率降至16℃开展退火。
[0426]
e.制备800μl包含t4连接酶的预混连接反应溶液，浓度为每微升ddh2o溶液中20个粘性末端单位，并将2μl该溶液分配到板的384个孔中。
[0427]
f.将微孔板在离心机中以1000g脉冲离心。
[0428]
g.包含溶液的行使用以下公式列举：2
t-1
k，其中t是层数，t＝1、2、3、4，k是填充孔各行的索引，r＝k＝1,
…
,16/2
t-1
。这样，第一层中所有行都被列举，第二层中只有一半，依此类推。
[0429]
h.使用多通道微量移液器或液体处理器，将每个奇数索引行孔中的内容物转移到最右侧偶数索引列的孔中。
[0430]
i.转移内容物后，直接采用微量移液器或处理器通过移液轻轻混合溶液。
[0431]
j.反应培养60分钟，使连接反应完成。
[0432]
k.将步骤g-j再重复四次，直到只有微孔板的最后一行(p)被填充，从而导致总共24个剩余填充孔。
[0433]
l.将24个孔中每一个孔的内容物(含48μl)转移到24个反应管中，并按照新英格兰生物实验室的monarch pcr&dna纯化试剂盒(产品编号t1030)准备在柱中进行纯化，得到6μl仅包含长度超过100bp的中间反应产物的纯化溶液。
[0434]
m.将纯化溶液转移到新的三联8个pcr管中，并以8行x3列的方式排列。
[0435]
n.取17.5μl步骤e中的溶液，加入7.5μl连接酶缓冲液(10x)，最终浓度为7x，每管分配1μl该溶液。
[0436]
o.反应以与步骤h-j相同的方式再进行3次，得到三个填充管(最后一行每列一个)。
[0437]
p.将第1列的内容物转移到第2列，保留第3列不变。
[0438]
q.反应培养1小时。
[0439]
r.将第2列的内容物转移到第3列。
[0440]
s.反应培养1小时。
[0441]
t.制备0.8％琼脂糖凝胶，并将样品与10kbp梯一起上样。将凝胶在100v下运行45分钟。
[0442]
u.使用标准方案和试剂盒(本例中推荐使用zymo clean，亦参见实施例1)，从凝胶块中提取和纯化对应于10k bp的条带。
[0443]
5.3定型和扩增
[0444]
a.从文库中选择两个26bp长的寡核苷酸，它们与soi 3'末端的最后26个核苷酸互补，即它们还包括在4.1步骤a中缺失的4个核苷酸。这两个寡核苷酸在pcr反应中用作引物，该pcr反应准备扩增最终产物，并将剩余的4bp添加到每条链上，以完成具有平末端的10.000bp序列。
[0445]
b.如4.2步骤l所示，pcr产物用标准试剂盒纯化，以去除剩余的寡核苷酸、酶和试剂，留下最终的dna产物，即具有与soi相同序列的双链多核苷酸，用于下游应用。
[0446]
实施例6：多核苷酸文库的产生
[0447]
在此实施例中，展示了如何从模板合成包含各种核心序列的dna文库，其在预先指定的位置发生变化，并具有相同的突出端。
[0448]
提供了包含两个可变位点的128bp序列作为模板。图10示出了模板序列(seq id no:218)，以粗体表示位置29和71处的两个可变位点。两个可变位点中的每一个位点将包括四个核苷酸a、c、g和t，最终产物是模板16个变体的混合文库。
[0449]
6.1配制退火溶液
[0450]
寡核苷酸是实施例1中产生的文库的一部分。寡核苷酸具有与实施例2相同的特性，它们的序列在图10中列出。退火溶液如实施例2a中那样制备，但总体积为240ul，足够用于总共14次退火反应。
[0451]
对于每个可变位点，需要4对寡核苷酸，当退火时，它们仅在内部位点不同，并导致相同的突出端。这些标记为2.1、2.2、2.3、2.4和5.1、5.2、5.3、5.4，其中前导链用“+”标记，后随链用
“‑”
标记(图10)。
[0452]
每一对寡核苷酸，以及其他构成寡核苷酸，如实施例2中一样单独退火。如实施例2所示，将寡核苷酸1、3、4、6、7和8转移到微孔板中的位置，而寡核苷酸2.x+/-置于孔c1-c4中，寡核苷酸5.x+/-置于孔d1-d4中。例如，2.1+和2.1-放在孔c1中，2.2+和2.2-放在孔c2中等。
[0453]
6.2退火
[0454]
退火如实施例2中进行。
[0455]
6.3配制连接溶液
[0456]
连接溶液按实施例2制备。
[0457]
6.4连接轮次
[0458]
在将微孔板保持在16℃(或者，在冰上)的同时，将编码基因座每个可变位点的四个二聚体汇集到一个共同的反应隔室(反应管)中，在寡核苷酸2.x的情况下为a2，在寡核苷酸5.x的情况下为b1。换言之，将2.1、2.2、2.3和2.4(分别在孔c1、c2、c3和c4中)各5ul转移到孔a2中，类似地，将5.1、5.2、5.3和5.4各5ul(分别在孔d1、d2、d3和d4中)转移到b1孔中。
[0459]
三层连接轮次完全按照实施例2进行，以完成16个不同128bp多核苷酸文库的合成，这些多核苷酸具有两个具有完全多态性的可变位点及相同的突出端。
[0460]
将这些128bp合成子汇集在一起，如实施例2中所述进行纯化和扩增。由于它们具有相同的突出端，可以将多核苷酸变体汇合在一起，而没有彼此退火的风险，从而明显简化了文库的处理。
[0461]
为了证实合成成功，使用sanger测序和新一代测序验证了样品中的序列，结果表明样品中存在期望的16个变体(图14)。
[0462]
实施例7：使用pcr引物富集多核苷酸
[0463]
在此实施例中，展示了如何通过pcr扩增来富集所需连接产物(基因片段)的产量(数量)。这种富集方法也用于富集实施例6文库中的多核苷酸。由于酶促连接反应的性质，重复的连接反应层级导致未反应的部分dna片段(以下称为杂质)积聚，可能会干扰和进一步降低后续连接步骤的效率。中间体合成子产物的扩增可明显降低杂质的相对数量，从而最大限度地减少它们对下游过程的干扰作用。
[0464]
为了能够进行进一步的连接轮次，通过pcr实施这种扩增-富集纯化，其中采用交错重退火步骤形成粘性末端。
[0465]
交错重退火方法已成功应用于模板dna的pcr产物与载体的连接(ailenberg and silverman,1996；walker et al,2008)以及用于定点诱变，随后连接到载体中。我们当前基于pcr的交错重退火方法的实施例是新颖的，因为它被用作多核苷酸文库组装中的纯化或富集步骤，而不是将其用于将模板dna插入到载体中。
[0466]
寡核苷酸是实施例1中产生的文库的一部分。在反应板中以不对称方式制备寡核
苷酸，以便通过第三层连接获得不同大小的部分合成子。部分合成子(四个128bp片段和一个96bp片段)的富集通过基于pcr的交错重退火方法进行，允许重新引入粘性末端，并进行更高层次的连接。因此，通过完成四个128bp片段和96bp之一的富集合成子的第四轮连接，获得608bp目标序列(seq id no:105)。
[0467]
7.1中间合成子的合成
[0468]
如实施例2和4中所述进行四个128bp和一个96bp合成子的合成。寡核苷酸是实施例1中产生的文库的一部分，具有以下特性：所有寡核苷酸都在5'末端被磷酸化，它们在无核酸酶的ddh2o上以150μm的浓度提供，并且使用的寡核苷酸是单链且纯的。
[0469]
7.2中间合成子的扩增
[0470]
采用基于pcr的方法用于128bp合成子的扩增。为了产生粘性末端以便进一步连接，采用ailenberg and silverman，1996描述的方法。设计参见图1。使用两组引物用于每个合成子的2个pcr反应。
[0471]
在合成子1、2、3、4、5中pcr扩增后引入粘性末端需要以下引物：
[0472]
syn1_pcr1_fw1aacgctactactattagtagaattgseq id no:182syn1_pcr2_fw2ctactactattagtagaattgseq id no:183syn1_pcr1_rev1tgcgaacgagtagatttagseq id no:184syn1_pcr2_rev2attctgcgaacgagtagatttagseq id no:185syn2_pcr1_fw1gaattgggaatcaactgttacatggseq id no:186syn2_pcr2_fw2tgggaatcaactgttacatggseq id no:187syn2_pcr1_rev1taagaggtcatttttgcggatggseq id no:188syn2_pcr2_rev2aggtcatttttgcggatggseq id no:189syn3_pcr1_fw1cttatcaaaaggagcaattaaaggseq id no:190syn3_pcr2_fw2tcaaaaggagcaattaaaggseq id no:191syn3_pcr1_rev1aagattaagaggaagcccgseq id no:192syn3_pcr2_rev2caaaaagattaagaggaagcccgseq id no:193syn4_pcr1_fw1tttgatgcaatccgctttgcttctgseq id no:194syn4_pcr2_fw2atgcaatccgctttgcttctgseq id no:195syn4_pcr1_rev1tcgtcataaatattccttgseq id no:196syn4_pcr2_rev2ggaatcgtcataaatattcattgseq id no:197syn5_pcr1_fw1ttccgcagtattggacgctatccagseq id no:198syn5_pcr2_fw2gcagtattggacgctatccagseq id no:199syn5_pcr1_rev1taaaaaccaaaatagcgagagseq id no:200syn5_pcr2_rev2acgataaaaaccaaaatagcgagagseq id no:201
[0473]
pcr在5'端(总pcr产物的25％)和3'端(总pcr产物的另外25％)引入的突出端是目标dna序列的一部分。
[0474]
a.pcr反应。
[0475]
pcr1和pcr2反应混合物，各20ul，包含根据高保真dna聚合酶(m0530)pcr方案的各种成分：5ul 5x phusion gc缓冲液、0.5ul 10mm dntp、1.25ul正向和反向10um引物、1ul 128bp合成子连接混合物、0.75ul dmso、0.25ul phusion dna聚合酶和14.5ul水。
[0476]
128bp、96bp合成子pcr的热循环条件：
[0477][0478]
b.粘性末端pcr产生。
[0479]
粘性末端通过将20ul pcr1产物(对于每个合成子)添加到20ul pcr2产物和40ul(混合物的50％)甲酰胺中形成。温和混合后，将反应在98℃加热5分钟使dna变性，然后在65℃培养5分钟，让互补链重新退火，最后在22℃保持10分钟。产物在琼脂糖凝胶(1.5％)上验证。
[0480]
7.3粘性末端形成后pcr产物的纯化(必要的话)。
[0481]
20ul pcr混合物的纯化如下进行：根据制造商(biolabs england)方案，使用spri磁珠(尺寸选择，使用ampure xp磁珠
–
neb next fast dna library prep set for ion torrent(e6270))并进行修改，或使用寡核苷酸纯化快速方案，使用pcr&dna纯化试剂盒(5μg)(neb#t1030)并进行修改。
[0482]
纯化后，采用nanodrop测定dna的数量并处理用于连接步骤。
[0483]
7.4连接含有粘性末端的128bp或96bp合成子的pcr产物。
[0484]
为了合成608bp，将等摩尔量的中间合成子进行连接。连接可以设置为“一锅反应”，其中将所有五个中间合成子(合成子1+合成子2+合成子3+合成子4+合成子5)混合，并同时连接或设置为分层连接，其中第一轮配对连接在合成子1+合成子2之间，及合成子3+合成子4之间进行，产生256bp片段，这些片段依次在另一轮中连接，最后与合成子5连接。
[0485]
用于连接的预混液包含2ul 10x t4连接酶缓冲液(neb)、0.5ul 1mm atp、1.5ul t4 dna连接酶(neb)、1ul ddh2o。对于配对连接，使用每个合成子的7.5ul pcr混合物。对于“一锅反应”，使用了5个合成子中每一个合成子的3ul pcr混合物。
[0486]
7.5最终扩增和序列验证
[0487]
为了验证608bp产物，使用一对引物：syn1_pcr1_fw1和syn5_pcr2_rev2(实施例7.2中提供的序列)，从连接混合物扩增，随后如实施例4(步骤4.8)所示进行凝胶纯化。得到的样品按实施例4(步骤4.9)中的方法制备，并采用sanger方法进行测序。
[0488]
实施例8：使用pcr引物富集1024bp多核苷酸
[0489]
采用实施例7的方法，富集了1024bp的多核苷酸。本实施例中使用的寡核苷酸是实施例1中产生的文库的一部分。在反应板中以不对称方式制备寡核苷酸，以便通过第四层连接获得不同大小的部分合成子。部分合成子(四个256bp片段)的富集通过基于pcr的交错重退火方法进行，允许重新引入粘性末端，并进行更高层次的连接。因此，通过完成四个256bp
片段富集合成子的第五轮连接，获得1024bp目标序列(seq id no:362)。
[0490]
8.1中间合成子的合成
[0491]
如实施例2和4中所述进行四个256bp合成子的合成。寡核苷酸(图13所列)是实施例1中产生的文库的一部分，具有以下特性：所有寡核苷酸都在5'末端被磷酸化，它们在无核酸酶的ddh2o上以150μm的浓度提供，并且使用的寡核苷酸是单链且纯的。
[0492]
8.2中间合成子的扩增
[0493]
采用基于pcr的方法用于256bp合成子的扩增。为了产生粘性末端以便进一步连接，采用ailenberg and silverman，1996描述的方法。设计参见图1。使用两组引物用于每个合成子的2个pcr反应。
[0494]
在合成子1、2、3、4中pcr扩增后引入粘性末端需要以下引物：
[0495][0496][0497]
pcr在5'端(总pcr产物的25％)和3'端(总pcr产物的另外25％)引入的突出端是目标dna序列的一部分。
[0498]
a.pcr反应。
[0499]
pcr1和pcr2反应混合物，各20ul，包含根据高保真dna聚合酶(m0530)pcr方案的各种成分：5ul 5x phusion gc缓冲液、0.5ul 10mm dntp、1.25ul正向和反向10um引物、1ul 256bp合成子连接混合物、0.75ul dmso、0.25ul phusion dna聚合酶和14.5ul水。
[0500]
256bp合成子pcr的热循环条件：
[0501][0502]
b.粘性末端pcr产生。
[0503]
粘性末端通过将20ul pcr1产物(对于每个合成子)添加到20ul pcr2产物和40ul(混合物的50％)甲酰胺中形成。温和混合后，将反应在98℃加热5分钟使dna变性，然后在65℃培养5分钟，让互补链重新退火，最后在22℃保持10分钟。产物在琼脂糖凝胶(1.5％)上验证。
[0504]
8.3粘性末端形成后pcr产物的纯化(如有必要)。
[0505]
20ul pcr混合物的纯化如下进行：根据制造商(biolabs england)方案，使用spri磁珠(尺寸选择，使用ampure xp磁珠
–
neb next fast dna library prep set for ion torrent(e6270))并进行修改，或使用寡核苷酸纯化快速方案，使用pcr&dna纯化试剂盒(5μg)(neb#t1030)并进行修改。
[0506]
纯化后，采用nanodrop测定dna的数量并处理用于连接步骤。
[0507]
8.4连接含有粘性末端的256bp合成子的pcr产物。
[0508]
为了合成1024bp，将等摩尔量的中间合成子进行连接。连接可以设置为“一锅反应”，其中将所有四个中间合成子(合成子1+合成子2+合成子3+合成子4)混合，并同时连接或设置为分层连接，其中第一轮配对连接在合成子1+合成子2之间，及合成子3+合成子4之间进行，产生512bp片段，这些片段依次在另一轮中连接。
[0509]
用于连接的预混液包含2ul 10x t4连接酶缓冲液(neb)、0.5ul 1mm atp、1.5ul t4 dna连接酶(neb)、1ul ddh2o。对于配对连接，使用每个合成子的8ul pcr混合物。对于“一锅反应”，使用了4个合成子中每一个合成子的4ul pcr混合物。
[0510]
8.5最终扩增和序列验证
[0511]
为了验证1024bp产物，使用一对引物：syn1_pcr1_fw1和syn4_pcr2_rev2(实施例7.2中提供的序列)，从连接混合物扩增，随后如实施例4(步骤4.8)所示进行凝胶纯化。得到的样品按实施例4(步骤4.9)中的方法制备，并采用sanger方法进行测序，确认产物与所需的序列匹配。
[0512]
实施例9：多核苷酸文库的富集方法，包括固定步骤
[0513]
在本实施例中，展示了如何使用本文提供的方法，通过将生物素化合成子固定到具有抗生物素蛋白的固相而将其纯化，以高纯度合成608bp的目标ds多核苷酸(soi是序列“ribbon_m13_608”，seq id no:105)。
[0514]
寡核苷酸是实施例1中产生的文库的一部分。寡核苷酸具有与实施例2相同的特
性，它们的序列(包括生物素化)在图9中列出。简而言之，放置在微孔板a行的主要寡核苷酸(即a1+、a2+、a3+、a4+和a5+)经过生物素化处理，并购自以高纯度提供它们的cro(医药研发外包服务商)。
[0515]
在反应板中以不对称方式制备寡核苷酸，以便在第四次连接时获得不同大小的部分构建体。608bp序列是通过完成四轮连接获得四种128bp的反应产物和一种96bp的反应产物实现的。这些产物中的每一个都包含5'生物素修饰。随后固定到抗生物素蛋白包被的磁珠上，可以纯化合成子，从而提高它们的纯度，但不可避免地会损失质量，从而降低其产量。后续采用如实施例7中说明的纯化合成子的富集来增加产量。所得合成子再进行两轮连接，从而获得608bp目标ds多核苷酸的每条链。
[0516]
9.1中间产物合成子的组装
[0517]
合成子的退火及其四层连接轮次完全按照实施例2和4进行。值得注意的是，5'生物素化寡核苷酸不会干扰连接反应，因为它们对应于产物合成子的5'突出端。
[0518]
因为连接反应不是100％有效，并且因为它们在某种程度上是序列非特异性的，所以反应溶液不仅包含所需的产物，还包含许多其他多核苷酸，正如丙烯酰胺凝胶中多种条带所表明的那样。
[0519]
此外，下一代测序(外包给cro)证实了样品中存在目标合成子，并且样品中还存在不完全的产物和不正确的组装。
[0520]
9.2中间产物合成子的纯化
[0521]
为了提高产物合成子的纯度，通过调整供应商描述的核酸固定方案，将这些合成子固定在抗生物素蛋白包被的磁珠(invitrogen dynabeadstm m-270链霉抗生物素蛋白(streptavidin)，目录编号65305，65306)上。即对五种反应产物中的每一种都应用以下步骤：
[0522]
a.制备链霉抗生物素蛋白包被的磁珠：采用50μl的2
×
b&w缓冲液(10mm tris-hcl ph 7.5、1mm edta、2m nacl和0.05％tween20)清洗50μl磁珠三次，以去除多余的叠氮化钠抑菌剂，并重新悬浮在50μl 2x b&w缓冲液中。将20ul磁珠转移到空容器(pcr反应管)中，并将溶液冷却至4℃。同时在冰箱中冷却金属板。
[0523]
b.将合成子与抗生物素蛋白包被的磁珠结合：将20ul含有产物合成子的溶液(步骤9.1)转移到含有磁珠的管中，培养1小时；每10分钟摇动一次。
[0524]
c.清除溶液中的反应副产物：
[0525]
·
将反应管放在保持在冰上的冷却金属板上。
[0526]
·
通过移液转移40ul上清液(含有反应副产物)，并储存在-12℃供进一步分析，或舍弃。
[0527]
·
将40ul的b&w缓冲液加入到含磁珠的容器中，将样品洗涤3次，重新悬浮并舍弃上清液。
[0528]
·
从金属板上取下反应管。
[0529]
·
加入40ul b&w缓冲液，并在30℃下培养25分钟。
[0530]
·
将反应管放在金属板上并萃取出上清液。将上清液储存在-15℃供进一步分析或舍弃。
[0531]
d.从抗生物素蛋白包被的磁珠中释放产物合成子：在室温下用milliq水清洗磁珠
3次。在热循环仪中，将样品从30℃加热到70℃。达到热平衡后，在70℃下放置1秒，然后从热循环仪中取出样品。
[0532]
e.将样品与磁珠分开：将反应管放在金属板上，通过移液将上清液转移到新的反应管中。
[0533]
丙烯酰胺凝胶电泳结果(按实施例2制备)表明目标合成子纯度得到提高。
[0534]
9.3中间产物合成子的扩增
[0535]
磁珠纯化的产物合成子通过如实施例7所示pcr扩增进一步富集。这一步是必要的，原因有二。首先，由于产物合成子包含5'生物素化，因此它们随后无法连接形成更长的反应产物。然而，通过使用引入所需突出端的适当引物进行pcr，可以克服这种限制。其次，pcr扩增导致产量增加，这是在随后的连接断裂中获得可检出产物量所必需的。
[0536]
9.4最后两轮连接、最终纯化和序列验证
[0537]
如实施例4(步骤4.6和4.7)制备和完成进一步的连接轮次，随后如实施例4(步骤4.8)进行凝胶纯化。得到的样品按实施例4(步骤4.9)中的方法制备，并采用sanger方法进行测序。
[0538]
实施例10：通过模板复制富集和纯化多核苷酸文库的方法，包括固定步骤
[0539]
在此实施例中，展示了如何通过使用聚合酶和复制引物进行模板复制以及使用抗生物素蛋白固定到固相上来增加中间连接产物(基因片段)的产量。
[0540]
10.1中间产物合成子的组装
[0541]
合成子的退火及其四级连接轮次完全按照实施例2和4进行，以获得256bp的“中间合成子”(包括seq id no:105的前256bp)，其将是组装更大的目标多核苷酸过程的一部分。组成寡核苷酸是实施例1中产生的文库的一部分，具有以下特性：所有寡核苷酸都在5'末端磷酸化，但有两个例外。在256bp中间合成子的前导链和后随链形成5'末端的两个寡核苷酸含有5'生物素修饰，以便稍后固定每条链和进行模板复制(如下所述)。所有寡核苷酸在无核酸酶的ddh2o上以150μm的浓度提供，并且使用的寡核苷酸是单链且纯的。
[0542]
随后固定到链霉抗生物素蛋白包被的磁珠上，可以用pcr引物富集这些产物，并引入粘性末端。值得注意的是，5'生物素化寡核苷酸不会干扰前四轮连接，因为这些修饰的寡核苷酸对应于中间合成子的5'突出端。
[0543]
10.2通过固定化模板复制纯化和富集中间合成子
[0544]
采用基于酶(聚合酶)的方法富集256bp中间合成子，产生粘性末端，以实现进一步连接。为此，在两个单独的反应中使用两组引物，在聚合酶复制过程中在每个单独的反应中分别在每个前导链和后随链的5'末端引入突出端。每条前导链的这些突出端都相同，每条后随链的突出端都相同，但前导链的突出端与后随链的突出端不同。重要的是，前导链的突出端与后随链的突出端不互补。
[0545]
通过将包含10.1产生的256bp中间合成子的样品分成两个相等的等分试样-样品a和样品b，两者的数量均为20ul，从而产生两个反应模板。256bp合成子的前导链和后随链通过其5'末端的生物素修饰分别固定在链霉抗生物素蛋白包被的磁珠上。具体地，样品a包含固定在磁珠上的前导链，而样品b包含固定在磁珠上的后随链。
[0546]
在每个反应中，5'引物包含前导链(样品a)和后随链(样品b)的突出端，而3'引物是寡核苷酸文库中相应链的互补序列。在每个反应中，一条dna链(样品a中的前导链和样品
b中的后随链)用作模板，因此在每个复制循环中都会产生一条新的互补链。反应示意图在图12中提供。
[0547]
以下步骤适用于样品a和样品b：
[0548]
a.制备链霉抗生物素蛋白包被的磁珠：如实施例9.2所示。
[0549]
b.将合成子与抗生物素蛋白包被的磁珠结合：如实施例9.2.b所示。
[0550]
c.用于富集的磁珠上合成子(模板)复制：总体积为20ul的两种反应混合物中的每一种都包含实施例8.2所述的成分，但考虑仅使用fw1(样品a)和rev2(样品b)引物(如表中所示)。用于复制的热循环仪条件如实施例8.2中所述。
[0551]
d.纯化和去除的洗涤如实施例9.2.c所述。
[0552]
e.分离：如实施例9.2.d和e所示。
[0553]
f.用于目标多核苷酸回收的合并和再退火：然后如实施例2.b和5.2d中所解释的那样合并和退火包含富集纯形式的前导链(样品a)和后随链(样品b)的每个样品。
[0554]
10.3最后连接轮次、最终纯化和序列验证
[0555]
如实施例4(步骤4.6和4.7)制备和完成进一步的连接轮次，随后如实施例4(步骤4.8)进行凝胶纯化，或采用基于磁珠的纯化。得到的样品按实施例4(步骤4.9)中的方法制备，并采用ngs方法进行测序，确认富集的256bp合成子的序列与模板序列对应。
[0556]
参考文献
[0557]
ailenberg m，silverman m.(1996)description of a one step staggered reannealing method for directional cloning of pcr-generated dna using sticky-end ligation without employing restriction enzymes.iubmb life，39(4)：771-9.
[0558]
anderson，s.，bankier，a.t.，barrell，b.g.et al.(1981)sequence and organization of the human mitochondrial genome.nature，290：457-465.
[0559]
beaucage，s.l.and caruthers，m.h.(1981)deoxynucleoside phosphoramidites-a new class of key intermediates for deoxypolynucleotide synthesis.tetrahedron letters 22：1859-1862.
[0560]
bentley，d.r.，et al.(65 authors)(2008)accurate whole human genome sequencing using reversible terminator chemistry.nature，456：53-59.
[0561]
bonde，m.t.，kosuri，s.，genee，h.j.，sarup-lytzen，k.，church，g.m.，sommer，m.o.a.and wang h.h.(2014)direct mutagenesis of thousands of genomic targets using microarray-derived oligonucleotides.acs synthetic biology 4(1)：17-22.
[0562]
chari，r.and church，g.m.(2017)beyond editing to writing large genomes.nature reviews genetics，in press.
[0563]
engler，c.，kandzia，r.and marillonnet，s.(2008)a one pot，one step，precision cloning method with high through put capability.plos one 3(11)：e3647.
[0564]
farzadfard，f.and timothy，k.l.(2014)genomically encoded analog memory with precise in vivo dna writing in living cell populations.science 346(6211)：1256272.
[0565]
gao，x.，leproust，e.m.，zhang，h.，srivannavit，o.gulari，e.，yu，p.，
step assembly of complex dna constructs.plasmid，59(3)：155-62.