工程化蔗糖磷酸化酶变体酶的制作方法
时间:2022-02-24 阅读: 作者:专利查询
工程化蔗糖磷酸化酶变体酶1.本技术要求2019年7月2日提交的美国临时专利申请序列第62/869,670号的优先权,该美国临时专利申请出于所有目的通过引用以其整体并入。发明领域2.本发明提供了工程化蔗糖磷酸化酶(sp)、具有sp活性的多肽,和编码这些酶的多核苷酸,以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生sp酶的方法。本发明还提供了包含sp酶的组合物,以及使用工程化sp酶的方法。本发明尤其可用于药物化合物的产生。3.对序列表、表格或计算机程序的引用4.序列表的正式副本作为ascii格式的文本文件经由efs-web与本说明书同时提交,文件名为“cx2-192usp1_st25.txt”,创建日期为2019年7月1日,并且大小为278千字节。经由efs-web提交的序列表为说明书的一部分并且通过引用以其整体并入本文。5.发明背景6.被称为人类免疫缺陷病毒(hiv)的逆转录病毒是获得性免疫缺陷综合征(aids)的病原体,获得性免疫缺陷综合征(aids)是一种复杂的疾病,涉及受影响个体的免疫系统的逐渐破坏以及中枢和外周神经系统的退化。逆转录病毒复制的一个共同特征是通过病毒编码的逆转录酶对病毒rna基因组进行逆转录,以产生病毒复制所需的hiv序列的dna拷贝。一些化合物诸如mk-8591是已知的逆转录酶抑制剂,并可用于治疗aids和类似疾病。虽然存在已知抑制hiv逆转录酶的一些化合物,但是在本领域中仍然需要能够更有效地抑制这种酶并从而改善对aids的效果的另外的化合物。7.由于其与用于合成dna的天然核苷的相似性,核苷类似物诸如mk-8591(merck)是hiv的逆转录酶的有效抑制剂。逆转录酶与这些类似物的结合通过抑制逆转录酶的前进性性质(progressivenature)来使dna的合成停滞。酶的停滞导致dna分子的提前终止,使其无效。然而,通过标准化学合成技术产生核苷类似物可能由于其化学复杂性而具有挑战。8.发明概述9.本发明提供了工程化蔗糖磷酸化酶(sp)、具有sp活性的多肽,和编码这些酶的多核苷酸,以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生sp酶的方法。本发明还提供了包含sp酶的组合物,以及使用工程化sp酶的方法。本发明尤其可用于药物化合物的产生。10.本发明提供了工程化蔗糖磷酸化酶,所述工程化蔗糖磷酸化酶包含与seqidno:2和/或seqidno:4具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多肽序列或其功能片段,其中所述工程化蔗糖磷酸化酶包括在所述多肽序列中包含至少一个取代或取代集的多肽,并且其中所述多肽序列的氨基酸位置参照seqidno:2和/或seqidno:4编号。在一些实施方案中,多肽序列与seqidno:2具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,并且其中所述工程化蔗糖磷酸化酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集:7、10、48、136、158、205、207、211、215、301、333、378、397和400,其中所述多肽序列的氨基酸位置参照seqidno:2编号。在一些实施方案中,工程化蔗糖磷酸化酶的多肽序列与seqidno:2具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,并且其中工程化蔗糖磷酸化酶的多肽在所述多肽序列中的一个或更多个位置处包含选自以下的至少一个取代或取代集:7m、7v、7y、10w、48d、136r、158r、205e、205l、207l、211v、215v、301g、333g、378f、397l、397s、397t和400g,其中所述多肽序列的氨基酸位置参照seqidno:2编号。在一些实施方案中,工程化蔗糖磷酸化酶的多肽序列与seqidno:2具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,并且其中工程化蔗糖磷酸化酶的多肽在所述多肽序列中的一个或更多个位置处包含选自以下的至少一个取代或取代集:l7m、l7v、l7y、y10w、g48d、p136r、p158r、c205e、c205l、m207l、t211v、i215v、q301g、a333g、y378f、v397l、v397s、v397t和d400g,其中所述多肽序列的氨基酸位置参照seqidno:2编号。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:2具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:2具有至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:2具有至少95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。11.在一些实施方案中,本发明提供了一种工程化蔗糖磷酸化酶,所述工程化蔗糖磷酸化酶具有的多肽序列与seqidno:4具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,并且其中所述工程化蔗糖磷酸化酶的多肽在所述多肽序列中选自以下的一个或更多个位置处包含至少一个取代或取代集:10/215/400、158、158/207/215、158/207/215/301/400、158/207/215/400、158/207/400、158/211/400、158/215/301/400、158/215/400、158/301/400、158/400、205、207、207/215、207/215/400、207/400、215/301、215/400、242/400、301、301/400和400,其中所述多肽序列的氨基酸位置参照seqidno:4编号。在一些实施方案中,本发明提供了一种工程化蔗糖磷酸化酶,所述工程化蔗糖磷酸化酶具有的多肽序列与seqidno:4具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%或更多的序列同一性,并且其中所述工程化蔗糖磷酸化酶的多肽在所述多肽序列中的一个或更多个位置处包含选自以下的至少一个取代或取代集:10w/215v/400g、158r、158r/207l/215v、158r/207l/215v/301g/400g、158r/207l/215v/400g、158r/207l/400g、158r/211v/400g、158r/215v/301g/400g、158r/215v/400g、158r/301g/400g、158r/400g、205l、207l、207l/215v、207l/215v/400g、207l/400g、215v/301g、215v/400g、242g/400g、301g、301g/400g和400g,其中所述多肽序列的氨基酸位置参照seqidno:4编号。在一些实施方案中,本发明提供了一种工程化蔗糖磷酸化酶,所述工程化蔗糖磷酸化酶具有的多肽序列与seqidno:4具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%或更多的序列同一性,并且其中所述工程化蔗糖磷酸化酶的多肽在所述多肽序列中的一个或更多个位置处包含选自以下的至少一个取代或取代集:y10w/i215v/d400g、p158r、p158r/m207l/i215v、p158r/m207l/i215v/q301g/d400g、p158r/m207l/i215v/d400g、p158r/m207l/d400g、p158r/t211v/d400g、p158r/i215v/q301g/d400g、p158r/i215v/d400g、p158r/q301g/d400g、p158r/d400g、c205l、m207l、m207l/i215v、m207l/i215v/d400g、m207l/d400g、i215v/q301g、i215v/d400g、e242g/d400g、q301g、q301g/d400g和d400g,其中所述多肽序列的氨基酸位置参照seqidno:4编号。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:4具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:4具有至少90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。在一些实施方案中,工程化蔗糖磷酸化酶包含与seqidno:4具有至少95%、96%、97%、98%、99%或更多的序列同一性的多肽序列。12.在一些另外的实施方案中,本发明提供了工程化蔗糖磷酸化酶,其中工程化蔗糖磷酸化酶包含与表3-1和/或表4-1中所列的至少一种工程化蔗糖磷酸化酶变体的序列至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多相同的多肽序列。13.在一些另外的实施方案中,本发明提供了工程化蔗糖磷酸化酶,其中工程化蔗糖磷酸化酶包含与seqidno:2和/或seqidno:4至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多相同的多肽序列。在一些实施方案中,工程化蔗糖磷酸化酶包括seqidno:4中所列的变体工程化蔗糖磷酸化酶。14.本发明还提供了工程化蔗糖磷酸化酶,其中工程化蔗糖磷酸化酶包含与seqidno:4-84中偶数编号的序列中所列的至少一种工程化蔗糖磷酸化酶变体的序列至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多相同的多肽序列。15.本发明还提供了工程化蔗糖磷酸化酶,其中与野生型广栖异斯卡多维亚菌(alloscardoviaomnicolens)蔗糖磷酸化酶相比,所述工程化蔗糖磷酸化酶包含至少一种改进的性质。在一些实施方案中,改进的性质包括改进的对底物的活性。在一些另外的实施方案中,底物包括蔗糖或相关的二糖或其他化合物和/或无机磷酸盐。在一些另外的实施方案中,改进的性质包括改进的化合物(1)和/或化合物(3)产生。在又一些另外的实施方案中,工程化蔗糖磷酸化酶是纯化的。本发明还提供了组合物,所述组合物包含至少一种本文提供的工程化蔗糖磷酸化酶。16.本发明还提供了多核苷酸序列,所述多核苷酸序列编码至少一种本文提供的工程化蔗糖磷酸化酶。在一些实施方案中,编码至少一种工程化蔗糖磷酸化酶的多核苷酸序列包括与seqidno:1和/或seqidno:3具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多核苷酸序列。在一些实施方案中,编码至少一种工程化蔗糖磷酸化酶的多核苷酸序列包括与seqidno:1和/或seqidno:3具有至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性的多核苷酸序列,其中所述工程化蔗糖磷酸化酶的多核苷酸序列在一个或更多个位置处包含至少一个取代。在一些另外的实施方案中,编码至少一种工程化蔗糖磷酸化酶或其功能片段的多核苷酸序列包含与seqidno:1和/或seqidno:3的至少85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性。在又一些另外的实施方案中,多核苷酸序列可操作地连接到控制序列。在一些另外的实施方案中,多核苷酸序列是密码子优化的。在又一些另外的实施方案中,多核苷酸序列包括seqidno:3-83中奇数编号的序列中所列的多核苷酸序列。17.本发明还提供了表达载体,所述表达载体包含至少一种本文提供的多核苷酸序列。本发明还提供了包含至少一种本文提供的表达载体的宿主细胞。在一些实施方案中,本发明提供了包含本文提供的至少一种多核苷酸序列的宿主细胞。18.本发明还提供了在宿主细胞中产生工程化蔗糖磷酸化酶的方法,所述方法包括在合适的条件下培养本文提供的宿主细胞,从而产生至少一种工程化蔗糖磷酸化酶。在一些实施方案中,方法还包括从培养物和/或宿主细胞回收至少一种工程化蔗糖磷酸化酶。在一些另外的实施方案中,方法还包括纯化所述至少一种工程化蔗糖磷酸化酶的步骤。19.发明描述20.本发明提供了工程化蔗糖磷酸化酶(sp)、具有sp活性的多肽,和编码这些酶的多核苷酸,以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生sp酶的方法。本发明还提供了包含sp酶的组合物,以及使用工程化sp酶的方法。本发明尤其可用于药物化合物的产生。21.除非另外定义,本文使用的所有技术和科学术语通常具有与本发明所属领域普通技术人员通常理解的相同的含义。通常,本文使用的命名法和下文描述的细胞培养、分子遗传学、微生物学、有机化学、分析化学和核酸化学中的实验程序是本领域中熟知的并且普遍地采用的那些。这样的技术是熟知的,并且在本领域技术人员熟知的许多教科书和参考著作中进行了描述。对于化学合成和化学分析使用了标准技术或其修改形式。本文(上文和下文两者)提及的所有专利、专利申请、文章和出版物,特此通过引用明确并入本文。22.尽管本发明的实践中可使用类似或等同于本文描述的那些的任何合适的方法和材料,但本文描述了一些方法和材料。应理解本发明不限于所描述的特定方法、方案和试剂,因为这些可以根据本领域技术人员使用它们的情况而改变。因此,下文即将定义的术语通过参考本发明作为整体而被更充分地描述。23.应理解,上文的一般描述和下文的详细描述仅是示例性的和说明性的,而不是限制本发明。本文使用的章节标题仅用于组织目的,并且不被解释为限制所描述的主题。数值范围包括限定该范围的数字。因此,本文公开的每个数值范围意图包括落在这样的较宽数值范围内的每一较窄数值范围,如同这样的较窄数值范围在本文被全部清楚地写出。还意图本文公开的每个最大的(或最小的)数值限制包含每个较低(或较高)的数值限制,如同此类较低(或较高)数值限制在本文被清楚地写出。24.缩写和定义25.用于遗传编码的氨基酸的缩写是常规的,并且如下:丙氨酸(ala或a)、精氨酸(arg或r)、天冬酰胺(asn或n)、天冬氨酸(asp或d)、半胱氨酸(cys或c)、谷氨酸(glu或e)、谷氨酰胺(gln或q)、组氨酸(his或h)、异亮氨酸(ile或i)、亮氨酸(leu或l)、赖氨酸(lys或k)、甲硫氨酸(met或m)、苯丙氨酸(phe或f)、脯氨酸(pro或p)、丝氨酸(ser或s)、苏氨酸(thr或t)、色氨酸(trp或w)、酪氨酸(tyr或y)和缬氨酸(val或v)。26.当使用三字母缩写时,除非前面具体地有“l”或“d”,或者从使用缩写的上下文清楚看出,否则氨基酸可以是关于α-碳(cα)的l-构型或d-构型的。例如,“ala”表示丙氨酸而不指定关于α-碳的构型,而“d-ala”和“l-ala”分别表示d-丙氨酸和l-丙氨酸。当使用单字母缩写时,大写字母表示关于α-碳的l-构型的氨基酸,并且小写字母表示关于α-碳的d-构型的氨基酸。例如,“a”表示l-丙氨酸并且“a”表示d-丙氨酸。当多肽序列以一串单字母或三字母缩写(或其混合)呈现时,根据常规惯例将序列呈现为氨基(n)至羧基(c)方向。27.用于遗传编码核苷的缩写是常规的并且如下:腺苷(a);鸟苷(g);胞苷(c);胸苷(t);和尿苷(u)。除非具体描述,否则缩写的核苷可以是核糖核苷或2'-脱氧核糖核苷。核苷可以基于单独地或基于总体地指定为核糖核苷或2'-脱氧核糖核苷。当核酸序列以单字母缩写串呈现时,序列按照常规惯例呈现为5'至3'方向,并且不示出磷酸。28.参考本发明,本文的描述中使用的技术和科学术语将具有本领域普通技术人员通常理解的含义,除非另有具体定义。因此,以下术语意在具有以下含义。29.除非上下文另外清楚地指明,否则如本文使用的单数形式“一(a)”、“一(an)”和“该(the)”包括复数指代物。因此,例如对“多肽(apolypeptide)”的提及包括多于一个多肽。30.类似地,“包括(comprise、comprises、comprising)”、“包括(include、includes和including)”是可互换的,而不意图为限制性的。因此,如本文使用的,术语“包括(comprising)”及其同源词以其包括性意义被使用(即,等同于术语“包括(including)”及其相应的同源词)。31.还应理解,在各种实施方案的描述使用术语“包括(comprising)”的情况下,本领域技术人员将理解,在一些具体实例中,可以可选择地使用“基本上由...组成”或“由...组成”的语言描述实施方案。32.如本文使用的,术语“约”意指特定值的可接受误差。在一些实例中,“约”意指在给定值范围的0.05%、0.5%、1.0%或2.0%内。在一些实例中,“约”意指在给定值的1、2、3或4个标准差内。33.如本文使用的,“ec”编号是指生物化学和分子生物学国际联合命名委员会(nomenclaturecommitteeoftheinternationalunionofbiochemistryandmolecularbiology)(nc-iubmb)的酶命名法。该iubmb生物化学分类是基于酶催化的化学反应的酶数字分类系统。34.如本文使用的,“atcc”是指美国典型培养物保藏中心(americantypeculturecollection),其生物保藏收集物包括基因和菌株。35.如本文使用的,“ncbi”是指美国国家生物技术信息中心(nationalcenterforbiologicalinformation)和其中提供的序列数据库。36.如本文使用的,“蔗糖磷酸化酶”(“sp”)是催化无机磷酸盐和蔗糖及相关化合物诸如其他二糖转化为果糖和葡萄糖-1-磷酸和/或相关化合物的酶。sp酶可以是天然存在的,包括广栖异斯卡多维亚菌的野生型sp酶或在人类、细菌、真菌、植物或其他物种中发现的其他蔗糖磷酸化酶或己糖基转移酶,或者sp酶可以是通过人类操纵而产生的工程化多肽。37.如本文使用的,“磷酸戊糖变位酶”(“ppm”)是催化核糖1-磷酸可逆异构化为核糖5-磷酸和催化相关化合物诸如脱氧核糖磷酸以及核糖磷酸的类似物和脱氧核糖磷酸的类似物的可逆异构化的酶。38.如本文使用的,“嘌呤核苷磷酸化酶”(“pnp”)是催化嘌呤核糖核苷和相关化合物(例如脱氧核糖核苷以及核糖核苷的类似物和脱氧核糖核苷的类似物)可逆磷酸化为游离嘌呤碱基和核糖-1-磷酸(及其类似物)的酶。[0039]“脱氧核糖磷酸醛缩酶”和“dera”在本文中可互换使用,是指裂合酶家族中可逆地裂解或产生碳-碳键的多肽。如本文使用的脱氧核糖磷酸醛缩酶包括天然存在的(野生型)脱氧核糖磷酸醛缩酶以及由人类操纵而产生的非天然存在的工程化多肽。野生型脱氧核糖磷酸醛缩酶催化2-脱氧-d-核糖5-磷酸向d-甘油醛3-磷酸和乙醛的可逆反应。[0040]“蛋白”、“多肽”和“肽”在本文可互换使用,以表示无论长度或翻译后修饰(例如,糖基化或磷酸化),通过酰胺键共价连接的至少两个氨基酸的聚合物。该定义中包括d-氨基酸和l-氨基酸、以及d-氨基酸和l-氨基酸的混合物、以及包含d-氨基酸和l-氨基酸以及d-氨基酸和l-氨基酸的混合物的聚合物。[0041]“氨基酸”通过其通常已知的三字母符号或通过iupac-iub生物化学命名委员会推荐的单字母符号在本文被提及。同样地,核苷酸可以通过其通常可接受的单字母代码被提及。[0042]如本文使用的,“亲水性氨基酸或残基”指的是具有根据eisenberg等人的标准化共有疏水性量表(normalizedconsensushydrophobicityscale)表现出小于零的疏水性的侧链的氨基酸或残基(eisenberg等人,j.mol.biol.,179:125-142[1984])。遗传编码的亲水氨基酸包括l-thr(t)、l-ser(s)、l-his(h)、l-glu(e)、l-asn(n)、l-gln(q)、l-asp(d)、l-lys(k)和l-arg(r)。[0043]如本文使用的,“酸性氨基酸或残基”是指当氨基酸被包含在肽或多肽中时,具有表现出小于约6的pka值的侧链的亲水氨基酸或残基。由于氢离子的损失,酸性氨基酸在生理ph通常具有带负电荷的侧链。遗传编码的酸性氨基酸包括l-glu(e)和l-asp(d)。[0044]如本文使用的,“碱性氨基酸或残基”是指当氨基酸被包含在肽或多肽中时,具有表现出大于约6的pka值的侧链的亲水氨基酸或残基。由于与水合氢离子的缔合,碱性氨基酸在生理ph通常具有带正电荷的侧链。遗传编码的碱性氨基酸包括l-arg(r)和l-lys(k)。[0045]如本文使用的,“极性氨基酸或残基”是指具有在生理ph不带电荷但具有其中两个原子共同共有的电子对被其中一个原子更紧密地保持(heldmoreclosely)的至少一个键的侧链的亲水氨基酸或残基。遗传编码的极性氨基酸包括l-asn(n)、l-gln(q)、l-ser(s)和l-thr(t)。[0046]如本文使用的,“疏水性氨基酸或残基”指的是具有根据eisenberg等人的标准化共有疏水性量表表现出大于零的疏水性的侧链的氨基酸或残基(eisenberg等人,j.mol.biol.,179:125-142[1984])。遗传编码的疏水氨基酸包括l-pro(p)、l-ile(i)、l-phe(f)、l-val(v)、l-leu(l)、l-trp(w)、l-met(m)、l-ala(a)和l-tyr(y)。[0047]如本文使用的,“芳族氨基酸或残基”是指具有包括至少一个芳族或杂芳族环的侧链的亲水或疏水氨基酸或残基。遗传编码的芳族氨基酸包括l-phe(f)、l-tyr(y)和l-trp(w)。尽管由于其杂芳族氮原子的pka,l-his(h)有时被归类为碱性残基,或因为其侧链包括杂芳族环而被归类为芳族残基,但在本文中,组氨酸被归类为亲水残基或为“受限残基(constrainedresidue)”(参见下文)。[0048]如本文使用的,“受限氨基酸或残基”是指具有受限几何形状的氨基酸或残基。本文中,受限残基包括l-pro(p)和l-his(h)。组氨酸具有受限的几何形状,因为它具有相对小的咪唑环。脯氨酸具有受限的几何形状,因为它也具有五元环。[0049]如本文使用的,“非极性氨基酸或残基”是指具有在生理ph不带电荷并具有其中两个原子共同共有的电子对通常由两个原子各自同等地保持(即侧链不是极性的)的键的侧链的疏水氨基酸或残基。遗传编码的非极性氨基酸包括l-gly(g)、l-leu(l)、l-val(v)、l-ile(i)、l-met(m)和l-ala(a)。[0050]如本文使用的,“脂肪族氨基酸或残基”是指具有脂肪族烃侧链的疏水氨基酸或残基。遗传编码的脂肪族氨基酸包括l-ala(a)、l-val(v)、l-leu(l)和l-ile(i)。值得注意的是,半胱氨酸(或“l-cys”或“[c]”)是不常见的,因为它可以与其他l-cys(c)氨基酸或其他含磺酰基或巯基的氨基酸形成二硫化物桥。“半胱氨酸样残基”包括半胱氨酸和含有可用于形成二硫化物桥的巯基部分的其他氨基酸。l-cys(c)(和具有含-sh侧链的其他氨基酸)以还原的游离-sh或氧化的二硫化物桥接形式存在于肽中的能力影响l-cys(c)对肽贡献净疏水特征还是亲水特征。虽然根据eisenberg的归一化共有标度(eisenberg等人,1984年,上文),l-cys(c)表现出0.29的疏水性,但是应当理解,为了本公开内容的目的,l-cys(c)被分类为其自身独特的组。[0051]如本文使用的,“小氨基酸或残基”是指具有包括总计三个或更少的碳和/或杂原子(不包括α-碳和氢)的侧链的氨基酸或残基。根据上述定义,小氨基酸或残基可进一步分类为脂肪族、非极性、极性或酸性小氨基酸或残基。遗传编码的小氨基酸包括l-ala(a)、l-val(v)、l-cys(c)、l-asn(n)、l-ser(s)、l-thr(t)和l-asp(d)。[0052]如本文使用的,“含羟基的氨基酸或残基”是指含有羟基(-oh)部分的氨基酸。遗传编码的含羟基的氨基酸包括l-ser(s)、l-thr(t)和l-tyr(y)。[0053]如本文使用的,“多核苷酸”和“核酸”是指共价连接在一起的两个或更多个核苷酸。多核苷酸可以完全包含核糖核苷酸(即rna)、完全包含2'脱氧核糖核苷酸(即dna)或包含核糖核苷酸和2'脱氧核糖核苷酸的混合物。虽然核苷典型地将经由标准磷酸二酯连接连接在一起,但多核苷酸可以包括一个或更多个非标准连接。多核苷酸可以是单链或双链的,或者可以包括单链区域和双链区域二者。此外,虽然多核苷酸通常包含天然存在的编码核苷碱基(即腺嘌呤、鸟嘌呤、尿嘧啶、胸腺嘧啶和胞嘧啶),它可以包含一种或更多种经修饰和/或合成的核苷碱基,诸如例如肌苷、黄嘌呤、次黄嘌呤等。在一些实施方案中,这样的经修饰或合成的核苷碱基是编码氨基酸序列的核苷碱基。[0054]如本文使用的,“核苷”是指包含核苷碱基(即含氮碱基)和5-碳糖(例如核糖或脱氧核糖)的糖基胺。核苷的非限制性实例包括胞苷、尿苷、腺苷、鸟苷、胸苷和肌苷。相比之下,术语“核苷酸”是指包含核苷碱基、5-碳糖和一个或更多个磷酸基团的糖基胺。在一些实施方案中,核苷可以被激酶磷酸化以产生核苷酸。[0055]如本文使用的,“核苷二磷酸”是指包含核苷碱基(即含氮碱基)、5-碳糖(例如核糖或脱氧核糖)和二磷酸(即焦磷酸)部分的糖基胺。在本文的一些实施方案中,“核苷二磷酸”缩写为“ndp”。核苷二磷酸的非限制性实例包括胞苷二磷酸(cdp)、尿苷二磷酸(udp)、腺苷二磷酸(adp)、鸟苷二磷酸(gdp)、胸苷二磷酸(tdp)和肌苷二磷酸(idp)。在一些情形中,术语“核苷”和“核苷酸”可互换使用。[0056]如本文使用的,“编码序列”是指核酸(例如基因)编码蛋白质的氨基酸序列的部分。[0057]如本文使用的,术语“生物催化(biocatalysis)”、“生物催化(biocatalytic)”、“生物转化”和“生物合成”是指使用酶来对有机化合物进行化学反应。[0058]如本文使用的,“野生型”和“天然存在的”是指在自然界中发现的形式。例如野生型多肽或多核苷酸序列为生物体中存在的序列,其可从天然来源分离且未通过人为操纵被有意地修饰。[0059]如本文使用的,当关于细胞、核酸或多肽使用时,“重组”、“工程化”、“变体”和“非天然存在的”是指已经以自然界原本不存在的方式修饰的材料或相应于该材料的天然或自然形式的材料。在一些实施方案中,细胞、核酸或多肽与天然存在的细胞、核酸或多肽相同,但由合成材料和/或通过使用重组技术操纵产生或衍生。非限制性实例包括,除其他以外,表达自然(非重组)形式的细胞中未发现的基因或表达原本以不同水平表达的自然基因的重组细胞。[0060]术语“序列同一性百分比(%)”在本文中用于指多核苷酸或多肽之间的比较,并通过比较比较窗中两条最佳比对的序列确定,其中多核苷酸或多肽序列在比较窗中的部分与参考序列相比可以包括添加或缺失(即,空位),以用于两个序列的最佳比对。百分比可以通过如下计算:确定两个序列中出现相同核酸碱基或氨基酸残基的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗中位置的总数目,并将结果乘以100以得到序列同一性百分比。可选地,百分比可以通过如下计算:确定两个序列中出现相同的核酸碱基或氨基酸残基或者核酸碱基或氨基酸残基与空位对齐的位置的数目以产生匹配位置的数目,将匹配位置的数目除以比较窗中位置的总数目,并将结果乘以100以得到序列同一性的百分比。本领域技术人员理解,存在许多可用于比对两个序列的已建立的算法。用于比较的序列的最佳比对可以通过任何合适的方法进行,包括但不限于smith和waterman的局部同源性算法(smith和waterman,adv.appl.math.,2:482[1981]),[0061]通过needleman和wunsch的同源性比对算法(needleman和wunsch,j.mol.biol.,48:443[1970]),通过pearson和lipman的相似性搜索方法(pearson和lipman,proc.natl.acad.sci.usa85:2444[1988]),通过这些算法的计算机化实现(例如,gcgwisconsin软件包中的gap、bestfit、fasta和tfasta),或者通过目视检查,如本领域已知的。适用于确定序列同一性百分比和序列相似性的算法的实例包括但不限于blast和blast2.0算法,由altschul等人描述(分别参见altschul等人,j.mol.biol.,215:403-410[1990];和altschul等人,nucl.acidsres.,3389-3402[1977])。公众可通过美国国家生物技术信息中心网站获得用于进行blast分析的软件。该算法包括首先通过鉴定查询序列中长度w的短字来鉴定高评分序列对(hsp),所述短字在与数据库序列中相同长度的字比对时匹配或满足某一正值的阀值评分t。t被称为邻近字评分阈值(参见,altschul等人,上文)。这些最初的邻近字击中(wordhit)充当启动搜索的种子以找到包含它们的更长hsp。然后字击中沿着每个序列的两个方向延伸直到累积比对评分不能增加的程度。对于核苷酸序列,累积评分使用参数m(用于匹配残基对的奖励评分;总是>0)和n(用于错配残基的惩罚评分;总是<0)计算。对于氨基酸序列,评分矩阵用于计算累积评分。在以下情况时,停止字击中在每一个方向的延伸:累积比对评分从其最大达到值下降了量x;由于累积了一个或更多个负评分残基比对,累积评分达到0或小于0;或到达任一序列末端。blast算法参数w、t和x决定比对的灵敏度和速度。blastn程序(对于核苷酸序列)使用以下作为默认值:字长(w)为11、期望值(e)为10、m=5、n=-4、以及两条链的比较。对于氨基酸序列,blastp程序使用以下作为默认值:字长(w)为3、期望值(e)为10和blosum62评分矩阵(参见,henikoff和henikoff,proc.natl.acad.sci.usa89:10915[1989])。序列比对与%序列同一性的示例性确定可以使用gcgwisconsin软件包(accelrys,madisonwi)中的bestfit或gap程序,使用提供的默认参数。[0062]如本文使用的,“参考序列”是指用作序列和/或活性比较的基础的确定序列。参考序列可以是更大序列的子集,例如,全长基因或多肽序列的区段(segment)。通常,参考序列为至少20个核苷酸或氨基酸残基的长度、至少25个残基的长度、至少50个残基的长度、至少100个残基的长度或者核酸或多肽的全长。因为两个多核苷酸或多肽可以各自(1)包括两个序列之间相似的序列(即,完整序列的一部分),和(2)还可以包括两个序列之间不同的(divergent)序列,所以两个(或更多个)多核苷酸或多肽之间的序列比较通常通过比较两个多核苷酸或多肽在“比较窗”中的序列以鉴定和比较局部区域的序列相似性来进行。在一些实施方案中,“参考序列”可以基于一级氨基酸序列(primaryaminoacidsequence),其中参考序列是可以在一级序列中具有一个或更多个变化的序列。[0063]如本文使用的,“比较窗”是指至少约20个连续核苷酸位置或氨基酸残基的概念性区段,其中序列可以与至少20个连续核苷酸或氨基酸的参考序列进行比较,并且其中序列在比较窗中的部分与参考序列(其不包含添加或缺失)相比,可以包括20%或更少的添加或缺失(即,空位)以用于两个序列的最佳比对。比较窗可以比20个连续残基更长,并任选地包括30、40、50、100或更长的窗。[0064]如本文使用的,当在对给定氨基酸或多核苷酸序列进行编号的情况中使用时,“对应于”、“参考”或“相对于”是指当给定氨基酸或多核苷酸序列与参考序列相比较时对指定参考序列的残基进行编号。换言之,给定聚合物的残基编号或残基位置关于参考序列被指定,而不是通过给定氨基酸或多核苷酸序列内残基的实际数字位置被指定。例如,给定氨基酸序列,诸如工程化蔗糖磷酸化酶的氨基酸序列可以通过引入空位以与参考序列对齐,来优化两个序列之间的残基匹配。在这些情况中,尽管存在空位,对给定氨基酸或多核苷酸序列中的残基关于与其比对的参考序列进行编号。[0065]如本文使用的,“大体同一性(substantialidentity)”是指在至少20个残基位置的比较窗中、通常在至少30-50个残基的窗中,与参考序列相比,具有至少80%序列同一性、至少85%同一性、至少89%至95%之间的序列同一性,或更通常至少99%序列同一性的多核苷酸或多肽序列,其中序列同一性百分比通过在比较窗中比较参考序列和包含总计为参考序列的20%或更少的缺失或添加的序列来计算。在应用于多肽的一些具体实施方案中,术语“大体同一性”意指当诸如通过程序gap或bestfit使用默认空位权重进行最佳比对时,两个多肽序列共有至少80%的序列同一性,优选地至少89%的序列同一性、至少95%的序列同一性或更多(例如99%的序列同一性)。在一些实施方案中,在被比较的序列中不相同的残基位置因保守氨基酸取代而有差异。[0066]如本文使用的,“氨基酸差异”和“残基差异”是指在多肽序列的一个位置处氨基酸残基相对于参考序列中对应位置处的氨基酸残基的差异。在一些情况下,参考序列具有组氨酸标签,但相对于没有组氨酸标签的等同参考序列,编号维持不变。本文中氨基酸差异的位置通常被称为“xn”,其中n指的是残基差异所基于的参考序列中的对应位置。例如,“与seqidno:4相比位置x93处的残基差异”是指对应于seqidno:4的位置93的多肽位置处的氨基酸残基的差异。因此,如果seqidno:4的参考多肽在位置93处具有丝氨酸,则“与seqidno:4相比位置x93处的残基差异”是指在对应于seqidno:4的位置93的多肽位置处除了丝氨酸以外的任何残基的氨基酸取代。在本文的大多数实例中,在一个位置处的具体氨基酸残基差异指示为“xny”,其中“xn”指定如上文描述的对应位置,并且“y”是在工程化多肽中发现的氨基酸(即,与参考多肽中不同的残基)的单字母标识符。在一些实例中(例如,在实施例中呈现的表格中),本发明还提供由常规符号“anb”表示的具体氨基酸差异,其中a为参考序列中的残基的单字母标识符,“n”为参考序列中的残基位置的编号,并且b为工程化多肽的序列中残基取代的单字母标识符。在一些实例中,本发明的多肽可以相对于参考序列包含一个或更多个氨基酸残基差异,其由相对于参考序列存在残基差异的一列指定位置指示。在一些实施方案中,在多于一个氨基酸可以用于多肽的具体残基位置中时,可以使用的各种氨基酸残基由“/”分开(例如,x307h/x307p或x307h/p)。斜线也可用于指示给定变体内的多于一个取代(即,在给定序列中诸如在组合变体中存在多于一个取代)。在一些实施方案中,本发明包括含有一个或更多个氨基酸差异的工程化多肽序列,所述氨基酸差异包括保守氨基酸取代或非保守氨基酸取代。在一些另外的实施方案中,本发明提供了包含保守氨基酸取代和非保守氨基酸取代两者的工程化多肽序列。[0067]如本文使用的,“保守氨基酸取代”是指用具有相似侧链的不同残基取代残基,并且因此通常包括用相同或相似的氨基酸定义类别中的氨基酸取代多肽中的氨基酸。例如但不限于,在一些实施方案中,具有脂肪族侧链的氨基酸被另一种脂肪族氨基酸(例如,丙氨酸、缬氨酸、亮氨酸和异亮氨酸)取代;具有羟基侧链的氨基酸被另一种具有羟基侧链的氨基酸(例如,丝氨酸和苏氨酸)取代;具有芳族侧链的氨基酸被另一种具有芳族侧链的氨基酸(例如,苯丙氨酸、酪氨酸、色氨酸和组氨酸)取代;具有碱性侧链的氨基酸被另一种具有碱性侧链的氨基酸(例如,赖氨酸和精氨酸)取代;具有酸性侧链的氨基酸被另一种具有酸性侧链的氨基酸(例如,天冬氨酸或谷氨酸)取代;和/或疏水氨基酸或亲水氨基酸分别被另一种疏水氨基酸或亲水氨基酸取代。[0068]如本文使用的,“非保守取代”是指用具有显著不同的侧链性质的氨基酸取代多肽中的氨基酸。非保守取代可以使用定义的组之间而不是之内的氨基酸,并且影响:(a)取代区域中的肽骨架的结构(例如,脯氨酸取代甘氨酸),(b)电荷或疏水性,或(c)侧链体积。例如但不限于,示例性非保守取代可以是用碱性或脂肪族氨基酸取代酸性氨基酸;用小氨基酸取代芳族氨基酸;和用疏水氨基酸取代亲水氨基酸。[0069]如本文使用的,“缺失”是指通过从参考多肽去除一个或更多个氨基酸对多肽进行的修饰。缺失可以包括去除1个或更多个氨基酸、2个或更多个氨基酸、5个或更多个氨基酸、10个或更多个氨基酸、15个或更多个氨基酸或者20个或更多个氨基酸、多达组成参考酶的氨基酸总数的10%或多达氨基酸总数的20%,同时保留酶活性和/或保留工程化蔗糖磷酸化酶的改进的性质。缺失可以涉及多肽的内部部分和/或末端部分。在各种实施方案中,缺失可以包括连续的区段或可以是不连续的。氨基酸序列中的缺失通常用“‑”表示。[0070]如本文使用的,“插入”是指通过向参考多肽添加一个或更多个氨基酸对多肽进行的修饰。插入可以处于多肽的内部部分或者可以是向羧基或氨基末端的插入。如本文使用的插入包括如本领域已知的融合蛋白。插入可以是氨基酸的连续区段,或被天然存在的多肽中的一个或更多个氨基酸分开。[0071]术语“氨基酸取代集”或“取代集”是指与参考序列相比,多肽序列中的一组氨基酸取代。取代集可以具有1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个或更多个氨基酸取代。在一些实施方案中,取代集是指在实施例中提供的表格中列出的任何变体蔗糖磷酸化酶中存在的氨基酸取代的集合。[0072]“功能片段”和“生物活性片段”在本文可互换使用,指如下多肽:所述多肽具有氨基末端缺失和/或羧基末端缺失和/或内部缺失,但其中剩余的氨基酸序列与和它进行比较的序列(例如,本发明的全长工程化蔗糖磷酸化酶)中的对应位置相同,并且保留全长多肽的基本上全部活性。[0073]如本文使用的,“分离的多肽”是指与其天然伴随的其他污染物(例如蛋白质、脂质和多核苷酸)基本上分开的多肽。该术语包括已经从它们天然存在的环境或表达系统(例如,宿主细胞内或经由体外合成)中取出或纯化的多肽。重组蔗糖磷酸化酶多肽可以存在于细胞内、存在于细胞培养基中,或以各种形式(诸如裂解物或分离的制品)制备。因此,在一些实施方案中,重组蔗糖磷酸化酶多肽可以是分离的多肽。[0074]如本文使用的,“基本上纯的多肽”或“纯化的蛋白”是指如下组合物,在所述组合物中多肽物质是存在的主要物质(即,在摩尔或重量基础上,它比该组合物中的任何其他单独的大分子物质更丰富),并且当目标物质构成存在的大分子物质的按摩尔或%重量计至少约50%时,通常是基本上纯化的组合物。然而,在一些实施方案中,包含蔗糖磷酸化酶的组合物包含少于50%纯的(例如,约10%、约20%、约30%、约40%或约50%)的蔗糖磷酸化酶。通常,基本上纯的蔗糖磷酸化酶组合物构成该组合物中存在的所有大分子物质的按摩尔或%重量计约60%或更多、约70%或更多、约80%或更多、约90%或更多、约95%或更多以及约98%或更多。在一些实施方案中,将目标物质纯化至基本同质(即,通过常规检测方法不能在组合物中检测出污染物物质),其中该组合物基本上由单一大分子物质组成。溶剂物质、小分子(《500道尔顿)和元素离子物质不被认为是大分子物质。在一些实施方案中,分离的重组蔗糖磷酸化酶多肽是基本上纯的多肽组合物。[0075]如本文使用的,“改进的酶性质”是指酶的至少一种改进的性质。在一些实施方案中,本发明提供了与参考蔗糖磷酸化酶多肽和/或野生型蔗糖磷酸化酶多肽和/或另一种工程化蔗糖磷酸化酶多肽相比显示出任何酶特性的改进的工程化蔗糖磷酸化酶多肽。因此,“改进”的水平可以在各种蔗糖磷酸化酶多肽、包括野生型以及工程化蔗糖磷酸化酶之间进行确定和比较。改进的性质包括但不限于诸如以下的性质:增加的蛋白表达、增加的热活性(thermoactivity)、增加的热稳定性、增加的ph活性、增加的稳定性、增加的酶活性、增加的底物特异性或亲和力、增加的比活性、增加的对底物或终产物抑制的抗性、增加的化学稳定性、改进的化学选择性、改进的溶剂稳定性、增加的对酸性ph的耐受性、增加的对蛋白水解活性的耐受性(即,降低的对蛋白水解的敏感性)、降低的聚集、增加的溶解度、和改变的温度谱(temperatureprofile)。在另外的实施方案中,该术语用于指蔗糖磷酸化酶的至少一种改进的性质。在一些实施方案中,本发明提供了与参考蔗糖磷酸化酶多肽和/或野生型蔗糖磷酸化酶多肽和/或另一种工程化蔗糖磷酸化酶多肽相比显示出任何酶性质的改进的工程化蔗糖磷酸化酶多肽。因此,“改进”的水平可以在各种蔗糖磷酸化酶多肽、包括野生型以及工程化蔗糖磷酸化酶之间进行确定和比较。[0076]如本文使用的,“增加的酶活性”和“增强的催化活性”是指工程化多肽的改进的性质,可以被表示为与参考酶相比,比活性(例如产生的产物/时间/重量蛋白)的增加或将底物转化为产物的转化百分比(例如使用指定量的酶,在指定的时间段内将起始量的底物转化为产物的转化百分比)的增加。在一些实施方案中,该术语是指本文提供的工程化蔗糖磷酸化酶多肽的改进的性质,可以被表示为与参考蔗糖磷酸化酶相比,比活性(例如,产生的产物/时间/重量蛋白)的增加或将底物转化为产物的百分比(例如使用指定量的蔗糖磷酸化酶,在指定时间段内将起始量的底物转化为产物的转化百分比)的增加。在一些实施方案中,这些术语用于指本文提供的改进的蔗糖磷酸化酶。在实施例中提供了确定本发明的工程化蔗糖磷酸化酶的酶活性的示例性方法。可以影响与酶活性相关的任何性质,包括典型的酶性质km、vmax或kcat,它们的改变可以导致增加的酶活性。例如,酶活性的改进可以是对应野生型酶的酶活性的约1.1倍到相比于天然存在的蔗糖磷酸化酶或蔗糖磷酸化酶多肽所源自的另一种工程化蔗糖磷酸化酶的多达2倍、5倍、10倍、20倍、25倍、50倍、75倍、100倍、150倍、200倍或更大的酶活性。[0077]如本文使用的,“转化”是指一种或多于一种底物酶促转化(或生物转化)为一种或多于一种对应的产物。“转化百分比”是指在指定条件下在一定时间段内被转化为产物的底物的百分比。因此,蔗糖磷酸化酶多肽的“酶活性”或“活性”可以表示为在特定时间段内底物转化为产物的“转化百分比”。[0078]具有“通用型性质(generalistproperties)”的酶(或“通用型酶(generalistenzymes)”)是指与亲本序列相比,对宽范围的底物表现出改进的活性的酶。通用型酶不必对于每种可能的底物都表现出改进的活性。在一些实施方案中,本发明提供了具有通用型性质的蔗糖磷酸化酶变体,因为相对于亲本基因,它们对宽范围的空间和电子不同的底物表现出相似或改进的活性。此外,本文提供的通用型酶被工程化为跨越宽范围的有差异的分子被改进以增加代谢物/产物的产生。[0079]术语“严格杂交条件”在本文中用于指在该条件下核酸杂交体是稳定的条件。如本领域技术人员已知的,杂交体的稳定性反映在杂交体的解链温度(tm)中。通常,杂交体的稳定性是离子强度、温度、g/c含量和离液剂的存在的函数。多核苷酸的tm值可以使用用于预测解链温度的已知方法来计算(参见例如baldino等人,meth.enzymol.,168:761-777[1989];bolton等人,proc.natl.acad.sci.usa48:1390[1962];bresslauer等人,proc.natl.acad.sci.usa83:8893-8897[1986];freier等人,proc.natl.acad.sci.usa83:9373-9377[1986];kierzek等人,biochem.,25:7840-7846[1986];rychlik等人,nucl.acidsres.,18:6409-6412[1990](勘误,nucl.acidsres.,19:698[1991]);sambrook等人,上文);suggs等人,1981,于developmentalbiologyusingpurifiedgenes中,brown等人.[eds.],pp.683-693,academicpress,cambridge,ma[1981];以及wetmur,crit.rev.biochem.mol.biol.26:227-259[1991])。在一些实施方案中,多核苷酸编码本文公开的多肽,并且在限定的条件下,诸如中度严格或高度严格条件下,与编码本发明的工程化蔗糖磷酸化酶的序列的互补序列杂交。[0080]如本文使用的,“杂交严格性”是指核酸杂交中的杂交条件,诸如洗涤条件。通常,laboratorypress,coldspringharbor,n.y.[2001];uberbacher,meth.enzymol.,266:259-281[1996];以及tiwari等人,comput.appl.biosci.,13:263-270[1997])。[0083]如本文使用的,“控制序列”包括对本发明的多核苷酸和/或多肽的表达是必需或有利的所有组分。每一个控制序列对于编码多肽的核酸序列可以是天然的或外来的。这样的控制序列包括但不限于,前导序列、多腺苷酸化序列、前肽序列、启动子序列、信号肽序列、起始序列和转录终止子。最低程度而言,控制序列包括启动子以及转录和翻译终止信号。出于引入特定限制性位点的目的,控制序列可以与接头一起提供,所述特定限制性位点促进控制序列与编码多肽的核酸序列的编码区的连接。[0084]“可操作地连接的”在本文被定义为如下配置:在所述配置中控制序列被适当地放置(即,以功能关系)在相对于感兴趣的多核苷酸的位置处,使得控制序列指导或调节感兴趣的多核苷酸和/或多肽的表达。[0085]“启动子序列”是指被宿主细胞识别用于感兴趣的多核苷酸诸如编码序列的表达的核酸序列。启动子序列包含介导感兴趣的多核苷酸的表达的转录控制序列。启动子可以是在选择的宿主细胞中显示出转录活性的任何核酸序列,包括突变体、截短的和杂合的启动子,并且可以从编码与宿主细胞同源或异源的细胞外或细胞内多肽的基因获得。[0086]短语“合适的反应条件”是指在酶促转化反应溶液中的那些条件(例如,酶载量(enzymeloading)、底物载量、温度、ph、缓冲液、助溶剂等的范围),在所述条件下本发明的蔗糖磷酸化酶多肽能够将底物转化为期望的产物化合物。一些示例性的“合适的反应条件”在本文中提供。[0087]如本文使用的,“载量”,诸如在“化合物载量”或“酶载量”中,是指在反应起始时组分在反应混合物中的浓度或量。[0088]如本文使用的,在酶促转化反应过程的情况下,“底物”是指由本文提供的工程化酶(例如工程化蔗糖磷酸化酶多肽)作用的化合物或分子。[0089]如本文使用的,由反应产生的产物(例如脱氧核糖磷酸类似物)的“增加”的产率发生在:与相同条件下用相同底物和其他取代物,但不存在感兴趣的组分的情况下进行的反应相比,反应期间存在的特定组分(例如蔗糖磷酸化酶)导致产生更多的产物时。[0090]如果与参与催化反应的其他酶相比,特定酶的量少于约2%、约1%或约0.1%(wt/wt),则称该反应“基本上不含”该酶。[0091]如本文使用的,“分级分离(fractionating)”液体(例如培养肉汤)是指应用分离工艺(例如盐沉淀、柱色谱法、尺寸排阻和过滤)或这样的工艺的组合来提供一种溶液,其中期望蛋白在溶液中占总蛋白的百分比大于初始液体产物中的百分比。[0092]如本文使用的,“起始组合物”是指包含至少一种底物的任何组合物。在一些实施方案中,起始组合物包含任何合适的底物。[0093]如本文使用的,在酶促转化过程的情况下,“产物”是指从酶多肽对底物发挥的作用而产生的化合物或分子。[0094]如本文使用的,本文使用的“平衡”是指如由化学或酶促反应的正向速率常数和反向速率常数确定的在化学或酶促反应中产生化学物质的稳定状态浓度的过程(例如,两种物质a和b的相互转化),包括立体异构体的相互转化。[0095]如本文使用的,“烷基”是指具有1个至18个碳原子(包括端点)的,直链的或支链的,更优选地1个至8个碳原子(包括端点),并且最优选地1个至6个碳原子(包括端点)的饱和烃基团。具有指定数目的碳原子的烷基在括号中表示(例如(c1-c4)烷基是指1个至4个碳原子的烷基)。[0096]如本文使用的,“烯基”是指具有2个至12个碳原子(包括端点)的、直链或支链的、含有至少一个双键但任选地含有多于一个双键的基团。[0097]如本文使用的,“炔基”是指具有2个至12个碳原子(包括端点)的、直链或支链的、含有至少一个三键但任选地含有多于一个三键,并且另外任选地含有一个或更多个双键键合部分的基团。[0098]如本文使用的,“杂烷基”、“杂烯基”和“杂炔基”是指其中一个或更多个碳原子各自独立地被相同或不同的杂原子或杂原子基团代替的如本文定义的烷基、烯基和炔基。可以代替碳原子的杂原子和/或杂原子基团包括但不限于-o-、-s-、-s-o-、-nrα-、-ph-、-s(o)-、-s(o)2-、-s(o)nrα-、-s(o)2nrα-等,包括它们的组合,其中每个rα独立地选自氢、烷基、杂烷基、环烷基、杂环烃基、芳基和杂芳基。[0099]如本文使用的,“烷氧基”是指基团-orβ,其中rβ是如上文定义的烷基基团,包括还如本文定义的任选地被取代的烷基基团。[0100]如本文使用的,“芳基”是指具有单环(例如苯基)或多于一个稠环(例如萘基或蒽基)的具有6个至12个碳原子(包括端点)的不饱和的芳族碳环基团。示例性芳基包括苯基、吡啶基、萘基等。[0101]如本文使用的,“氨基”是指基团-nh2。被取代的氨基是指基团-nhrδ、nrδrδ和nrδrδrδ,其中每个rδ独立地选自被取代的或未被取代的烷基、环烷基、环杂烷基、烷氧基、芳基、杂芳基、杂芳基烷基、酰基、烷氧基羰基、硫烷基(sulfanyl)、亚磺酰基、磺酰基等。典型的氨基基团包括但不限于二甲基氨基、二乙基氨基、三甲基铵、三乙基铵、甲基磺酰基氨基、呋喃基-氧基-磺氨基等。[0102]如本文使用的,“氧代”是指=o。[0103]如本文使用的,“氧基”是指二价基团-o-,其可以具有各种取代基以形成不同的氧基基团,包括醚和酯。[0104]如本文使用的,“羧基”是指-cooh。[0105]如本文使用的,“羰基”是指-c(o)-,其可以具有各种取代基以形成不同的羰基基团,包括酸、酰基卤、醛、酰胺、酯和酮。[0106]如本文使用的,“烷氧基羰基”是指-c(o)orε,其中rε是本文定义的烷基,其可以任选地被取代。[0107]如本文使用的,“氨基羰基”是指-c(o)nh2。被取代的氨基羰基是指-c(o)nrδrδ,其中氨基基团nrδrδ如本文定义的。[0108]如本文使用的,“卤素(halogen)”和“卤代(halo)”是指氟、氯、溴和碘。[0109]如本文使用的,“羟基”是指-oh。[0110]如本文使用的,“氰基”是指-cn。[0111]如本文使用的,“杂芳基”是指具有1个至10个碳原子(包括端点)和在环内的选自氧、氮和硫的1个至4个杂原子(包括端点)的芳族杂环基团。这样的杂芳基基团可以具有单环(例如吡啶基或呋喃基)或多于一个稠环(例如吲嗪基(indolizinyl)或苯并噻吩基)。[0112]如本文使用的,“杂芳基烷基”是指被杂芳基取代的烷基(即“杂芳基-烷基‑”基团),优选地在烷基部分具有1个至6个碳原子(包括端点)并且在杂芳基部分具有5个至12个环原子(包括端点)。这样的杂芳基烷基基团通过吡啶基甲基等例示。[0113]如本文使用的,“杂芳基烯基”是指被杂芳基取代的烯基(即“杂芳基-烯基‑”基团),优选地在烯基部分具有2个至6个碳原子(包括端点)并且在杂芳基部分具有5个至12个环原子(包括端点)。[0114]如本文使用的,“杂芳基炔基”是指被杂芳基取代的炔基(即“杂芳基-炔基‑”基团),优选地在炔基部分具有2个至6个碳原子(包括端点)并且在杂芳基部分具有5个至12个环原子(包括端点)。[0115]如本文使用的,“杂环”、“杂环的”和可互换的“杂环烃基(heterocycloalkyl)”是指具有单环或多于一个稠环的、具有2个至10个碳环原子(包括端点)和在环内的选自氮、硫或氧的1个至4个杂环原子(包括端点)的饱和的或不饱和基团。这样的杂环基团可以具有单环(例如哌啶基或四氢呋喃基)或多于一个稠环(例如,二氢吲哚基、二氢苯并呋喃或奎宁环基(quinuclidinyl))。杂环的实例包括但不限于呋喃、噻吩、噻唑、噁唑、吡咯、咪唑、吡唑、吡啶、吡嗪、嘧啶、哒嗪、吲嗪、异吲哚、吲哚、吲唑、嘌呤、喹嗪(quinolizine)、异喹啉、喹啉、酞嗪(phthalazine)、萘基吡啶、喹喔啉、喹唑啉、噌啉、蝶啶、咔唑(carbazole)、咔啉(carboline)、菲啶(phenanthridine)、吖啶、菲咯啉(phenanthroline)、异噻唑、吩嗪(phenazine)、异噁唑、吩噁嗪(phenoxazine)、吩噻嗪(phenothiazine)、咪唑烷、咪唑啉(imidazoline)、哌啶、哌嗪、吡咯烷、吲哚啉等。[0116]如本文使用的,“元环(memberedring)”意指包括任何环状结构。术语“元”之前的数字表示构成环的骨架原子的数目。因此,例如环己基、吡啶、吡喃和噻喃是6元环,并且环戊基、吡咯、呋喃和噻吩是5元环。[0117]除非另外指明,否则在前述基团中被氢占据的位置可以被例如但不限于以下的取代基进一步取代:羟基、氧代、硝基、甲氧基、乙氧基、烷氧基、被取代的烷氧基、三氟甲氧基、卤代烷氧基、氟、氯、溴、碘、卤素、甲基、乙基、丙基、丁基、烷基、烯基、炔基、被取代的烷基、三氟甲基、卤代烷基、羟基烷基、烷氧基烷基、硫基、烷硫基、酰基、羧基、烷氧基羰基、甲酰胺基、被取代的甲酰胺基、烷基磺酰基、烷基亚磺酰基、烷基磺酰基氨基、磺酰胺基(sulfonamido)、被取代的磺酰胺基、氰基、氨基、被取代的氨基、烷基氨基、二烷基氨基、氨基烷基、酰基氨基、脒基、脒肟基(amidoximo)、羟基甲酰基(hydroxamoyl)、苯基、芳基、被取代的芳基、芳氧基、芳基烷基、芳基烯基、芳基炔基、吡啶基、咪唑基、杂芳基、被取代的杂芳基、杂芳氧基、杂芳基烷基、杂芳基烯基、杂芳基炔基、环丙基、环丁基、环戊基、环己基、环烷基、环烯基、环烷基烷基、被取代的环烷基、环烷基氧基、吡咯烷基、哌啶基、吗啉代、杂环、(杂环)氧基和(杂环)烷基;并且优选的杂原子是氧、氮和硫。应理解,在这些取代基上存在开放化合价的情况下,它们可以被烷基、环烷基、芳基、杂芳基和/或杂环基团进一步取代,在碳上存在这些开放化合价的情况下,它们可以被卤素和氧-、氮-或硫-键合的取代基进一步取代,并且在存在多于一个这样的开放化合价的情况下,这些基团可以通过直接形成键或通过与新的杂原子(优选地氧、氮或硫)形成键而连接形成环。还应理解,可以进行上文的取代,条件是用取代基替代氢不会对本发明的分子带来不可接受的不稳定性,并且以其他方式在化学上是合理的。[0118]如本文使用的术语“培养”是指微生物细胞群体在任何合适的条件(例如,使用液体、凝胶或固体培养基)下的生长。[0119]重组多肽可以使用本领域已知的任何合适的方法产生。可以将编码感兴趣的野生型多肽的基因克隆到载体诸如质粒中,并且在期望的宿主诸如大肠杆菌等中表达。重组多肽的变体可以通过本领域已知的各种方法产生。事实上,存在本领域技术人员熟知的各种各样不同的诱变技术。此外,诱变试剂盒还可从许多商业分子生物学供应商获得。方法可用于做出确定的氨基酸(定点)处的特定取代、基因的局部区域中的特异性(区域特异性)或随机突变,或整个基因内的随机诱变(例如,饱和诱变)。本领域的技术人员已知产生酶变体的许多合适的方法,包括但不限于,使用pcr对单链dna或双链dna定点诱变、盒式诱变、基因合成、易错pcr、改组,和化学饱和诱变,或本领域已知的任何其他合适的方法。诱变和定向演化方法可以容易地应用于编码酶的多核苷酸,以产生可以被表达、筛选和测定的变体文库。任何合适的诱变和定向演化方法可用于本发明并且是本领域熟知的(参见例如专利号为5,605,793、5,811,238、5,830,721、5,834,252、5,837,458、5,928,905、6,096,548、6,117,679、6,132,970、6,165,793、6,180,406、6,251,674、6,265,201、6,277,638、6,287,861、6,287,862、6,291,242、6,297,053、6,303,344、6,309,883、6,319,713、6,319,714、6,323,030、6,326,204、6,335,160、6,335,198、6,344,356、6,352,859、6,355,484、6,358,740、6,358,742、6,365,377、6,365,408、6,368,861、6,372,497、6,337,186、6,376,246、6,379,964、6,387,702、6,391,552、6,391,640、6,395,547、6,406,855、6,406,910、6,413,745、6,413,774、6,420,175、6,423,542、6,426,224、6,436,675、6,444,468、6,455,253、6,479,652、6,482,647、6,483,011、6,484,105、6,489,146、6,500,617、6,500,639、6,506,602、6,506,603、6,518,065、6,519,065、6,521,453、6,528,311、6,537,746、6,573,098、6,576,467、6,579,678、6,586,182、6,602,986、6,605,430、6,613,514、6,653,072、6,686,515、6,703,240、6,716,631、6,825,001、6,902,922、6,917,882、6,946,296、6,961,664、6,995,017、7,024,312、7,058,515、7,105,297、7,148,054、7,220,566、7,288,375、7,384,387、7,421,347、7,430,477、7,462,469、7,534,564、7,620,500、7,620,502、7,629,170、7,702,464、7,747,391、7,747,393、7,751,986、7,776,598、7,783,428、7,795,030、7,853,410、7,868,138、7,783,428、7,873,477、7,873,499、7,904,249、7,957,912、7,981,614、8,014,961、8,029,988、8,048,674、8,058,001、8,076,138、8,108,150、8,170,806、8,224,580、8,377,681、8,383,346、8,457,903、8,504,498、8,589,085、8,762,066、8,768,871、9,593,326的美国专利,以及所有相关的美国以及pct和非美国的对应申请;ling等人,anal.biochem.,254(2):157-78[1997];dale等人,meth.mol.biol.,57:369-74[1996];smith,ann.rev.genet.,19:423-462[1985];botstein等人,science,229:1193-1201[1985];carter,biochem.j.,237:1-7[1986];kramer等人,cell,38:879-887[1984];wells等人,gene,34:315-323[1985];minshull等人,curr.op.chem.biol.,3:284-290[1999];christians等人,nat.biotechnol.,17:259-264[1999];crameri等人,nature,391:288-291[1998];crameri,等人,nat.biotechnol.,15:436-438[1997];zhang等人,proc.nat.acad.sci.u.s.a.,94:4504-4509[1997];crameri等人,nat.biotechnol.,14:315-319[1996];stemmer,nature,370:389-391[1994];stemmer,proc.nat.acad.sci.usa,91:10747-10751[1994];wo95/22625;wo97/0078;wo97/35966;wo98/27230;wo00/42651;wo01/75767;和wo2009/152336,其全部通过引用并入本文)。[0120]在一些实施方案中,诱变处理后获得的酶克隆通过使酶制品经历确定的温度(或其他测定条件),并测量热处理或其他合适的测定条件之后剩余的酶活性的量来进行筛选。然后将包含编码多肽的多核苷酸的克隆从基因分离,测序以鉴定核苷酸序列的改变(如果有),并且用于在宿主细胞中表达酶。测量来自表达文库的酶活性可以使用本领域已知的任何合适的方法(例如,标准生物化学技术,诸如hplc分析)进行。[0121]在变体产生之后,可以筛选它们的任何期望的性质(例如,高或增加的活性,或者低或降低的活性,增加的热活性,增加的热稳定性,和/或酸性ph稳定性等)。在一些实施方案中,可使用“重组蔗糖磷酸化酶多肽”(也称为“工程化蔗糖磷酸化酶多肽”、“变体蔗糖磷酸化酶”、“蔗糖磷酸化酶变体”和“蔗糖磷酸化酶组合变体”)。[0122]如本文使用的,“载体”是用于将dna序列引入细胞中的dna构建体。在一些实施方案中,载体是可操作地连接至能够实现dna序列中编码的多肽在合适宿主中的表达的合适的控制序列的表达载体。在一些实施方案中,“表达载体”具有可操作地连接至dna序列(例如,转基因)以驱动在宿主细胞中表达的启动子序列,并且在一些实施方案中,还包含转录终止子序列。[0123]如本文使用的,术语“表达”包括参与多肽产生的任何步骤,包括但不限于,转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中,该术语还涵盖多肽从细胞的分泌。[0124]如本文使用的,术语“产生”是指蛋白和/或其他化合物从细胞的产生。意在该术语涵盖参与多肽产生的任何步骤,包括但不限于,转录、转录后修饰、翻译和翻译后修饰。在一些实施方案中,该术语还涵盖多肽从细胞的分泌。[0125]如本文使用的,如果氨基酸或核苷酸序列(例如,启动子序列、信号肽、终止子序列等)与它可操作地连接至的另一个序列在自然界中未缔合,则这两个序列是“异源的”。例如“异源多核苷酸”是通过实验室技术引入宿主细胞中的任何多核苷酸,并且包括从宿主细胞中取出、经历实验室操纵并且然后再引入宿主细胞的多核苷酸。[0126]如本文使用的,术语“宿主细胞”和“宿主菌株”是指用于包含本文提供的dna(例如,编码蔗糖磷酸化酶变体的多核苷酸)的表达载体的合适的宿主。在一些实施方案中,宿主细胞是已经用使用如本领域已知的重组dna技术构建的载体转化或转染的原核细胞或真核细胞。[0127]术语“类似物”意指与参考多肽具有多于70%序列同一性,但少于100%序列同一性(例如,多于75%、78%、80%、83%、85%、88%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%序列同一性)的多肽。在一些实施方案中,类似物意指如下多肽,所述多肽包含一个或更多个非天然存在的氨基酸残基(包括但不限于高精氨酸、鸟氨酸和正缬氨酸)以及天然存在的氨基酸。在一些实施方案中,类似物还包括一个或更多个d-氨基酸残基以及两个或更多个氨基酸残基之间的非肽连接。[0128]术语“有效量”意指足以产生期望的结果的量。本领域普通技术人员可以通过使用常规实验确定有效量是多少。[0129]术语“分离的”和“纯化的”用于指从与其天然缔合的至少一种其他组分取出的分子(例如,分离的核酸、多肽等)或其他组分。术语“纯化的”不要求绝对纯度,而是意在作为相对定义。[0130]如本文使用的,“立体选择性”是指在化学或酶促反应中一种立体异构体相对于另一种立体异构体的优先形成。立体选择性可以是部分的,此时一种立体异构体的形成优于另一种立体异构体,或者立体选择性可以是完全的,此时只形成一种立体异构体。当立体异构体是对映异构体时,立体选择性被称为对映选择性,即两者的总和中一种对映异构体的分数(通常被报告为百分比)。可选择地,本领域通常将其报告为根据下式从中计算的对映异构体过量(“e.e.”)(通常为百分比):[主要对映异构体-次要对映异构体]/[主要对映异构体+次要对映异构体]。在立体异构体是非对映异构体的情况下,立体选择性被称为非对映选择性,即两种非对映异构体的混合物中一种非对映异构体的分数(通常被报告为百分比),通常可选择地报告为非对映异构体过量(“d.e.”)。对映异构体过量和非对映异构体过量是立体异构体过量的类型。[0131]如本文使用的,术语“区域选择性”和“区域选择性反应”是指其中键形成或断裂的一个方向优先于所有其他可能的方向发生的反应。如果区别是完全的,则反应可以是完全(100%)区域选择的,如果在一个位点的反应产物优于在其他位点的反应产物,则反应可以是大体上区域选择的(至少75%),或部分区域选择的(x%,其中百分比依赖于感兴趣的反应进行设置)。[0132]如本文使用的,“化学选择性”是指在化学或酶促反应中一种产物相对于另一种产物的优先形成。[0133]如本文使用的,“ph稳定的”是指与未处理的酶相比,在暴露于高或低的ph(例如4.5-6或8至12)一段时间(例如0.5-24小时)后维持类似活性(例如多于60%至80%)的蔗糖磷酸化酶多肽。[0134]如本文使用的,“热稳定”是指与暴露于升高的温度(例如40℃至80℃)的野生型酶相比,在暴露于相同的升高的温度持续一段时间(例如0.5h-24h)后,维持类似活性(例如多于60%至80%)的蔗糖磷酸化酶多肽。[0135]如本文使用的,“溶剂稳定”是指与暴露于不同浓度(例如5%-99%)的溶剂(乙醇、异丙醇、二甲基亚砜[dmso]、四氢呋喃、2-甲基四氢呋喃、丙酮、甲苯、乙酸丁酯、甲基叔丁基醚等)的野生型酶相比,在暴露于相同浓度的相同溶剂持续一段时间(例如0.5h-24h)后,维持类似活性(多于例如60%至80%)的蔗糖磷酸化酶多肽。[0136]如本文使用的,“热稳定且溶剂稳定”是指既热稳定又溶剂稳定的蔗糖磷酸化酶多肽。[0137]如本文使用的,“任选的”和“任选地”意指随后描述的事件或情形可以发生或可以不发生,并且意指该描述包括当该事件或情形发生时的实例和其中该事件或情形没有发生的实例。本领域普通技术人员将理解,对于被描述为包含一个或更多个任选的取代基的任何分子,仅意在包括空间上可实现的和/或合成上可行的化合物。[0138]如本文使用的,“任选地被取代的”是指一种或一系列化学基团中的所有后续修饰对象(modifier)。例如,在术语“任选地被取代的芳基烷基”中,分子的“烷基”部分和“芳基”部分可以被取代或可以不被取代,并且对于一系列“任选地被取代的烷基、环烷基、芳基和杂芳基”,烷基基团、环烷基基团、芳基基团和杂芳基基团彼此独立地可以被取代或可以不被取代。[0139]发明详述[0140]本发明提供了工程化蔗糖磷酸化酶(sp)、具有sp活性的多肽,和编码这些酶的多核苷酸,以及载体和包含这些多核苷酸和多肽的宿主细胞。还提供了用于产生sp酶的方法。本发明还提供了包含sp酶的组合物,以及使用工程化sp酶的方法。本发明尤其可用于药物化合物的产生。[0141]在一些实施方案中,本发明提供了适用于产生核苷类似物诸如mk-8591(merck)的酶。开发本发明是为了解决酶产生这些核苷类似物的潜在用途。在一些实施方案中,本发明提供了可用于产生化合物的酶,其得到了用于化合物(1)的非天然核苷类似物的体外酶促合成方法。[0142][0143]化合物(1)[0144]非天然核苷是许多重要类别药物(包括用于治疗癌症和病毒感染的那些药物)的重要构建单元(buildingblock)。市场上或临床试验中有至少十几种核苷类似物药物(jordheim等人,nat.rev.drugdiscovery12:447-464[2013])。制备化合物(1)的一种方法是通过嘌呤核苷磷酸化酶(pnp)催化的乙炔基核糖-1-磷酸(化合物(3))和氟腺嘌呤(化合物(2))的偶联,如方案i中示出的。[0145][0146]方案i.mk-8591的产生[0147]脱氧核糖-1-磷酸化合物,诸如化合物(3),可能难以制备。然而,相应的脱氧核糖-5-磷酸化合物可以通过由酶2-脱氧核糖-5-磷酸醛缩酶(dera)催化的乙醛和d-甘油醛-3-磷酸(或其类似物)的偶联来产生(barbas等人,j.am.chem.soc.112:2013-2014[1990])。在脱氧核糖-5-磷酸类似物(4)形成后,它可以通过酶磷酸戊糖变位酶(ppm)的作用被转化或异构化为方案i所需的相应的脱氧核糖-1-磷酸类似物(3)。[0148]方案i中示出的pnp和ppm反应的平衡位置通常倾向于反应物(化合物(2)和(4)),而不是产物(化合物1和无机磷酸盐)。驱动反应达到更高转化的一种方法是去除偶联步骤中形成的无机磷酸盐。这可以通过使无机磷酸盐与二糖诸如蔗糖经酶蔗糖磷酸化酶(sp)催化进行反应来实现(参见例如,美国专利第7,229,797号)。该反应产生葡萄糖-1-磷酸和果糖,是非常有利的,并且可以驱动如以下方案ii中示出的总体反应。[0149][0150]方案ii.产生化合物(1)的总体反应方案[0151]与天然存在的蔗糖磷酸化酶相比具有改进的性质的工程化蔗糖磷酸化酶可以在相关工艺条件下和/或在多酶系统中产生,包括在方案iii中描绘的系统中产生。这些工程化sp酶可以导致化合物(1)的产生提高和/或可以具有其他改进的性质。[0152][0153]方案iii.多酶反应[0154]对于具有改进的活性并且在典型的工业条件下操作和/或作为多酶系统的一部分的工程化sp存在需求。本发明解决了这一需求,并提供了适合在工业条件下用于这些反应和其他反应的工程化sp。[0155]在一些实施方案中,本公开内容的工程化sp多肽是多酶系统的一部分,以产生化合物,诸如化合物(1)的核苷类似物。在一些实施方案中,工程化sp多肽是多酶系统的一部分,该多酶系统包括以下酶中的一种或更多种:泛酸激酶、磷酸戊糖变位酶、嘌呤核苷磷酸化酶、乙醇氧化酶、醛缩酶和/或乙酸激酶。[0156]工程化sp多肽[0157]本发明提供了工程化sp多肽、编码该多肽的多核苷酸、制备该多肽的方法以及用于使用该多肽的方法。在描述涉及多肽时,应理解,它还描述了编码该多肽的多核苷酸。在一些实施方案中,本发明提供了与野生型sp酶相比具有改进的性质的工程化、非天然存在的sp酶。任何合适的反应条件可用于本发明。在一些实施方案中,使用方法来分析工程化多肽进行异构化反应的改进的性质。在一些实施方案中,如下文和实施例中进一步描述的,根据工程化sp、一种或更多种底物、一种或更多种缓冲液、一种或更多种溶剂的浓度或量、ph、包括温度和反应时间的条件和/或工程化sp多肽固定在固体支持物上的条件来改变反应条件。[0158]在一些实施方案中,利用另外的反应组分或另外的技术来补充反应条件。在一些实施方案中,这些包括采取措施来稳定酶或防止酶失活、减少产物抑制、使反应平衡变动到期望的产物形成。[0159]在一些另外的实施方案中,用于将底物化合物转化为产物化合物的任何上文描述的方法还可以包括一个或更多个选自以下的步骤:一种或更多种产物化合物的提取、分离、纯化、结晶、过滤和/或冻干。用于从通过本文提供的方法产生的生物催化反应混合物提取、分离、纯化和/或结晶一种或更多种产物的方法、技术和方案是普通技术人员已知的和/或通过常规实验获得的。此外,在下文的实施例中提供了说明性方法。[0160]编码工程化多肽的工程化sp多核苷酸、表达载体和宿主细胞[0161]本发明提供了编码本文描述的工程化酶多肽的多核苷酸。在一些实施方案中,多核苷酸可操作地连接至控制基因表达的一个或更多个异源调节序列,以产生能够表达多肽的重组多核苷酸。在一些实施方案中,将包含编码一种或更多种工程化酶多肽的至少一种异源多核苷酸的表达构建体引入适当的宿主细胞中以表达一种或更多种相应的酶多肽。[0162]如对技术人员将是明显的,蛋白序列的可得性以及对对应于各种氨基酸的密码子的了解提供能够编码主题多肽的所有多核苷酸的描述。遗传密码子的简并性(其中相同氨基酸由可选的或同义的密码子编码)允许制备极大数目的核酸,所有这些核酸编码工程化酶(例如sp)多肽。因此,本发明提供了通过基于可能的密码子选项来选择组合用于产生编码本文描述的酶多肽的可制备的酶多核苷酸的每种和每一种可能变化形式的方法和组合物,并且所有这样的变化形式都被认为是针对本文所述的任何多肽具体公开的,包括实施例中(例如,各个表格中)呈现的氨基酸序列。[0163]在一些实施方案中,密码子被优选地优化,以被用于蛋白产生的选择的宿主细胞利用。例如,细菌中使用的优选的密码子通常用于细菌中的表达。因此,编码工程化酶多肽的密码子优化的多核苷酸在全长编码区的约40%、50%、60%、70%、80%或大于90%的密码子位置包含优选的密码子。[0164]在一些实施方案中,酶多核苷酸编码具有酶活性与本文公开的性质的工程化多肽,其中所述多肽包含与选自本文提供的seqidno的参考序列具有至少60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的同一性的氨基酸序列,或任何变体(例如实施例中提供的那些)的氨基酸序列,和与一种或更多种参考多核苷酸或如实施例中公开的任何变体的氨基酸序列相比的一个或更多个残基差异(例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个或更多个氨基酸残基位置)。在一些实施方案中,参考多肽序列选自seqidno:2和4。[0165]在一些实施方案中,多核苷酸能够与选自本文提供的任何多核苷酸序列的参考多核苷酸序列或其互补序列或者编码本文提供的任何变体酶多肽的多核苷酸序列在高度严格条件下杂交。在一些实施方案中,能够在高度严格条件下杂交的多核苷酸编码包含与参考序列相比具有一个或更多个残基差异的氨基酸序列的酶多肽。[0166]在一些实施方案中,编码本文的工程化酶多肽中的任一个的分离的多核苷酸以各种方式被操纵,以促进酶多肽的表达。在一些实施方案中,编码酶多肽的多核苷酸构成表达载体,其中存在一个或更多个控制序列来调节酶多核苷酸和/或多肽的表达。根据所用的表达载体,在分离的多核苷酸插入载体之前对分离的多核苷酸的操纵可以是期望的或必要的。利用重组dna方法修饰多核苷酸和核酸序列的技术是本领域熟知的。在一些实施方案中,控制序列包括,除其他以外,启动子、前导序列、多腺苷酸化序列、前肽序列、信号肽序列和转录终止子。在一些实施方案中,基于宿主细胞的选择对合适的启动子进行选择。对于细菌宿主细胞,用于指导本公开内容的核酸构建体的转录的合适启动子包括,但不限于从以下获得的启动子:大肠杆菌lac操纵子、天蓝色链霉菌(streptomycescoelicolor)琼脂糖酶基因(daga)、枯草芽孢杆菌(bacillussubtilis)果聚糖蔗糖酶基因(sacb)、地衣芽孢杆菌(bacilluslicheniformis)α-淀粉酶基因(amyl)、嗜热脂肪芽孢杆菌(bacillusstearothermophilus)麦芽糖淀粉酶基因(amym)、解淀粉芽孢杆菌(bacillusamyloliquefaciens)α-淀粉酶基因(amyq)、地衣芽孢杆菌青霉素酶基因(penp)、枯草芽孢杆菌xyla和xylb基因,以及原核β-内酰胺酶基因(参见,例如,villa-kamaroff等人,proc.natlacad.sci.usa75:3727-3731[1978]),以及tac启动子(参见例如,deboer等人,proc.natlacad.sci.usa80:21-25[1983])。用于丝状真菌宿主细胞的示例性启动子包括但不限于从以下的基因获得的启动子:米曲霉(aspergillusoryzae)taka淀粉酶、米黑根毛霉(rhizomucormiehei)天冬氨酸蛋白酶、黑曲霉(aspergillusniger)中性α-淀粉酶、黑曲霉酸稳定型α-淀粉酶、黑曲霉或泡盛曲霉(aspergillusawamori)葡糖淀粉酶(glaa)、米黑根毛霉脂肪酶、米曲霉碱性蛋白酶、米曲霉磷酸丙糖异构酶、构巢曲霉(aspergillusnidulans)乙酰胺酶和尖孢镰刀菌(fusariumoxysporum)胰蛋白酶样蛋白酶(参见,例如wo96/00787),以及na2-tpi启动子(来自黑曲霉中性α-淀粉酶基因和米曲霉磷酸丙糖异构酶基因的启动子的杂合体),和其突变体、截短的和杂合的启动子。示例性酵母细胞启动子可以来自以下的基因:酿酒酵母(saccharomycescerevisiae)烯醇酶(eno-1)、酿酒酵母半乳糖激酶(gal1)、酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(adh2/gap)、和酿酒酵母3-磷酸甘油酸激酶。用于酵母宿主细胞的其他有用的启动子是本领域已知的(参见例如,romanos等人,yeast8:423-488[1992])。[0167]在一些实施方案中,控制序列也是合适的转录终止子序列(即由宿主细胞识别以终止转录的序列)。在一些实施方案中,终止子序列可操作地连接至编码酶多肽的核酸序列的3'末端。在选择的宿主细胞中有功能的任何合适的终止子可用于本发明中。用于丝状真菌宿主细胞的示例性转录终止子可以从以下的基因获得:米曲霉taka淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、黑曲霉α-葡萄糖苷酶、和尖孢镰刀菌胰蛋白酶样蛋白酶。用于酵母宿主细胞的示例性终止子可以从以下的基因获得:酿酒酵母烯醇酶、酿酒酵母细胞色素c(cyc1)、和酿酒酵母甘油醛-3-磷酸脱氢酶。用于酵母宿主细胞的其他有用的终止子是本领域已知的(参见例如,romanos等,上文)。[0168]在一些实施方案中,控制序列也是合适的前导序列(即对由宿主细胞的翻译重要的mrna的非翻译区)。在一些实施方案中,前导序列可操作地连接至编码酶多肽的核酸序列的5'末端。在选择的宿主细胞中有功能的任何合适的前导序列可用于本发明中。用于丝状真菌宿主细胞的示例性前导序列从以下的基因获得:米曲霉taka淀粉酶和构巢曲霉磷酸丙糖异构酶。用于酵母宿主细胞的合适的前导序列从以下的基因获得:酿酒酵母烯醇化酶(eno-1)、酿酒酵母3-磷酸甘油酸激酶、酿酒酵母α-因子和酿酒酵母醇脱氢酶/甘油醛-3-磷酸脱氢酶(adh2/gap)。[0169]在一些实施方案中,控制序列也是多腺苷酸化序列(即可操作地连接至核酸序列的3'末端的序列,并且其在转录时,被宿主细胞识别为将多腺苷残基添加至转录的mrna的信号)。在选择的宿主细胞中有功能的任何合适的多腺苷酸化序列可用于本发明中。用于丝状真菌宿主细胞的示例性多腺苷酸化序列包括,但不限于以下的基因:米曲霉taka淀粉酶、黑曲霉葡糖淀粉酶、构巢曲霉邻氨基苯甲酸合酶、尖孢镰刀菌胰蛋白酶样蛋白酶和黑曲霉α葡糖苷酶。用于酵母宿主细胞的有用的多腺苷酸化序列是已知的(参见例如guo和sherman,mol.cell.bio.,15:5983-5990[1995])。[0170]在一些实施方案中,控制序列也是信号肽(即编码连接至多肽的氨基末端并将编码的多肽引导到细胞的分泌途径的氨基酸序列的编码区)。在一些实施方案中,核酸序列的编码序列的5'末端固有地包含信号肽编码区,其符合翻译阅读框地(intranslationreadingframe)与编码分泌的多肽的编码区的区段天然地连接。可选择地,在一些实施方案中,编码序列的5'末端包含对编码序列而言外来的信号肽编码区。将表达的多肽引导到选择的宿主细胞的分泌途径中的任何合适的信号肽编码区可用于一种或更多种工程化多肽的表达。用于细菌宿主细胞的有效信号肽编码区是包括但不限于从以下的基因获得的那些信号肽编码区:芽孢杆菌nclb11837麦芽糖淀粉酶、嗜热脂肪芽孢杆菌α-淀粉酶、地衣芽孢杆菌枯草杆菌蛋白酶、地衣芽孢杆菌β-内酰胺酶、嗜热脂肪芽孢杆菌中性蛋白酶(nprt、nprs、nprm)和枯草芽孢杆菌prsa。另外的信号肽是本领域已知的(参见例如,simonen和palva,microbiol.rev.,57:109-137[1993])。在一些实施方案中,对于丝状真菌宿主细胞有效的信号肽编码区包括但不限于从以下的基因获得的信号肽编码区:米曲霉taka淀粉酶、黑曲霉中性淀粉酶、黑曲霉葡糖淀粉酶、米黑根毛霉天冬氨酸蛋白酶、特异腐质霉(humicolainsolens)纤维素酶和humicolalanuginosa脂肪酶。用于酵母宿主细胞的有用的信号肽包括但不限于来自以下的基因的那些:酿酒酵母α因子和酿酒酵母转化酶。[0171]在一些实施方案中,控制序列也是编码定位在多肽的氨基末端处的氨基酸序列的前肽编码区。产生的多肽被称为“前酶(proenzyme)”、“前多肽(propolypeptide)”或“酶原(zymogen)”。前多肽可以通过催化或自动催化前肽从前多肽的裂解被转化为成熟活性多肽。前肽编码区可以从包括但不限于以下的基因的任何合适的来源获得:枯草芽孢杆菌碱性蛋白酶(apre)、枯草芽孢杆菌中性蛋白酶(nprt)、酿酒酵母α-因子、米黑根毛霉天冬氨酸蛋白酶和嗜热毁丝霉(myceliophthorathermophila)乳糖酶(参见例如wo95/33836)。在信号肽和前肽区域两者均存在于多肽的氨基末端时,前肽区域紧邻多肽的氨基末端定位并且信号肽区域紧邻前肽区域的氨基末端定位。[0172]在一些实施方案中,还利用了调节序列。这些序列促进相对于宿主细胞生长的多肽表达调节。调节系统的实例是引起基因的表达响应于化学或物理刺激(包括调节性化合物的存在)被开启或关闭的那些。在原核宿主细胞中,合适的调节序列包括但不限于lac、tac和trp操纵子系统。在酵母宿主细胞中,合适的调节系统包括但不限于adh2系统或gal1系统。在丝状真菌中,合适的调节序列包括但不限于takaα-淀粉酶启动子、黑曲霉葡糖淀粉酶启动子和米曲霉葡糖淀粉酶启动子。[0173]在另一方面,本发明涉及包含编码工程化酶多肽的多核苷酸以及根据其待引入的宿主的类型,一个或更多个表达调控区诸如启动子和终止子、复制起点等的重组表达载体。在一些实施方案中,本文描述的各种核酸和控制序列连接在一起以产生重组表达载体,所述重组表达载体包括一个或更多个方便的限制性位点,以允许在这样的位点插入或取代编码酶多肽的核酸序列。可选择地,在一些实施方案中,本发明的核酸序列通过将核酸序列或包含该序列的核酸构建体插入到用于表达的合适的载体中来表达。在涉及产生表达载体的一些实施方案中,编码序列位于载体中使得编码序列与用于表达的适当的控制序列可操作地连接。[0174]重组表达载体可以是任何合适的载体(例如,质粒或病毒),其可以方便地进行重组dna程序并且引起酶多核苷酸序列的表达。载体的选择通常取决于载体与待引入载体的宿主细胞的相容性。载体可以是线性质粒或闭合的环状质粒。[0175]在一些实施方案中,表达载体为自主复制载体(即,作为染色体外的实体存在的载体,其复制独立于染色体复制,诸如质粒、染色体外元件、微型染色体或人工染色体)。载体可以包含用于确保自我复制的任何工具(means)。在一些可选择的实施方案中,载体是其中当被引入宿主细胞中时,被整合到基因组中并与其被整合进的一条或更多条染色体一起复制的载体。此外,在一些实施方案中,利用了单一载体或质粒,或者一起包含待引入宿主细胞的基因组中的总dna的两种或更多种载体或质粒,和/或转座子。[0176]在一些实施方案中,表达载体包含允许容易选择转化的细胞的一个或更多个选择标志物(selectablemarker)。“选择标志物”是其产物提供抗微生物剂或病毒抗性、对重金属的抗性、对营养缺陷型的原养性(prototrophytoauxotrophs)等的基因。细菌的选择标志物的实例包括但不限于,来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因,或赋予抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素或四环素抗性的标志物。用于酵母宿主细胞的合适的标志物包括但不限于ade2、his3、leu2、lys2、met3、trp1和ura3。用于在丝状真菌宿主细胞中使用的选择标志物包括但不限于amds(乙酰胺酶;例如来自构巢曲霉(a.nidulans)或米曲霉(a.orzyae))、argb(鸟氨酸氨甲酰转移酶)、bar(膦丝菌素乙酰转移酶;例如来自吸水链霉菌(s.hygroscopicus))、hph(潮霉素磷酸转移酶)、niad(硝酸还原酶)、pyrg(乳清苷-5'-磷酸脱羧酶;例如来自构巢曲霉或米曲霉)、sc(硫酸腺苷酰转移酶(sulfateadenyltransferase))和trpc(邻氨基苯甲酸合酶),以及其等同物。[0177]在另一方面,本发明提供了一种宿主细胞,所述宿主细胞包含编码本发明的至少一种工程化酶多肽的至少一种多核苷酸,所述多核苷酸可操作地连接至一个或更多个控制序列用于在宿主细胞中表达一种或更多种工程化酶。适合在表达由本发明的表达载体编码的多肽中使用的宿主细胞是本领域熟知的,并且包括但不限于细菌细胞,诸如大肠杆菌、河流弧菌(vibriofluvialis)、链霉菌属(streptomyces)和鼠伤寒沙门菌(salmonellatyphimurium)细胞;真菌细胞,诸如酵母细胞(例如,酿酒酵母或巴斯德毕赤酵母(pichiapastoris)(atcc登录号201178));昆虫细胞,诸如果蝇属(drosophila)s2和夜蛾属(spodoptera)sf9细胞;动物细胞,诸如cho、cos、bhk、293和bowes黑素瘤细胞;和植物细胞。示例性宿主细胞还包括各种大肠杆菌(escherichiacoli)菌株(例如,w3110(δfhua)和bl21)。细菌的选择标志物的实例包括但不限于,来自枯草芽孢杆菌或地衣芽孢杆菌的dal基因,或赋予抗生素抗性诸如氨苄青霉素、卡那霉素、氯霉素和/或四环素抗性的标志物。[0178]在一些实施方案中,本发明的表达载体包含允许载体整合到宿主细胞的基因组中或允许载体在细胞中独立于基因组进行自主复制的元件。在一些涉及整合到宿主细胞基因组中的实施方案中,载体依赖于编码多肽的核酸序列或用于通过同源或非同源重组将载体整合到基因组中的载体的任何其他元件。[0179]在一些替代实施方案中,表达载体包含另外的核酸序列,用于指导通过同源重组整合到宿主细胞的基因组中。另外的核酸序列使载体能够在一条或更多条染色体中的一个或更多个精确位置处整合到宿主细胞基因组中。为了增加在精确位置处整合的可能性,整合元件优选地包含足够数量的核苷酸,诸如100个至10,000个碱基对,优选地400个至10,000个碱基对,和最优选地800个至10,000个碱基对,它们与相应的靶序列高度同源,以提高同源重组的可能性。整合元件可以是与宿主细胞的基因组中的靶序列同源的任何序列。此外,整合元件可以是非编码或编码核酸序列。在另一方面,载体可以通过非同源重组整合到宿主细胞的基因组中。[0180]对于自主复制,载体还可以包含复制起点,使得载体能够在所讨论的宿主细胞中自主复制。细菌复制起点的实例是允许在大肠杆菌中复制的p15aori,或者质粒pbr322、puc19、pacycl77(该质粒具有p15aori)或pacyc184的复制起点,以及允许在芽孢杆菌属(bacillus)中复制的pub110、pe194或pta1060的复制起点。用于在酵母宿主细胞中使用的复制起点的实例是2μm复制起点、ars1、ars4、ars1和cen3的组合以及ars4和cen6的组合。复制起点可以是具有使其在宿主细胞中温度敏感地发挥功能的突变的复制起点(参见例如,ehrlich,proc.natl.acad.sci.usa75:1433[1978])。[0181]在一些实施方案中,将多于一个拷贝的本发明的核酸序列插入宿主细胞以增加基因产物的产生。核酸序列拷贝数的增加可以通过将该序列的至少一个另外的拷贝整合到宿主细胞基因组中,或者通过将可扩增的选择标志物基因包含在核酸序列中来获得,其中可以通过在合适的选择剂的存在下培养细胞来选择含有选择标志物基因的扩增的拷贝并从而含有核酸序列的另外的拷贝的细胞。[0182]用于本发明的许多表达载体是商购可得的。合适的商业表达载体包括但不限于p3xflagtmtm表达载体(sigma-aldrichchemicals),其包括用于在哺乳动物宿主细胞中表达的cmv启动子和hgh多腺苷酸化位点、以及用于在大肠杆菌中扩增的pbr322复制起点和氨苄青霉素抗性标志物。其他合适的表达载体包括但不限于pbluescriptiisk(-)和pbk-cmv(stratagene),以及衍生自pbr322(gibcobrl)、puc(gibcobrl)、prep4、pcep4(invitrogen)或ppoly的质粒(参见例如,lathe等人,gene57:193-201[1987])。[0183]因此,在一些实施方案中,将包含编码至少一种变体蔗糖磷酸化酶的序列的载体转化到宿主细胞中,以允许载体的增殖和一种或更多种变体蔗糖磷酸化酶的表达。在一些实施方案中,变体蔗糖磷酸化酶被翻译后修饰以去除信号肽,并且在一些情况下可以在分泌后被裂解。在一些实施方案中,上文描述的转化的宿主细胞在合适的营养培养基中,在允许表达一种或更多种变体蔗糖磷酸化酶的条件下培养。可用于培养宿主细胞的任何合适的培养基可用于本发明,包括但不限于含有合适补充物的基本培养基或复合培养基。在一些实施方案中,宿主细胞在htp培养基中生长。合适的培养基可以从多个商业供应商获得,或者可以根据公开的配方(例如,在美国典型培养物保藏中心的目录中的)制备。[0184]在另一方面,本发明提供了包含编码本文提供的改进的蔗糖磷酸化酶多肽的多核苷酸的宿主细胞,所述多核苷酸可操作地连接到用于在宿主细胞中表达蔗糖磷酸化酶的一个或更多个控制序列。用于表达由本发明的表达载体编码的蔗糖磷酸化酶多肽的宿主细胞是本领域熟知的,并且包括但不限于,细菌细胞诸如大肠杆菌、巨大芽孢杆菌(bacillusmegaterium)、开菲尔乳杆菌(lactobacilluskefir)、链霉菌属和鼠伤寒沙门菌细胞;真菌细胞诸如酵母细胞(例如酿酒酵母或巴斯德毕赤酵母(atcc登录号201178));昆虫细胞诸如果蝇属s2和夜蛾属sf9细胞;动物细胞诸如cho、cos、bhk、293和bowes黑素瘤细胞;和植物细胞。用于上文描述的宿主细胞的合适的培养基和生长条件是本领域熟知的。[0185]用于表达蔗糖磷酸化酶的多核苷酸可以通过本领域已知的各种方法引入细胞中。技术包括,除其他以外,电穿孔、生物弹射粒子轰击(biolisticparticlebombardment)、脂质体介导的转染、氯化钙转染和原生质体融合。用于将多核苷酸引入细胞中的各种方法是本领域技术人员已知的。[0186]在一些实施方案中,宿主细胞为真核细胞。合适的真核宿主细胞包括但不限于真菌细胞、藻类细胞、昆虫细胞和植物细胞。合适的真菌宿主细胞包括但不限于子囊菌门(ascomycota)、担子菌门(basidiomycota)、半知菌亚门(deuteromycota)、接合菌门(zygomycota)、不完全菌(fungiimperfecti)。在一些实施方案中,真菌宿主细胞是酵母细胞和丝状真菌细胞。本发明的丝状真菌宿主细胞包括eumycotina和卵菌亚门(oomycota)的所有丝状形式。丝状真菌的特征是营养菌丝体,其中细胞壁由几丁质、纤维素和其他复杂多糖组成。本发明的丝状真菌宿主细胞在形态学上不同于酵母。[0187]在本发明的一些实施方案中,丝状真菌宿主细胞是任何合适的属和种,包括但不限于:绵霉属(achlya)、枝顶孢霉属(acremonium)、曲霉属(aspergillus)、短梗霉属(aureobasidium)、烟管霉属(bjerkandera)、拟蜡菌属(ceriporiopsis)、头孢霉属(cephalosporium)、金孢子菌属(chrysosporium)、旋孢腔菌属(cochliobolus)、棒囊壳属(corynascus)、隐丛壳属(cryphonectria)、隐球菌属(cryptococcus)、鬼伞属(coprinus)、革盖菌属(coriolus)、色二孢属(diplodia)、内座壳属(endothis)、镰刀菌属(fusarium)、赤霉菌属(gibberella)、粘帚霉属(gliocladium)、腐质霉属(humicola)、肉座菌属(hypocrea)、毁丝霉属(myceliophthora)、毛霉属(mucor)、脉孢菌属(neurospora)、青霉菌属(penicillium)、柄孢壳菌属(podospora)、射脉菌属(phlebia)、瘤胃壶菌属(piromyces)、梨形孢属(pyricularia)、根毛霉属(rhizomucor)、根霉属(rhizopus)、裂褶菌属(schizophyllum)、柱顶孢霉属(scytalidium)、孢子丝菌属(sporotrichum)、篮状菌属(talaromyces)、嗜热子囊菌属(thermoascus)、梭孢壳属(thielavia)、栓菌属(trametes)、弯颈霉属(tolypocladium)、木霉属(trichoderma)、轮枝孢属(verticillium)、和/或草菇属(volvariella)、和/或有性型或无性型、以及其同物异名、基原异名或分类学等同物。[0188]在本发明的一些实施方案中,宿主细胞是酵母细胞,包括但不限于假丝酵母属(candida)、汉逊酵母属(hansenula)、酵母属(saccharomyces)、裂殖酵母属(schizosaccharomyces)、毕赤酵母属(pichia)、克鲁维酵母属(kluyveromyces)或耶氏酵母属(yarrowia)物种的细胞。在本发明的一些实施方案中,酵母细胞是多形汉逊酵母(hansenulapolymorpha)、酿酒酵母、卡尔斯伯酵母(saccharomycescarlsbergensis)、糖化酵母(saccharomycesdiastaticus)、saccharomycesnorbensis、克鲁维酵母(saccharomyceskluyveri)、粟酒裂殖酵母(schizosaccharomycespombe)、巴斯德毕赤酵母、pichiafinlandica、pichiatrehalophila、pichiakodamae、膜醭毕赤酵母(pichiamembranaefaciens)、pichiaopuntiae、pichiathermotolerans、pichiasalictaria、pichiaquercuum、pichiapijperi、树干毕赤酵母(pichiastipitis)、甲醇毕赤酵母(pichiamethanolica)、安格斯毕赤酵母(pichiaangusta)、乳酸克鲁维酵母(kluyveromyceslactis)、白念珠菌(candidaalbicans)或解脂耶氏酵母(yarrowialipolytica)。[0189]在本发明的一些实施方案中,宿主细胞是藻类细胞,诸如衣藻属(chlamydomonas)(例如莱茵衣藻(c.reinhardtii))和席藻属(phormidium)(席藻属物种atcc29409)。[0190]在一些其他实施方案中,宿主细胞为原核细胞。合适的原核细胞包括但不限于革兰氏阳性、革兰氏阴性和革兰氏可变(gram-variable)细菌细胞。任何合适的细菌生物体可用于本发明,包括但不限于土壤杆菌属(agrobacterium)、脂环酸芽孢杆菌属(alicyclobacillus)、鱼腥藻属(anabaena)、组囊藻属(anacystis)、不动杆菌属(acinetobacter)、嗜酸栖热菌属(acidothermus)、节杆菌属(arthrobacter)、固氮菌属(azobacter)、芽孢杆菌属、双歧杆菌属(bifidobacterium)、短杆菌属(brevibacterium)、丁酸弧菌属(butyrivibrio)、布赫纳氏菌属(buchnera)、campestris、弯曲杆菌属(campylobacter)、梭菌属(clostridium)、棒状杆菌属(corynebacterium)、着色菌属(chromatium)、粪球菌属(coprococcus)、埃希氏菌属(escherichia)、肠球菌属(enterococcus)、肠杆菌属(enterobacter)、欧文氏菌属(erwinia)、梭形杆菌属(fusobacterium)、粪杆菌属(faecalibacterium)、弗朗西丝菌属(francisella)、黄杆菌属(flavobacterium)、地芽孢杆菌属(geobacillus)、嗜血杆菌属(haemophilus)、螺杆菌属(helicobacter)、克雷伯氏菌属(klebsiella)、乳杆菌属(lactobacillus)、乳球菌属(lactococcus)、泥杆菌属(ilyobacter)、微球菌属(micrococcus)、微杆菌属(microbacterium)、中生根瘤菌(mesorhizobium)、甲基杆菌属(methylobacterium)、甲基杆菌属、分枝杆菌属(mycobacterium)、奈瑟菌属(neisseria)、泛菌属(pantoea)、假单胞菌属(pseudomonas)、原绿球藻属(prochlorococcus)、红细菌属(rhodobacter)、红假单胞菌属(rhodopseudomonas)、红假单胞菌属、罗氏菌属(roseburia)、红螺菌属(rhodospirillum)、红球菌属(rhodococcus)、栅列藻属(scenedesmus)、链霉菌属、链球菌属(streptococcus)、synecoccus、糖单孢菌属(saccharomonospora)、葡萄球菌属(staphylococcus)、沙雷菌属(serratia)、沙门菌属(salmonella)、志贺菌属(shigella)、嗜热厌氧杆菌属(thermoanaerobacterium)、tropheryma、tularensis、temecula、嗜热聚球藻(thermosynechococcus)、热球菌属(thermococcus)、脲原体(ureaplasma)、黄单胞菌属(xanthomonas)、木杆菌属(xylella)、耶尔森菌属(yersinia)和发酵单胞菌属(zymomonas)。在一些实施方案中,宿主细胞是以下的物种:土壤杆菌属、不动杆菌属、固氮菌属、芽孢杆菌属、双歧杆菌属、布赫纳氏菌属、地芽孢杆菌属、弯曲杆菌属、梭菌属、棒状杆菌属、埃希氏菌属、肠球菌属、欧文氏菌属、黄杆菌属、乳杆菌属、乳球菌属、泛菌属、假单胞菌属、葡萄球菌属、沙门菌属、链球菌属、链霉菌属或发酵单胞菌属。在一些实施方案中,细菌宿主菌株对人类是非致病性的。在一些实施方案中,细菌宿主菌株是工业菌株。许多细菌的工业菌株是已知的并且适用于本发明。在本发明的一些实施方案中,细菌宿主细胞是土壤杆菌属物种(例如,放射形土壤杆菌(a.radiobacter)、发根土壤杆菌(a.rhizogenes)和悬钩子土壤杆菌(a.rubi))。在本发明的一些实施方案中,细菌宿主细胞是节杆菌属物种(例如,金黄节杆菌(a.aurescens)、柠檬色节杆菌(a.citreus)、球形节杆菌(a.globiformis)、a.hydrocarboglutamicus、a.mysorens、烟草节杆菌(a.nicotianae)、石蜡节杆菌(a.paraffineus)、a.protophonniae、a.roseoparqffinus、硫磺色节杆菌(a.sulfureus)和产脲节杆菌(a.ureafaciens))。在本发明的一些实施方案中,细菌宿主细胞是芽孢杆菌属物种(例如,苏云金芽孢杆菌(b.thuringensis)、炭疽芽孢杆菌(b.anthracis)、巨大芽孢杆菌(b.megaterium)、枯草芽孢杆菌(b.subtilis)、迟缓芽孢杆菌(b.lentus)、环状芽孢杆菌(b.circulans)、短小芽孢杆菌(b.pumilus)、灿烂芽孢杆菌(b.lautus)、凝结芽孢杆菌(b.coagulans)、短芽孢杆菌(b.brevis)、坚强芽孢杆菌(b.firmus)、b.alkaophius、地衣芽孢杆菌(b.licheniformis)、克劳氏芽孢杆菌(b.clausii)、嗜热脂肪芽孢杆菌(b.stearothermophilus)、嗜碱芽孢杆菌(b.halodurans)和解淀粉芽孢杆菌(b.amyloliquefaciens))。在一些实施方案中,宿主细胞是工业芽孢杆菌属菌株,包括但不限于枯草芽孢杆菌、短小芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、克劳氏芽孢杆菌、嗜热脂肪芽孢杆菌或解淀粉芽孢杆菌。在一些实施方案中,芽孢杆菌宿主细胞是枯草芽孢杆菌、地衣芽孢杆菌、巨大芽孢杆菌、嗜热脂肪芽孢杆菌和/或解淀粉芽孢杆菌。在一些实施方案中,细菌宿主细胞是梭菌属物种(例如,丙酮丁醇梭菌(c.acetobutylicum)、破伤风梭菌e88(c.tetanie88)、象牙海岸梭菌(c.lituseburense)、c.saccharobutylicum、产气荚膜梭菌(c.perfringens)和拜氏梭菌(c.beijerinckii))。在一些实施方案中,细菌宿主细胞是棒状杆菌属物种(例如,谷氨酸棒状杆菌(c.glutamicum)和嗜乙酰乙酸棒状杆菌(c.acetoacidophilum))。在一些实施方案中,细菌宿主细胞为埃希氏菌属物种(例如,大肠杆菌)。在一些实施方案中,宿主细胞为大肠杆菌w3110。在一些实施方案中,细菌宿主细胞是欧文氏菌属物种(例如,噬夏孢欧文氏菌(e.uredovora)、胡萝卜软腐欧文氏菌(e.carotovora)、菠萝欧文氏菌(e.ananas)、草生欧文氏菌(e.herbicola)、e.punctata和e.terreus)。在一些实施方案中,细菌宿主细胞是泛菌属物种(例如,柠檬酸泛菌(p.citrea)和成团泛菌(p.agglomerans))。在一些实施方案中,细菌宿主细胞是假单胞菌属物种(例如恶臭假单胞菌(p.putida)、铜绿假单胞菌(p.aeruginosa)、p.mevalonii和假单胞菌属物种d-0l10(p.sp.d-0l10))。在一些实施方案中,细菌宿主细胞是链球菌属物种(例如,s.equisimiles、酿脓链球菌(s.pyogenes)和乳房链球菌(s.uberis))。在一些实施方案中,细菌宿主细胞是链霉菌属物种(例如,生二素链霉菌(s.ambofaciens)、不产色链霉菌(s.achromogenes)、除虫链霉菌(s.avermitilis)、天蓝色链霉菌(s.coelicolor)、生金色链霉菌(s.aureofaciens)、金色链霉菌(s.aureus)、杀真菌素链霉菌(s.fungicidicus)、灰色链霉菌(s.griseus)和变铅青链霉菌(s.lividans))。在一些实施方案中,细菌宿主细胞是发酵单胞菌属物种(例如,运动发酵单胞菌(z.mobilis)和解脂发酵单胞菌(z.lipolytica))。[0191]可用于本发明的许多原核和真核菌株是公众从许多培养物保藏中心可容易地获得的,诸如美国典型培养物保藏中心(atcc)、德国微生物和真菌保藏中心(deutschesammlungvonmikroorganismenundzellkulturengmbh,dsm)、荷兰中央农业研究中心(centraalbureauvoorschimmelcultures,cbs)和美国农业研究服务专利培养物保藏中心北方区域研究中心(agriculturalresearchservicepatentculturecollection,northernregionalresearchcenter,nrrl)。[0192]在一些实施方案中,宿主细胞被遗传修饰以具有改进蛋白分泌、蛋白稳定性的特征和/或蛋白表达和/或分泌所期望的其他性质。遗传修饰可以通过遗传工程技术和/或典型微生物技术(例如,化学或uv诱变和随后的选择)来实现。事实上,在一些实施方案中,重组修饰和典型选择技术的组合用于产生宿主细胞。使用重组技术,核酸分子可以以引起宿主细胞内和/或培养基中一种或更多种蔗糖磷酸化酶变体的产量增加的方式引入、缺失、抑制或修饰。例如,敲除alp1功能产生蛋白酶缺陷的细胞,并且敲除pyr5功能产生具有嘧啶缺陷表型的细胞。在一种遗传工程方法中,同源重组用于通过在体内特异性靶向基因来诱导靶向的基因修饰,以抑制编码蛋白的表达。在替代方法中,sirna、反义和/或核酶技术可用于抑制基因表达。本领域已知各种降低细胞中的蛋白表达的方法,包括但不限于编码蛋白的基因的全部或一部分的缺失,和位点特异性诱变以破坏基因产物的表达或活性。(参见例如,chaveroche等人,nucl.acidsres.,28:22e97[2000];cho等人,molec.plantmicrobeinteract.,19:7-15[2006];maruyama和kitamoto,biotechnollett.,30:1811-1817[2008];takahashi等人,mol.gen.genom.,272:344-352[2004];和you等人,arch.microbiol.,191:615-622[2009],其均通过引用并入本文)。也可使用随机诱变,随后筛选期望的突变(参见例如,combier等人,femsmicrobiol.lett.,220:141–8[2003];和firon等人,eukary.cell.2:247-55[2003],二者通过引用并入)。[0193]将载体或dna构建体引入宿主细胞中可以使用本领域已知的任何合适的方法完成,包括但不限于磷酸钙转染、deae-葡聚糖介导的转染、peg介导的转化、电穿孔或本领域已知的其他常用技术。在一些实施方案中,可使用大肠杆菌表达载体pck100900i(参见,美国专利第9,714,437号,通过引用特此并入本文)。[0194]在一些实施方案中,本发明的工程化宿主细胞(即,“重组宿主细胞”)在常规营养培养基中培养,所述培养基经适当修改以激活启动子、选择转化体或扩增蔗糖磷酸化酶多核苷酸。培养条件,诸如温度、ph等,是先前与选择用于表达的宿主细胞一起使用的那些,并且是本领域技术人员熟知的。如所述的,许多标准参考文献和教科书可用于许多细胞的培养和产生,包括细菌、植物、动物(尤其是哺乳动物)和古细菌(archebacterial)来源的细胞的培养和产生。[0195]在一些实施方案中,表达本发明的变体蔗糖磷酸化酶多肽的细胞在分批或连续发酵条件下生长。典型的“分批发酵”是封闭的系统,其中培养基的组成在发酵开始时设定,并且在发酵期间不受人为变化的影响。分批系统的一种变化形式是“补料分批发酵”,其也可用于本发明。在这种变化形式中,随着发酵的进行,底物以增量添加。当分解代谢物阻遏可能抑制细胞的代谢时,以及期望培养基中具有有限量的底物时,补料分批系统是有用的。分批发酵和补料分批发酵是本领域常见和熟知的。“连续发酵”是开放的系统,其中将确定的发酵培养基连续添加到生物反应器,并且同时取出等量的条件培养基用于处理。连续发酵通常将培养物维持在恒定的高密度,其中细胞主要处于对数期生长。连续发酵系统力图维持稳态生长条件。用于调节用于连续发酵过程的营养物和生长因子的方法以及用于使产物形成速率最大化的技术是工业微生物学领域熟知的。[0196]在本发明的一些实施方案中,无细胞转录/翻译系统可用于产生一种或更多种变体蔗糖磷酸化酶。若干系统是商购可得的,并且方法是本领域技术人员熟知的。[0197]本发明提供了制备变体蔗糖磷酸化酶多肽或其生物活性片段的方法。在一些实施方案中,方法包括:提供用多核苷酸转化的宿主细胞,所述多核苷酸编码包含与seqidno:2和/或seqidno:4的至少约70%(或至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%)序列同一性并且包含至少一个本文提供的突变的氨基酸序列;在培养基中在宿主细胞表达编码的变体蔗糖磷酸化酶多肽的条件下培养转化的宿主细胞;和任选地回收或分离表达的变体蔗糖磷酸化酶多肽,和/或回收或分离含有表达的变体蔗糖磷酸化酶多肽的培养基。在一些实施方案中,方法还提供任选地在表达编码的蔗糖磷酸化酶多肽后裂解转化的宿主细胞,并任选地从细胞裂解物回收和/或分离表达的变体蔗糖磷酸化酶多肽。本发明还提供了制备变体蔗糖磷酸化酶多肽的方法,所述方法包括在适于产生变体蔗糖磷酸化酶多肽的条件下培养用变体蔗糖磷酸化酶多肽转化的宿主细胞,并回收变体蔗糖磷酸化酶多肽。通常,使用本领域熟知的蛋白质回收技术,包括本文描述的那些技术,从宿主细胞培养基、宿主细胞或两者回收或分离乙酸激酶多肽。在一些实施方案中,宿主细胞通过离心收获,通过物理或化学手段破坏,并且所得的粗提取物被保留用于进一步纯化。用于蛋白质表达的微生物细胞可以通过任何方便的方法来破坏,包括但不限于冻融循环、声处理(sonication)、机械破坏和/或使用细胞裂解剂,以及本领域技术人员熟知的许多其他合适的方法。[0198]宿主细胞中表达的工程化蔗糖磷酸化酶可以使用本领域已知的用于蛋白纯化的技术中的任一种或更多种从细胞和/或培养基回收,所述用于蛋白纯化的技术包括,除了其他以外,溶菌酶处理、声处理、过滤、盐析、超离心和色谱法。用于裂解和从细菌诸如大肠杆菌高效提取蛋白的合适的溶液是以商标名cellyticbtm(sigma-aldrich)商购可得的。因此,在一些实施方案中,通过本领域已知的各种方法中的任一种来回收/分离并任选地纯化所得多肽。例如,在一些实施方案中,多肽通过常规程序从营养培养基分离,所述常规程序包括但不限于离心、过滤、提取、喷雾干燥、蒸发、色谱法(例如离子交换、亲和、疏水相互作用、色谱聚焦(chromatofocusing)和尺寸排阻)或沉淀。在一些实施方案中,根据需要,使用蛋白质重折叠步骤来完成成熟蛋白质的构造。此外,在一些实施方案中,在最终纯化步骤中采用高效液相色谱(hplc)。例如,在一些实施方案中,本领域已知的方法可用于本发明(参见例如,parry等人,biochem.j.,353:117[2001];和hong等人,appl.microbiol.biotechnol.,73:1331[2007],两者通过引用并入本文)。事实上,本领域已知的任何合适的纯化方法可用于本发明。[0199]用于分离蔗糖磷酸化酶多肽的色谱技术包括但不限于,反相色谱、高效液相色谱、离子交换色谱、凝胶电泳和亲和色谱。用于纯化特定酶的条件部分地取决于诸如以下的因素:净电荷、疏水性、亲水性、分子量、分子形状等,是本领域技术人员已知的。[0200]在一些实施方案中,亲和技术可用于分离改进的蔗糖磷酸化酶。对于亲和色谱纯化,可以使用与蔗糖磷酸化酶多肽特异性结合的任何抗体。为了产生抗体,可以通过注射蔗糖磷酸化酶免疫接种各种宿主动物,包括但不限于兔、小鼠、大鼠等。蔗糖磷酸化酶多肽可以借助于侧链官能基团或附接至侧链官能基团的接头附接至合适的载体诸如bsa。根据宿主物种,可以使用各种佐剂增强免疫应答,包括但不限于弗氏(完全和不完全)、矿物凝胶诸如氢氧化铝、表面活性物质诸如溶血卵磷脂、普朗尼克多元醇、聚阴离子、肽、油乳剂、钥孔血蓝蛋白(keyholelimpethemocyanin)、二硝基苯酚,以及潜在有用的人类佐剂诸如bcg(卡介苗)和短棒状杆菌(corynebacteriumparvum)。[0201]在一些实施方案中,制备蔗糖磷酸化酶变体并以表达酶的细胞形式、作为粗提取物或作为分离或纯化的制品使用。在一些实施方案中,将蔗糖磷酸化酶变体制备成冻干剂、粉末形式(例如丙酮粉末),或者制备成酶溶液。在一些实施方案中,蔗糖磷酸化酶变体是基本上纯的制品形式。[0202]在一些实施方案中,蔗糖磷酸化酶多肽连接到任何合适的固体基底。固体基底包括但不限于固相、表面和/或膜。固体支持物包括但不限于有机聚合物诸如聚苯乙烯、聚乙烯、聚丙烯、聚氟乙烯、聚氧乙烯(polyethyleneoxy)和聚丙烯酰胺,以及它们的共聚物和接枝物。固体支持物还可以是无机的,诸如玻璃、二氧化硅、可控孔隙玻璃(cpg)、反相二氧化硅或金属诸如金或铂。基底的构型可以呈珠、球、颗粒(particle)、小粒(granule)、凝胶、膜或表面的形式。表面可以是平坦的、基本上平坦的或非平坦的。固体支持物可以是多孔的或无孔的,并且可以具有溶胀或非溶胀特征。固体支持物可以被配置为孔、凹陷(depression)或其他容器(container)、器皿(vessel)、特征或位置的形式。多于一个支持物可以被配置在阵列上于多个位置处,所述位置可用试剂的自动递送或通过检测方法和/或仪器寻址。[0203]在一些实施方案中,免疫学方法用于纯化蔗糖磷酸化酶变体。在一种方法中,使用常规方法产生的针对野生型或变体蔗糖磷酸化酶多肽(例如,针对包含seqidno:2和/或seqidno:4中任一种的多肽、和/或其变体、和/或其免疫原性片段)的抗体被固定在珠上,与细胞培养基在变体蔗糖磷酸化酶被结合的条件下混合,并沉淀。在一种相关的方法中,可以使用免疫色谱法(immunochromatography)。[0204]在一些实施方案中,将蔗糖磷酸化酶表达为包含非酶部分的融合蛋白。在一些实施方案中,变体乙酸激酶序列与纯化促进结构域融合。如本文使用的,术语“纯化促进结构域”是指介导与其融合的多肽的纯化的结构域。合适的纯化结构域包括但不限于金属螯合肽、允许在固定化金属上纯化的组氨酸-色氨酸模块、结合谷胱甘肽的序列(例如,gst)、血凝素(ha)标签(对应于源自流感血凝素蛋白的表位;参见例如,wilson等人,cell37:767[1984])、麦芽糖结合蛋白序列、在flags延伸/亲和纯化系统(例如,可从immunexcorp获得的系统)中使用的flag表位,等等。考虑用于本文描述的组合物和方法的一种表达载体提供了融合蛋白的表达,所述融合蛋白包含与由肠激酶裂解位点隔开的多组氨酸区域融合的本发明的多肽。组氨酸残基促进在imiac(固定化金属离子亲和色谱;参见例如,porath等人,prot.exp.purif.,3:263-281[1992])上纯化,而肠激酶裂解位点提供了从融合蛋白分离变体蔗糖磷酸化酶多肽的手段。pgex载体(promega)也可用于表达将外源多肽表达为与谷胱甘肽s-转移酶(gst)的融合蛋白。一般来说,这样的融合蛋白是可溶的,并且可以通过吸附到配体-琼脂糖珠(例如,在gst-融合蛋白的情况下,谷胱甘肽-琼脂糖),然后在游离配体存在下洗脱,容易地从裂解的细胞纯化。[0205]因此,在另一方面,本发明提供了产生工程化酶多肽的方法,其中所述方法包括将能够表达编码工程化酶多肽的多核苷酸的宿主细胞在适合于该多肽表达的条件下培养。在一些实施方案中,方法还包括分离和/或纯化如本文描述的酶多肽的步骤。[0206]用于宿主细胞的合适的培养基和生长条件是本领域熟知的。考虑了,用于将用于表达酶多肽的多核苷酸引入细胞中的任何合适的方法可用于本发明。合适的技术包括但不限于,电穿孔、生物弹射粒子轰击、脂质体介导的转染、氯化钙转染和原生质体融合。[0207]本发明的各种特征和实施方案在以下代表性实施例中进行了说明,这些实施例旨在说明而非限制。[0208]实验[0209]提供以下实施例,包括实验和获得的结果,仅用于说明的目的,而不应被解释为限制本发明。事实上,下文描述的许多试剂和设备有各种合适的来源。不意图将本发明限于任何试剂和设备项目的任何特定来源。[0210]在下文的实验公开内容中,应用以下缩写:m(摩尔/升);mm(毫摩尔/升),um和μm(微摩尔/升);nm(纳摩尔/升);mol(摩尔);gm和g(克);mg(毫克);ug和μg(微克);l和l(升);ml和ml(毫升);cm(厘米);mm(毫米);um和μm(微米);sec.(秒);min(s)(分钟);h(s)和hr(s)(小时);u(单位);mw(分子量);rpm(转/分);psi和psi(磅/平方英寸);℃(摄氏度);rt和rt(室温);cv(变异系数);cam和cam(氯霉素);pmbs(硫酸多粘菌素b);iptg(异丙基β-d-l-硫代吡喃半乳糖苷);lb(溶菌肉汤,lysogenybroth);tb(超级肉汤,terrificbroth);sfp(摇瓶粉末);cds(编码序列);dna(脱氧核糖核酸);rna(核糖核酸);nt(核苷酸;多核苷酸);aa(氨基酸;多肽);大肠杆菌w3110(常用的实验室大肠杆菌菌株,可从coligeneticstockcenter[cgsc],newhaven,ct获得);htp(高通量);hplc(高压液相色谱);hplc-uv(hplc-紫外光可见检测器);1hnmr(质子核磁共振光谱学);fiopc(相对于阳性对照的倍数改进);sigma和sigma-aldrich(sigma-aldrich,st.louis,mo);difco(difcolaboratories,bddiagnosticsystems,detroit,mi);microfluidics(microfluidics,westwood,ma);lifetechnologies(lifetechnologies,fisherscientific,waltham,ma的一部分);amresco(amresco,llc,solon,oh);carbosynth(carbosynth,ltd.,berkshire,uk);varian(varianmedicalsystems,paloalto,ca);agilent(agilenttechnologies,inc.,santaclara,ca);infors(inforsusainc.,annapolisjunction,md);和thermotron(thermotron,inc.,holland,mi)。[0211]实施例1[0212]包含重组蔗糖磷酸化酶基因的大肠杆菌表达宿主[0213]用于产生本发明变体的初始蔗糖磷酸化酶(sp)从来自物种广栖异斯卡多维亚菌的野生型序列(ncbi参考序列:wp_021617468.1)获得。将野生型sp蛋白序列密码子优化用于在大肠杆菌中表达,并且将该dna克隆到表达载体pck110900(参见美国专利申请公布第2006/0195947号的图3)中,在laci阻遏物的控制下与lac启动子可操作地连接。表达载体还包含p15a复制起点和氯霉素抗性基因。使用本领域已知的标准方法将所得质粒转化到大肠杆菌w3110中。通过使细胞经受氯霉素选择来分离转化体,如本领域已知的(参见例如,美国专利第8,383,346号和wo2010/144103)。[0214]实施例2[0215]高通量含sp的湿细胞沉淀的制备[0216]w3110大肠杆菌细胞用含有sp编码基因的相应质粒转化,并铺板在含有1%葡萄糖和30μg/ml氯霉素(cam)的lb琼脂板上,并在37℃生长过夜。挑选单克隆菌落,并接种到180μl含有1%葡萄糖和30μg/ml氯霉素的lb中,并置于96孔浅孔微量滴定板的孔中。将板用o2可透过的密封件(seal)密封,并使培养物在30℃、200rpm和85%湿度生长过夜。然后,将10μl的每种细胞培养物转移到含有390μltb和30μg/mlcam的96孔深孔板的孔中。深孔板用o2可透过的密封件密封,并在30℃、250rpm和85%湿度孵育,直到达到od6000.6-0.8。然后通过添加异丙基硫代糖苷(iptg)至1mm的最终浓度来诱导细胞培养物,并在30℃以250rpm摇动孵育过夜。然后使用在4,000rpm进行10分钟的离心来沉淀细胞。弃去上清液,并且在裂解前将沉淀物在-80℃冷冻。[0217]实施例3[0218]对于化合物(1)的产生,seqidno:2的改进的蔗糖磷酸化酶变体[0219]编码seqidno:2的具有蔗糖磷酸化酶活性的多肽的多核苷酸(seqidno:1)用于产生表3-1的工程化多肽。与起始多肽相比,这些多肽在期望的条件下显示出改进的蔗糖磷酸化酶活性(例如,从游离磷酸和蔗糖产生蔗糖-1-磷酸的能力,如经由在方案iii中所示的存在工程化dera、ppm和pnp酶的情况下产生化合物(1)所测量的)。[0220]具有偶数编号的序列标识符的氨基酸序列的工程化多肽从seqidno:2的“骨架”氨基酸序列产生,如下文描述的。定向演化始于seqidno:1中所列的多核苷酸。使用各种熟知的技术(例如饱和诱变,先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库并使用htp测定和测量多肽sp活性的分析方法进行筛选。在这种情况下,使用表3-2中的分析方法,经由在如上文方案iii中所示的在存在工程化脱氧核糖-磷酸醛缩酶(dera)、磷酸戊糖变位酶(ppm)和嘌呤核苷磷酸化酶(pnp)的情况下的化合物(1)的产生来测量活性。本文提供的方法可用于分析使用本发明产生的变体。然而,并不意在本文描述的方法是适用于分析本文提供的和/或使用本文提供的方法产生的变体的仅有方法,因为其他合适的方法可用于本发明。[0221]如以下制备高通量裂解物。如实施例2中描述地制备来自菌落sp变体的冷冻沉淀,并用400μl含有100mm三乙醇胺缓冲液,ph7.5、1mg/ml溶菌酶和0.5mg/ml硫酸多粘菌素b(pmbs)的裂解缓冲液进行裂解。在室温摇动裂解混合物2小时。然后将板在4000rpm和4℃离心15min。[0222]如以下制备摇瓶粉末(来自摇瓶培养物的冻干裂解物)。将期望的变体的细胞培养物铺板到具有1%葡萄糖和30μg/mlcam的lb琼脂板上并在37℃生长过夜。将来自每种培养物的单个菌落转移到6ml的具有1%葡萄糖和30μg/mlcam的lb。使培养物在30℃、250rpm生长18h,并以约1:50传代培养至250ml的含30μg/mlcam的tb中,至0.05的最终od600。使培养物在30℃、250rpm生长约195分钟,达到0.6-0.8之间的od600,并用1mmiptg诱导。然后使培养物在30℃、250rpm生长20h。将培养物以4000rpm离心10分钟。弃去上清液,并将沉淀重悬于30ml的20mm三乙醇胺,ph7.5中,并使用处理机系统(microfluidics)以18,000psi裂解。将裂解物沉淀(10,000rpm,60min),然后将上清液冷冻并冻干。[0223]反应在包括dera/ppm/pnp/sp酶的串联4酶级联装置中在96孔形式中、在2ml深孔板中以100μl总体积进行。反应包括作为摇瓶粉末的dera、ppm和pnp(30wt%ppmseqidno:86、0.5wt%deraseqidno:88和0.5wt%pnph-4007-pnpseqidno:90)、26g/l或124mm对映体纯(r)-2-乙炔基-甘油醛底物、99mmf-腺嘌呤(0.8当量)、186mm乙醛(异丙醇中40wt%,1.5当量)、372mm蔗糖(3.0当量)、5mmmncl2和50mmteoa,ph7.5。反应设置如下:(i)将除了sp之外的所有反应组分在单一溶液中预混合,并且然后将90μl该溶液等分到96孔板的每个孔中(ii)然后将10μlsp裂解物(使用50mmteoa缓冲液预稀释100倍)加入孔中以引发反应。将反应板热密封,在35℃以600rpm摇动孵育18-20小时。[0224]反应用300μl的1mkoh和dmso1:1混合物猝灭。将猝灭的反应在桌上型振荡器上摇动10min,然后在4℃以4000rpm离心5min,以沉淀出任何沉淀物。然后将10微升上清液转移到预先填充有190μl的在0.1mteoaph7.5缓冲液中的25%mecn的96孔圆底板中。将样品注入到thermou3000uplc系统,并使用atlantist3c18,3μm,2.1x100mm柱等度分离,其中流动相包含补充有0.1%tfa的75:25水:乙腈,如表3-2中描述的。相对于seqidno:2的活性被计算为在规定的反应条件下由变体酶形成的化合物(1)的峰面积相比于由seqidno:2形成的化合物(1)的峰面积。[0225][0226][0227][0228]实施例4[0229]对于化合物(1)的产生,seqidno:4的改进的蔗糖磷酸化酶变体[0230]编码seqidno:4的具有蔗糖磷酸化酶活性的多肽的多核苷酸(seqidno:3)用于产生表4-1的工程化多肽。与起始多肽相比,这些多肽在期望的条件下显示出改进的蔗糖磷酸化酶活性(例如,从游离磷酸和蔗糖产生蔗糖-1-磷酸的能力,如经由在方案iii中所示的存在工程化dera、ppm和pnp酶的情况下产生化合物(1)所测量的)。[0231]具有偶数编号的序列标识符的氨基酸序列的工程化多肽从seqidno:4的“骨架”氨基酸序列产生,如下文描述的。定向演化始于seqidno:3中所列的多核苷酸。使用各种熟知的技术(例如饱和诱变,先前鉴定的有益氨基酸差异的重组)产生工程化多肽的文库并使用htp测定和测量多肽sp活性的分析方法进行筛选。在这种情况下,使用表3-2中的分析方法,经由在如方案iii中所示的存在工程化dera、ppm和pnp的情况下的化合物(1)的产生来测量活性。本文提供的方法可用于分析使用本发明产生的变体。然而,并不意在本文描述的方法是适用于分析本文提供的和/或使用本文提供的方法产生的变体的仅有方法,因为其他合适的方法可用于本发明。[0232]如以下制备高通量裂解物。如实施例2中描述地制备来自菌落sp变体的冷冻沉淀,并用400μl含有100mm三乙醇胺缓冲液,ph7.5、1mg/ml溶菌酶和0.5mg/ml硫酸多粘菌素b(pmbs)的裂解缓冲液进行裂解。在室温摇动裂解混合物2小时。然后将板在4000rpm和4℃离心15min。[0233]如以下制备摇瓶粉末(来自摇瓶培养物的冻干裂解物)。将期望的变体的细胞培养物铺板到具有1%葡萄糖和30μg/mlcam的lb琼脂板上并在37℃生长过夜。将来自每种培养物的单个菌落转移到6ml的具有1%葡萄糖和30μg/mlcam的lb。使培养物在30℃、250rpm生长18h,并以约1:50传代培养至250ml的含30μg/mlcam的tb中,至0.05的最终od600。使培养物在30℃、250rpm生长约195分钟,达到0.6-0.8之间的od600,并用1mmiptg诱导。然后使培养物在30℃、250rpm生长20h。将培养物以4000rpm离心10分钟。弃去上清液,并将沉淀重悬于30ml的20mm三乙醇胺,ph7.5中,并使用处理机系统(microfluidics)以18,000psi裂解。将裂解物沉淀(10,000rpm,60min),然后将上清液冷冻并冻干。[0234]反应在包括dera/ppm/pnp/sp酶的串联4酶级联装置中在96孔形式中、在2ml深孔板中以100μl总体积进行。反应包括作为摇瓶粉末的dera、ppm和pnp(30wt%ppmseqidno:86、0.5wt%deraseqidno:88和0.5wt%pnpseqidno:90)、26g/l或124mm对映体纯(r)-2-乙炔基-甘油醛底物、99mmf-腺嘌呤(0.8当量)、186mm乙醛(异丙醇中40wt%,1.5当量)、372mm蔗糖(3.0当量)、5mmmncl2和50mmteoa,ph7.5。反应设置如下:(i)将除了sp之外的所有反应组分在单一溶液中预混合,并且然后将90μl该溶液等分到96孔板的每个孔中(ii)然后将10μlsp裂解物(使用50mmteoa缓冲液预稀释100倍)加入孔中以引发反应。将反应板热密封,在35℃以600rpm摇动孵育18-20小时。[0235]反应用300μl的1mkoh和dmso1:1混合物猝灭。将猝灭的反应在桌上型振荡器上摇动10min,然后在4℃以4000rpm离心5min,以沉淀出任何沉淀物。然后将10微升上清液转移到预先填充有190μl的在0.1mteoaph7.5缓冲液中的25%mecn的96孔圆底板中。将样品注入到thermou3000uplc系统,并使用atlantist3c18,3μm,2.1x100mm柱等度分离,其中流动相包含补充有0.1%tfa的75:25水:乙腈,如表3-2中描述的。相对于seqidno:4的活性被计算为在规定的反应条件下由变体酶形成的化合物(1)的峰面积相比于由seqidno:4形成的化合物(1)的峰面积。[0236][0237]出于所有目的,本技术中引用的所有出版物、专利、专利申请和其他文件在此通过引用以其整体并入,其程度如同每个单独的出版物、专利、专利申请或其他文件被单独地指出出于所有目的通过引用并入一样。[0238]虽然已经说明和描述了各种具体的实施方案,但是将理解,可以做出各种改变而不偏离本发明的精神和范围。当前第1页12当前第1页12