赖斯大学科学家利用人工智能与大型DNA文库,绘制并预测基因电路功能,助力生物技术与疗法发展。

科学家开发出一种可能彻底改变治疗性与生物技术应用DNA设计方式的新技术。合成生物学领域长期面临一个难题:虽然能编程细胞使其按特定方式运作,但要找到实现该功能的正确DNA序列却极其困难。
赖斯大学的科学家卡莱布·巴肖尔解释说:"实现任何既定功能都可能存在无数设计方案,寻找正确方案犹如大海捞针。"
如今,赖斯大学的研究团队提出一项解决方案,可大幅扩展设计流程的关键环节。该研究通过结合机器学习与大型DNA设计文库,能更精准预测哪些序列能使细胞按科学家期望的方式运作。
基因设计能力实现重大突破
这项名为"CLASSIC"的新技术,全称为"长短读长测序结合解析基因复杂性技术"。借助该技术,科学家能一次性生成数十万至数百万个DNA设计方案,远超以往水平。
巴肖尔表示:"我们创建的新技术可同时生成前所未有的海量DNA设计。"作为赖斯大学生物工程与生物科学助理教授、合成生物学研究所副主任,他领导的研究旨在建立DNA序列(即基因电路)与细胞行为之间的映射关系。
研究团队通过构建巨型基因电路库,并将每个电路与它在人体细胞内的实际表现关联起来。CLASSIC成功的关键在于融合两种测序方法:长读长测序可一次性读取数千个碱基,捕获完整电路设计;短读长测序则在短片段上更快更精准。共同第一作者罗南·奥康奈尔指出:"多数研究者只采用其中一种方法,但我们发现两者结合能突破文库构建与测试的瓶颈。"
研究人员采用标记追踪技术,将基因电路植入经过改造的人胚胎肾细胞,当特定基因激活时细胞会发出荧光。荧光强度越高表明电路活性越强。随后通过短读长测序识别各组细胞中每个电路设计的条形码序列,从而建立DNA序列与细胞表现的关联数据库。
人工智能设计引领未来
这些海量数据集可用于训练机器学习模型,识别最可能产生预期效果的DNA设计,进而预测尚未实际测试的设计性能。奥康奈尔解释道:"我们用数据训练模型来理解整个设计图景,并预测尚未生成实验数据的设计方案。"初步验证显示预测准确率极高——40个预测序列与手动测试结果完全吻合。
CLASSIC生成的数据规模至关重要,它为机器学习模型提供了足够的信息以做出可靠预测。共同第一作者克希蒂吉·拉伊强调:"这是首次能运用人工智能分析基因电路并准确预测未测试电路,因为此前无人能构建如此规模的文库。"
研究还发现实现功能的基因电路常存在多种可行方案,而非单一最优设计。这种灵活性将帮助工程师构建更稳健的生物系统。研究团队表示,高通量数据与人工智能建模的结合有望加速细胞疗法及其他合成生物学应用的发展。
该研究成果已发表于《自然》期刊。
如果朋友们喜欢,敬请关注“知新了了”!