前沿资讯 | 利用机器学习实现微流控液滴的设计自动化

6
发表时间:2024-01-22 14:29

大家好!今天为大家分享一篇2024年发表在Nature Communications上的文章,题目为“Design automation of microfluidic single and double emulsion droplets with machine learning”。美国斯坦福大学生物工程系Ali Lashkaripour 等人利用机器学习和全面的实验数据集,包括由许多不同流体组成的 SE 和 DE 液滴来训练模型,这些模型可以准确预测各种流体属性、几何形状、流速和设备表面特性的液滴直径和生成速率。此外,该模型可通过设置几何形状、流体成分和材料对实验结果进行“盲目”预测验证,建立其普遍性。并将这些预测模型与自动搜索算法集成,创建了用于 SE 和 DE 液滴的设计自动化工具。本文的通讯作者为斯坦福大学生物工程系Ali Lashkaripour 。


研究背景


液滴微流控技术是通过将液体(分散流体)的纳升到皮升样品稳定地分散在不混溶的载体液体(连续流体)中,实现大规模并行的小型化液滴制备的技术。其中单乳化(SE)油包水/水包油液滴系统在单细胞分析、定量检测、化学合成,以及制药等方面应用广泛。双乳化(DE)液滴制备系统通常由包裹在油壳中的水芯组成,油壳分散在水性外部连续流体中,已应用于控制药物递送、具有核壳结构微粒的生产、以及食品和化妆品行业。此外双乳化(DE)液滴制备系统凭借其多相包裹和高稳定特性,能够在 kHz 通量下进行细胞分选(FACS),并衍生出各类商用化设备。

尽管液滴微流控技术具有优势,该技术在生命科学中的应用推广仍存在局限和困难。液滴稳定性、大小和生成速率决定了下游检测性能,但上述各项指标在设计和实验过程中均难以预测,即便是专业科研人员也需要长期的经验积累;此外,液滴测定中物质的有效浓度率与液滴直径的3次方成反比,单细胞的包裹和分选效率与尺寸高度相关,因此生成速率的精确控制对于集成多组分微流控平台的开发同样至关重要。液滴通常使用流聚焦几何形状制成,这些几何形状可在各种直径和生成速率下产生高度单分散的液滴,并且需要低连续与分散的流速比。然而,多相流的复杂和高度非线性动力学以及流动聚焦几何中的大量有效参数致使很难建立一个解析解或可推广的缩放公式来准确预测各种流动条件和流体特性下的液滴直径和速率。在生命科学中,这些局限性更加严重,生物检测需要具有不同特性(例如界面张力和粘度)的缓冲液,这些缓冲液会显著影响所得液滴直径和生成速率。因此,生成具有所需属性的液滴通常需要多次资源密集型设计迭代和经验测试,当集成液滴发生器上游或下游的其他组件时,此过程变得更加具有挑战性。因此,一种能够准确预测设备几何形状和流速以创建具有所需特性液滴的工具,可以大大简化设备设计,促进多组分设备及平台在生命科学中的更广泛应用。

基于此,美国斯坦福大学生物工程系Ali Lashkaripour 等人利用机器学习和全面的实验数据集,包括由许多不同流体组成的 SE 和 DE 液滴来训练模型。这些模型可以准确预测各种流体属性、几何形状、流速和设备表面特性的液滴直径和生成速率。此外,该模型可通过设置几何形状、流体成分和材料对实验结果进行“盲目”预测验证,建立其普遍性,并将这些预测模型与自动搜索算法集成。该研究创建了用于 SE 和 DE 液滴的设计自动化工具。




图文导读


全面的液滴生成数据集:为了生成一个全面的数据集,详细说明设备设计、流速和流体特性对液滴直径和生成速率的影响,策划并合并了两个单乳化(SE)和双乳化液滴(DE)实验数据集。该综合数据集包括 46 种不同的聚二甲基硅氧烷 (PDMS) 和聚碳酸酯(PC)芯片设计(43 个 SE 和 3 个 DE 结构,组合了 49 个流动聚焦几何形状)、8 种不同的分散流体和 6 种不同的连续流体,用于以 5–12,000 Hz 的速率生成直径为 15–250 μm 液滴(图 1)。还使用了 3 个具有不同几何形状的 PDMS 芯片,结合多种流速(总共 197 个数据点)生成了水-油-水双乳化液滴。在该过程中采用了几种应用于细胞培养、细胞裂解和分子生物学的生物学相关液体(例如 PCR、NGS 和 scATAC-Seq),包括 6 种不同的内部液体、1 种中间液体和 4 种外部液体。其中一个流动聚焦部位(FF1)的特征尺寸分别为15、22.5和30 μm,另一个流动聚焦部位(FF2)的特征尺寸分别为30、45和60 μm,归一化通道深度(即纵横比)为1。FF2的长宽尺度是是 FF1 的两倍,以确保双乳化液滴的稳定生成。由此产生的液滴直径范围为 15.5 至 54.2 μm,生成速率范围为 1800 至 11,800 Hz。为了创建一个可推广的液滴生成预测模型并有效地模拟DE生成,将DE生成视为FF1和FF2的两个独立的SE生成事件,FF1产生油包水SEs,FF2产生水包油SEs。分别使用 FF1 和 FF2 处的水力直径(即产生液滴的孔口)对 DE 内径和外径进行了归一化。归一化内径范围为0.92至1.6(15.5-42.1 μm),归一化外径范围为0.84至1.06(27.4-54.2 μm),如图2所示。


图1   用于整理数据和训练模型的通道结构,以实现 SE 和 DE 液滴生成的性能预测和设计自动化。

图2   综合数据集包括使用各种设备几何形状、流体特性和流速产生的 SE 和 DE 液滴。

液滴直径和生成速率预测:训练了缩放定律、神经网络和提升树模型来预测 SE 和 DE 液滴直径和生成速率。虽然标度定律(即经验拟合的标度公式)很简单,但它们通常不准确或无法推广到不可视的尺寸。因此,还训练了机器学习模型,并将其准确性和泛化性与缩放定律进行了比较。为了提高通用性,尽可能使所有设计参数无量纲。包括使用毛细管数、粘度比和流速比来考虑流体特性(即粘度和界面张力)和流速。研究还通过孔口宽度(孔口宽度本身除外)对所有几何参数(通道深度、分散和连续入口宽度以及出口通道宽度)进行了归一化(图 3)。为了评估模型的准确性并防止过度拟合,将综合数据集随机分为训练集 (80%) 和测试集 (20%),用于 15 个不同的训练,并计算每个模型相对于测试集的平均性能。对于每个模型,首先预测液滴直径,然后使用这些值根据分散流体流速和质量守恒来计算预测的生成速率(假设具有均匀直径的稳定液滴生成)。预测结果显示,直径预测的平均绝对百分比误差(MAPE)范围为17.7-47.6%,速率预测的平均绝对百分比误差(MAPE)略高于直径预测。此外,为提高预测精度,该研究还训练了一个神经网络,该神经网络将毛细管数、流速比和五个几何参数(孔口宽度、归一化通道深度、归一化出口宽度、归一化分散流体入口宽度和归一化连续流体入口宽度)作为输入并预测归一化液滴直径;这里选择了一种宽而浅的网络结构,有 2 个隐藏层,分别有 512 个和 16 个节点。该结构与深而窄的结构(即隐藏层多、节点少)相比,更适合小数据集。经过训练的神经网络在 15 个随机测试中明显优于标度定律,直径 MAPE 为 7.4%,生成率为 22.6%(图 3)。对于提升树(提升树是以分类树或回归树为基本分类器的提升方法。提升树被认为是统计学习中性能最好的方法之一),则使用粘度比、毛细管数、流速比和五个几何参数作为输入来预测归一化液滴直径。在 15 个随机训练测试中,提升树显示预测直径的 MAPE 为 5.4%,生成率为 16.6%。总体而言,提升树模型有能够在直径为 15–250 μm 的不同流体中以 5–12,000 Hz 的速率生成油包水和油包水液滴的流动聚焦性能。决定系数(R2)、平均绝对误差 (MAE) 和均方根误差 (RMSE) 等也表明,与标度定律相比,机器学习模型的准确性明显更高。


图3 增强决策树和神经网络可准确预测 SE 和 DE 液滴直径和生成速率

稳定和不稳定DE生成的预测:产生稳定的单核 DE 液滴需要 FF1 和 FF2 的生成速率相匹配。如果 FF1 的速率超过 FF2 的速率,则某些 DE 最终具有多个内核;相反,如果FF1处的速率低于FF2处的速率,则某些液滴不包含内核。产生稳定的DE需要最小化FF1和FF2处生成速率差异的物理参数。由于生成速率在很大程度上取决于芯片的几何形状和流体特性,因此确定不同试剂组合生成稳定的单核 DE 所需的条件通常是一个耗时的过程,涉及多次设计迭代和内部、中部和外部流体的流速优化。为了实现这一点,模型可以将DE的产生视为两个独立的液滴生成事件(即油包水液滴和水包油液滴的产生)的组合。通过以下方式评估该机器学习模型:(1) 预测综合数据集中 197 个数据点的稳定性,从而产生稳定的 DE,(2) 使用 5 种不同的流体组合生成 37 个关于不稳定 DE 生成的额外数据点,(3) 预测其他数据点的不稳定性和不稳定模式。对于 197 个稳定数据点,观察到 FF1 和 FF2 处实验计算的生成速率之间最大生成速率差异 (GRD) 为 15%。神经网络正确预测了在 10 次随机训练中 83.8% 的稳定生成单核 DE 的条件(图 4)。尽管预测直径和生成率比神经网络更准确,但提升树对生成条件预测的准确度仅为 78.5% 。为了利用提升树在预测生成率方面的高精度和神经网络在预测 DE 稳定性方面的高精度,开发了一个共识模型,该模型对每个模型的预测(即直径的平均值)进行平均。该共识模型正确预测了 86.4% 数据点的稳定性,同时还减少了生成速率预测误差(图 4)。


图4 模型在预测稳定的单核和不稳定的DE液滴生成状态方面的性能

几何形状和流体不可视情况下的机器学习模型:在开发机器学习模型时,为使训练能够准确泛化到不可视的设计参数和数据源的模型是一个常见的挑战。使用PDMS芯片和含有1.5%氟化表面活性剂的HFE 7500油生成哺乳动物细胞培养基液滴,用于单细胞分析(图5)。使用商业玻璃芯片(白云石)和硅油在具有三种不同表面活性剂组合的水溶液中产生甘油液滴,分别以HFE 7500、三羟甲基丙烷三甲基丙烯酸酯(TMPTMA)和50%甘油在去离子水中作为内、中、外流体形成核壳结构(图5)。这三个数据集包括我们模型直径范围内(15-250 μm)总共 44 个液滴内径和外径数据点。机器学习模型相比于传统公式计算所得的结果要更准确,共识模型在MAPE方面略胜于其他模型(直径为10.1%,速率为29.6%)。这种准确预测数据的能力,体现了机器学习在综合数据集在几何形状、流体属性和流速方面的多样性中的优势。

SE 和 DE 液滴的设计自动化:自动化设计用于生产具有所需直径和生成速率的液滴设备的能力可以大大减少制造、测试和优化微流体设备所花费的时间。作者在研究中提出了一个开源工具DAFD 3.0,它利用共识模型(即神经网络和提升树的平均值)和自动搜索算法来设计具有不同材料的设备,以使用各种不同的流体产生油包水和油包水SE和DE液滴。该工具支持以 5–12,000 Hz 的速率在15–175 μm的设备孔口宽度下产生直径为 15–250 μm 的液滴。

对于 SE 设计自动化,DAFD 3.0 将所需的直径和速率以及分散和连续流体的粘度和界面张力作为输入,并提供必要的设备几何形状和流速(同时允许可选的设计约束)。为了测试 DAFD 3.0 对 SE 的准确性和可靠性,使用流体组合(RPMI 1640 完整细胞培养基,添加 20% optiprep 和 0.1% pluronic F127 作为分散流体,dSurf HFE 7500 作为连续流体)生产直径为 25、30 和 35 μm 的 SE。然后使用模型建议的参数生成 SE。使用DAFD建议的流速引入流体,产生的SE直径分别为27.5、31.6和37.9 μm,非常接近模型预测,总MAE为2.36 μm,MAPE为7.94%(图6)。

对于 DE 设计自动化,该研究中的工具将三种流体所需的内径和外径以及流体属性(粘度和界面张力)作为输入,并预测使用六种不同的默认设计或用户指定的几何形状。为了测试 DAFD 3.0 对 DE 的准确性和可靠性,指定(1)生成内径和外径分别为 25-40 和 45-55 μm 的 DE,使用与上述 SE 相同的流体;(2)将设计限制为上述相同的 DE 器件几何形状。然后使用9种建议的流速组合来生成DEs,并量化了所得液滴直径。与先前的观察结果一致,在稳定的数据点中,DAFD 3.0 非常准确,生成的 DE 与目标直径相差 2.70 μm(MAPE 为 6.3%)。内径(MAE为1.5 μm,MAPE为4.8%)的精度高于外径(MAE为3.9 μm,MAPE为7.9%)。在文章的最后作者还验证了 DAFD 3.0 在性能预测和设计自动化方面的能力,即使用尚未见过的流体生成 SE 和 DE 液滴,预测结果也十分准确可靠。作者在此处生成和使用的所有数据点(包括以前发布和额外生成的数据)上训练了机器学习模型,并将更新后的模型与在线工具集成。

图 6:经过训练的机器学习模型和自定义搜索算法可实现 SE 和 DE 液滴生成的设计自动化。


总结


该机器学习模型可以根据设备几何形状、流体特性和油包油 SE 和 DE 液滴的流速对液滴直径和生成速率进行准确和可泛化的预测,覆盖的液滴直径为 15–250 μm,速率高达 12,000 Hz。并采用广泛的输入设计参数,包括毛细管数的三个数量级变化、粘度比的两个数量级变化以及流速比和微流体通道尺寸的一个数量级以上变化。经过训练的神经网络和提升树在准确性和参数范围方面都优于之前发布的缩放定律和机器学习模型。基于神经网络和提升树的共识模型对尚未看到的流体和几何形状具有更好的泛化性。该模型在预测稳定和不稳定的DE生成方面的准确性证明了它们对油包水和油包水液滴的实用性。此外,预测模型可以与自定义搜索算法集成,以创建设计自动化工具,这些工具可返回设备几何形状和流速,以生产具有用户指定特性的液滴。该工具还可以对现有液滴发生器进行快速性能表征。使用对神经网络的预测进行平均的共识模型和提升树,创建了一个在线开源软件工具,以消除在开发 SE 和 DE 生成器 (DAFD 3.0) 时进行设计迭代的需要。DAFD 3.0 仅需要用于产生液滴的流体的粘度和界面张力。

DAFD的未来版本将受益于公开可用的数据集,以实现更高的准确性和更普适的数据集。未来的微流体数据存储库将极大地有利于液滴制备系统的设计自动化工作。未来可将该工具与其他计算机辅助微流控设计工具集成,实现实时动态控制。针对液滴制备系统高通量的需求,复杂的高通量微流控操作需要多个微结构集成才能协同发挥最佳作用。随着芯片上微结构数量的增加,设计空间呈指数级增长,这使得设计和优化此类平台具有挑战性。因此该模型在该使用场景下,进行性能预测和设计自动化上存在优势。同样,后续将与多阵列液滴制备系统、惯性聚焦液滴制备系统、微注射液滴制备系统以及细胞和液滴分选系统相结合,将大大加速高通量筛选平台的设计和产业化发展。



论文链接:DOI: 10.1039/d3lc00728f



微流控资讯


扬清芯片”前沿资讯“专题将于每周一为行业内相关从业者提供最新的行业资讯。往期精彩合集可在菜单栏"前沿资讯”查看。

欢迎将文章与公众号分享给更多关注微流控行业的朋友!



联系我们    CONTACT US  
联系地址:浙江省杭州市萧山区启迪路198号E座1701室                      
联系电话:15988118609(张女士)、15158186263(王先生)、17769603440(张先生) 
联系邮箱:youngchip@163.com

©2019 浙江扬清芯片技术有限公司 版权所有
友情链接   FRIENDSHIP LINK