CS 2025 | 针对化学领域中数据不平衡问题的机器学习方法综述

Jiang, J.; Zhang, C.; Ke, L.; Hayes, N.; Zhu, Y.; Qiu, H.; Zhang, B.; Zhou, T.; Wei, G.-W. A Review of Machine Learning Methods for Imbalanced Data Challenges in Chemistry. Chem. Sci. 2025, 16 (18), 7637–7658. https://doi.org/10.1039/D5SC00270B.

0 摘要

在化学的诸多研究领域中,数据类别分布不均衡,即某些类别在数据集中严重缺失,是一种普遍存在却尚未得到充分解决的机器学习挑战。这种不平衡性往往会导致机器学习或深度学习模型产生偏倚,使其难以准确预测那些样本较少的类别,从而限制模型的稳健性与实际应用价值。随着机器学习与深度学习方法的快速发展,一系列有前景的解决思路逐渐出现,也使得对现有方法进行系统性综述变得尤为必要。

该综述系统梳理了应对化学领域数据不平衡问题的主要机器学习策略,涵盖重采样方法、数据增强技术、算法层面的改进以及特征工程等多种路径,并结合药物发现、材料科学、化学信息学以及催化等具体应用场景,对这些方法的效果进行了综合评估。同时,还进一步讨论了未来可能的发展方向,重点强调了基于物理模型、大语言模型以及先进数学方法的数据增强策略在缓解不平衡问题中的潜力。

此外,还探讨了数据平衡在新材料设计与生产中的重要意义,以及该领域仍然面临的持续挑战。总体来看,该综述旨在系统阐明当前用于缓解化学领域数据不平衡影响的主流机器学习方法,并为未来的研究与应用提供有价值的参考方向。

1 引言

2024年诺贝尔化学奖授予David Baker以表彰其在计算蛋白设计方面的贡献,同时授予Demis Hassabis和John M. Jumper以表彰其在蛋白质结构预测方面的突破,这一事件凸显了人工智能在科学发现中的日益重要作用。随着人工智能和机器学习逐渐成为推动化学研究进展的核心工具,数据不平衡问题也日益凸显,成为亟待解决的关键挑战之一。在许多化学数据集中,不同类别之间分布不均的问题显著存在,尤其在复杂化学体系中,这种不均衡性严重制约了模型的可靠性与预测精度。

所谓数据不平衡,是指在分类任务中,不同类别样本数量存在显著差异的现象。在化学领域,这一问题的产生主要源于分子体系本身的复杂性与多样性。一方面,自然界中分子分布存在固有偏倚,某些结构天然更为常见,从而导致数据获取的不均衡;另一方面,样本采集过程中的“选择偏倚”也会进一步加剧这一问题,例如由于实验重点或技术限制,某些分子或反应类型在数据集中被过度采样。在药物发现中,受成本、安全性和时间等因素限制,活性分子往往远少于非活性分子;在分子性质预测中,毒性预测模型中毒性样本占比较高,也会导致模型偏向预测毒性结果;在蛋白质相互作用研究中,经实验验证的相互作用远少于非相互作用样本,这些都体现了数据不平衡的普遍性。

数据不平衡会直接影响机器学习模型的性能。多数算法,如随机森林和支持向量机,通常假设各类别数据分布相对均匀。当模型在不平衡数据上训练时,往往会偏向样本数量较多的类别,而忽视少数类特征,导致模型对低频但关键特征的敏感性下降,从而在实际应用中显著降低预测准确性。因此,克服数据不平衡带来的限制,对于推动机器学习在化学领域的应用具有重要意义。

针对这一问题,研究者已经提出了多种解决策略,包括过采样与欠采样等重采样方法、数据增强技术以及集成学习算法等。同时,通过特征工程与特征选择优化模型表现的研究也逐渐增多。然而,尽管相关研究不断积累,现有综述大多停留在方法层面的泛化总结,缺乏对其在化学具体应用中的系统梳理。

该综述旨在弥补这一不足,系统总结化学领域中数据不平衡问题及其解决方案,重点关注最新进展及其实际应用价值。通过这一分析,有助于加深对数据不平衡挑战的理解,并推动更有效方法的开发。

文章结构安排如下:第2.1至2.4节详细介绍当前处理数据不平衡的技术与算法,并展示其在不同化学领域中的应用;第2.5节总结模型性能评估指标;第3节讨论该领域的新趋势与挑战,并展望未来发展方向。

图1(a)过采样方法示意图,展示了过采样技术通过增加少数类样本来实现数据集平衡的基本思路。(b)该示例展示了Borderline-SMOTE方法在聚合物材料性能预测中的应用。首先收集了23种橡胶材料的实验数据,并利用最近邻插值算法对数据集进行扩展,最终得到483条数据。随后,采用K-means算法将这些数据聚为两类。最后,根据聚类结果,使用Borderline-SMOTE沿少数类样本的边界进行插值,最终生成两个样本量分别为314和396的数据簇。(c)该示意图展示了SMOTE技术在催化剂开发中的应用。研究中收集了126种杂原子掺杂砷烯作为原始数据集,并以Gibbs自由能变化绝对值jΔGHj=0.2 eV作为阈值,将原始数据划分为两类,即88个jΔGHj>0.2 eV的样本和38个jΔGHj<0.2 eV的样本。随后,利用SMOTE解决数据不平衡问题,获得两类分布均衡的数据。

2 当前方法与技术

2.1 重采样技术

2.1.1 过采样方法

过采样是一类常用的数据不平衡处理方法,尤其适用于少数类样本数量远低于多数类的情况。其核心思想是在保持原始数据分布特征的前提下,通过复制已有样本或生成新的少数类样本来实现类别平衡,从而增强模型对少数类特征的学习能力,提高预测性能并降低类别偏倚。这类方法已广泛应用于基因组学、转录组学、药物设计、量子计算以及材料设计等多个化学相关领域。

在众多过采样方法中,SMOTE(Synthetic Minority Over-sampling Technique)是最具代表性的一种。该方法通过对已有少数类样本进行插值生成新的样本,有助于保持特征空间的连续性并缓解过拟合问题,因此在化学多个子领域得到广泛应用。例如,在材料设计中,SMOTE结合极端梯度提升与最近邻插值方法,可有效缓解类别不平衡问题,从而提升聚合物材料力学性质预测的准确性;在基于分子动力学数据预测天然橡胶拉伸应力的研究中,SMOTE通过在样本边界处进行插值处理,提高了模型对少数样本的表征能力;在催化剂设计中,该方法用于优化原始数据分布不均问题,从而提升氢析出反应催化剂筛选的效率。

然而,SMOTE仍存在一定局限,例如可能引入噪声样本、难以处理复杂决策边界、忽略少数类内部结构差异以及计算成本较高。针对这些问题,研究中发展出多种改进方法,如Borderline-SMOTE、SVM-SMOTE、RF-SMOTE、Safe-level-SMOTE、SMOTE-NC和ADASYN等。这些方法通过更加关注类别边界、样本分布及复杂特征关系,拓展了过采样方法在复杂数据集中的适用性。

在具体应用中,例如针对组蛋白去乙酰化酶8抑制剂筛选问题,通过SMOTE构建平衡数据集并结合随机森林模型,可显著提升模型预测性能;在蛋白质工程领域,利用Borderline-SMOTE与卷积神经网络结合的方法,可以更有效地识别蛋白质相互作用位点;此外,将最远欠采样与Safe-level-SMOTE结合,也被证明在赖氨酸甲酰化位点预测中具有良好效果。

2.1.2 欠采样方法

与过采样不同,欠采样通过减少多数类样本数量来实现类别平衡,使模型更加关注少数类特征,从而改善预测性能。常见方法包括随机欠采样(RUS)、NearMiss以及Tomek Links等。

随机欠采样通过随机移除部分多数类样本,使数据集达到预设的类别比例。这种方法实现简单,并能有效减少训练数据规模,从而降低计算成本。在抗寄生虫肽预测、药物-靶标相互作用预测以及化合物-蛋白质相互作用预测等任务中均有成功应用。例如,在药物发现中,由于非相互作用的药物-靶标对远多于相互作用对,使用基于RUS的方法进行数据处理可以改善模型性能。然而,该方法的主要问题在于可能丢失重要信息,尤其是在药物发现和基因组学等依赖细微差异的领域中,这种信息损失可能对模型表现产生负面影响。

NearMiss方法通过选择在特征空间中距离少数类最近的多数类样本进行保留,从而在减少样本数量的同时尽可能保持关键分布特征。这一策略在高维数据处理中表现出良好的效率与鲁棒性,且对噪声和异常值具有一定抵抗能力。例如,在蛋白质乙酰化位点预测中,NearMiss-2显著提升了模型准确性;在分子动力学模拟中,该方法有助于识别蛋白受体的不同构象状态。然而,该方法同样存在潜在问题,如在复杂非线性关系较强的数据集中表现受限,并可能因欠采样而丢失有价值的信息。

Tomek Links方法则通过识别并移除与少数类样本距离最近的多数类样本,从而减少类别重叠并提高模型判别能力。该方法通过删除成对最近邻样本中的多数类部分,使类别边界更加清晰,在基因组学、材料科学及药物研究中均有应用。例如,该方法已用于识别谷酰化位点、筛选DYRK1A抑制剂药效团片段、优化纳米固溶体合金设计参数以及预测化合物-蛋白质相互作用。其优势在于能够在保留整体数据结构的同时降低噪声,但其依赖距离度量来识别噪声点,可能误删重要数据,且在大规模数据集中的计算效率较低。

图2(a)欠采样方法示意图,展示了欠采样技术通过减少多数类样本来实现数据集平衡的基本思路。(b)该示例展示了一种基于RUS技术的新方法在药物发现中的应用。首先,利用K-means聚类方法对药物-靶标数据集中的多数类样本进行聚类并划分为不同簇。随后,采用RUS方法从这些簇中随机选取一个簇,多次重复该过程,并将选中的簇与原始数据集中的少数类样本组合,构建新的平衡数据集。(c)该示例说明了Tomek Links方法在材料设计领域中处理数据不平衡的应用。首先使用SMOTE生成少数类样本,使数据集达到初步平衡;然后利用Tomek Links识别并移除Tomek Links对中的多数类样本,即靠近分类边界的样本,从而对数据进行清理,并将粗略平衡的数据集进一步优化为更精细的平衡数据集。(d)该示例展示了NearMiss-2方法在蛋白质-配体结合研究中处理数据不平衡的过程。首先构建肽序列训练数据集,其中包含4242个具有丙二酰化位点的少数类样本,以及71809个不具有丙二酰化位点的多数类样本。接着,利用NearMiss-2方法计算每个多数类样本与每个少数类样本之间的距离,再选取距离最远的k个少数类样本,并计算该多数类样本到这k个少数类样本的平均距离。最后,保留平均距离最小的多数类样本,以实现数据平衡。

2.1.3 混合方法

SMOTE-Tomek Links是一种结合过采样与欠采样的混合策略,用于同时优化数据分布与分类性能。该方法首先利用SMOTE生成新的少数类样本,然后通过Tomek Links去除类别边界附近的重叠样本,从而减少类别交叠并净化数据集。该策略能够在缓解数据不平衡的同时降低过拟合风险,使类别边界更加清晰,并提升模型的准确性与泛化能力。在蛋白质工程、基因组学和转录组学等领域,该方法已被广泛应用,尤其在高维基因表达数据中,有助于识别关键生物标志物。不过,该方法计算成本较高,尤其在大规模数据集中表现明显,同时过度过采样仍可能带来过拟合风险,因此在药物发现与催化剂设计等应用中需要进行精细的参数调节。

2.1.3.2 SMOTE-ENN

SMOTE-ENN是一种将SMOTE过采样与编辑最近邻(ENN)方法结合的混合重采样技术。该方法在生成少数类样本的同时,通过ENN移除噪声较多的多数类样本,从而在平衡数据分布的同时提升数据质量。这种策略不仅增强了少数类的代表性,还通过减少噪声提高了模型的鲁棒性并降低过拟合风险。SMOTE-ENN已成功应用于蛋白质-配体结合预测和药物-靶标相互作用预测等任务中。例如,在DTI数据集中,由于非相互作用样本远多于相互作用样本,SMOTE-ENN能够有效改善类别分布,从而提高预测精度。然而,该方法同样计算开销较大,并且对参数选择较为敏感,在噪声较多或分布复杂的数据集中,若参数设置不当,可能生成低质量样本。

2.1.4 基于聚类的方法

2.1.4.1 DBSCAN-SMOTE

DBSCAN-SMOTE是一种结合密度聚类算法DBSCAN与SMOTE的混合方法。该方法首先利用DBSCAN根据邻域半径和最小样本数等参数,将数据划分为核心点、边界点和噪声点;随后在聚类得到的核心区域中应用SMOTE生成新的少数类样本,从而提升少数类的表示能力并优化数据分布。该方法在处理存在噪声或具有不规则簇结构的数据时尤为有效,可显著提升分类模型的性能与泛化能力。在实际应用中,该方法已用于癌症预测及药物筛选等任务,例如通过密度分布识别异常样本或区分不同类型的拮抗剂。在基因组学和蛋白质-配体结合研究中,该方法同样表现出良好的抗噪能力。然而,其性能高度依赖参数选择,并且在大规模数据集上计算成本较高。

2.1.4.2 K-means SMOTE

K-means SMOTE通过将K-means聚类与SMOTE结合,实现更具针对性的过采样。该方法首先将数据划分为多个簇,然后重点选择少数类样本占比较高的簇进行过采样,并在簇之间生成新的少数类样本,同时结合样本密度信息指导生成过程。该策略不仅增加了少数类样本数量,还提高了其分布的代表性,从而提升模型性能。在生物医学领域,该方法能够在保持数据内在结构的同时缓解类别不平衡问题,增强模型识别少数类样本的能力;在蛋白质工程中,该方法也被用于解决发光蛋白序列相似性较低带来的数据不均问题。不过,该方法包含聚类与过采样两个步骤,计算成本较高,并需要谨慎进行参数优化。

图3(a)DBSM算法流程示意图。DBSM的过程包括欠采样和过采样两个部分。在欠采样阶段,首先对全部训练集应用DBSCAN进行聚类,然后从每个簇中删除一部分多数类样本。欠采样步骤的输出仅包含多数类样本。在过采样阶段,利用SMOTE为训练集中的少数类样本生成合成样本。因此,DBSM算法最终输出的是一个新的训练集,该训练集由欠采样部分保留下来的多数类样本和过采样部分生成的少数类样本共同组成。(b)该示例展示了K-means SMOTE方法在发光蛋白预测中处理数据不平衡问题的应用。首先,分别对多数类和少数类样本使用K-means进行聚类,以解决类内不平衡问题。随后,利用SMOTE对数量较少的样本,即发光蛋白样本,进行过采样,以增加少数类样本数量,并与多数类样本共同形成新的平衡数据集。

2.2 数据增强

2.2.1 噪声添加

高斯噪声添加是一种常见的数据增强方法,通过引入基于高斯分布的随机扰动来模拟真实环境中的数据波动。这种方式能够促使模型关注更具泛化能力的核心特征,而非依赖多数类中的表面模式,从而缓解数据不平衡带来的偏倚问题。在化学相关任务中,该方法已被证明具有良好效果。例如,在蛋白质-配体结合预测中,引入高斯噪声有助于模型适应蛋白构象的大尺度变化并识别潜在结合位点;在药物发现中,将高斯噪声加入自编码器的潜在空间,可以在保持分子结构合理性的同时提高分子多样性。然而,该方法的效果依赖于噪声强度的合理设置,过强的噪声可能破坏少数类特征或降低模型可解释性。

2.2.2 深度生成模

2.2.2.1 生成对抗网络

生成对抗网络是一类由生成器与判别器组成的深度学习模型。生成器负责生成逼真的合成数据,而判别器用于区分真实数据与生成数据。在处理数据不平衡问题时,GAN能够为少数类生成高质量的新样本,从而增加数据多样性并改善类别分布,使模型能够更好地学习少数类特征并降低对多数类的偏倚。该方法已广泛应用于药物设计、材料设计、蛋白质工程及催化剂开发等领域。例如,通过量子生成对抗网络可进一步探索化学空间;在抗病毒肽预测中,GAN能够生成与真实数据分布高度一致的新样本,从而缓解数据不平衡问题。尽管GAN在生成高质量样本方面具有优势,但其训练过程不稳定,且存在模式崩溃问题,可能限制其对复杂少数类特征的充分刻画。

2.2.2.2 变分自编码器

变分自编码器是一种通过学习连续潜在空间来生成新数据的生成模型,由编码器与解码器组成。编码器将输入数据映射为概率潜在表示,解码器则从潜在空间中重建数据。在处理不平衡数据时,VAE能够通过从潜在空间采样生成新的少数类样本,从而增加其数量与多样性,并减弱模型对多数类的偏倚。该方法已广泛应用于药物发现、蛋白质工程、分子动力学以及材料设计等领域。例如,在催化剂设计中,VAE能够自动学习关键结构特征并生成具有创新性的样本;在蛋白质-配体结合研究中,该方法可基于整体蛋白结构信息生成具有高结合亲和力且具备可合成性的配体。尽管VAE在数据增强方面表现良好,但其对预设分布的依赖以及生成样本可能较为模糊的特点,仍在一定程度上限制了其对复杂特征的表达能力。

图4(a)该示例展示了生成对抗网络在抗病毒肽活性识别中的应用。首先构建了一个不平衡数据集,其中包含2934条抗病毒肽和17184条非抗病毒肽。随后,以抗病毒肽作为输入数据训练GAN模型,并生成大量与抗病毒肽相似的新数据。最后,将这些生成数据加入原始抗病毒肽数据中,从而实现多数类与少数类样本之间的平衡。(b)变分自编码器用于平衡数据的算法示意图。该方法分为编码器和解码器两个部分。编码器将输入压缩为概率潜在表示,解码器则从位于编码器与解码器之间的潜在空间中重建数据。在处理不平衡数据时,VAE通过为少数类生成新的样本来实现多数类与少数类之间的平衡。

2.2.3 特征增强

特征增强是一种通过对原始数据进行变换、组合或基于领域知识处理来生成新特征或改造已有特征的方法,其目标在于扩展特征空间,使模型能够学习更复杂的模式并提升整体性能。常见方法包括多项式特征、特征交互、数学特征构造以及对数变换或统计组合等领域特定操作。在不平衡数据中,少数类通常缺乏足够的多样性,导致模型难以捕捉其特征模式。通过特征增强,可以为少数类引入新的变化维度,从而提供更丰富的信息,帮助模型更好地区分不同类别并提高分类精度。

该方法通常与过采样等技术结合使用,以进一步提升模型在不同类别上的泛化能力,并实现更均衡的数据表示。在化学领域中,特征增强已被应用于药物-靶标相互作用预测和药物-药物相互作用预测等任务。例如,在蛋白质功能预测中,通过引入特征增强策略,可以在不改变原始数据分布的情况下模拟复杂蛋白特征,并生成高质量的合成特征样本;在分子建模中,通过将分子结构转化为信息丰富的特征向量并进行增强,可显著提升模型对少数类的识别能力;在蛋白质-配体结合研究中,该方法也通过整合多种特征信息来提高模型解析复杂生物数据的能力。然而,特征增强并不能直接解决类别数量不均的问题,且可能引入无关特征或噪声,甚至导致过拟合。

2.3 算法层面方法

2.3.1 集成学习方法

2.3.1.1 Boosting

Boosting通过将多个弱学习器逐步组合为一个强模型来提升预测能力,其核心在于通过迭代调整样本权重,使后续模型更加关注被误分类的样本,尤其是少数类样本,从而在一定程度上缓解数据不平衡问题。该方法衍生出多种重要算法,如AdaBoost、XGBoost以及梯度提升决策树等,并在药物发现、催化剂设计、蛋白质工程、生物材料设计等领域得到广泛应用。

在具体应用中,例如在生物材料设计中,梯度提升方法能够逐步优化模型,从而更精确地识别影响材料性能的复杂特征;在基因组学与转录组学中,XGBoost因其良好的泛化能力和对高维数据的处理优势,被用于解决不平衡问题并提升预测准确性;在药物发现中,该方法也被用于预测具有成药潜力的蛋白。总体而言,Boosting通过强化对少数类样本的关注提升分类能力,但随着迭代过程的增加,模型复杂度也随之提高,需要合理调参,并常与数据采样或特征选择方法结合使用以提高效率。

2.3.1.2 Bagging

Bagging通过有放回随机采样构建多个训练子集,并在每个子集上训练独立模型,最终通过投票或平均方式整合预测结果。这种方法在不平衡数据中可以通过增加部分子集中少数类样本的比例来降低模型偏倚,从而提升对少数类的识别能力并减弱多数类的影响。Bagging能够稳定模型(如决策树)并减少过拟合,但单独使用时对解决类别不平衡问题的效果有限,通常需要结合过采样或欠采样方法。

在化学领域中,Bagging已被广泛应用于药物发现、基因组学以及催化剂设计等方向。例如,在药物毒性预测中,基于Bagging的集成模型能够有效减少对少数类样本的误判;在成药蛋白预测中,该方法相比单一支持向量机模型,更有利于整合多种特征信息;在蛋白质-核酸结合位点预测中,Bagging也被用于提升模型对复杂生物特征的处理能力。

2.3.2 代价敏感学习

代价敏感学习是一类通过为不同类别或错误类型赋予不同代价权重来优化模型性能的方法,其目标是最小化整体分类成本。在不平衡数据中,该方法通过提高少数类样本误分类的代价,使模型更加关注这些关键样本,从而降低误判概率并提升实际应用中的预测性能。

该方法在化学多个领域中已有应用。例如,在药物-靶标相互作用预测中,通过为少数类样本赋予更高权重,可以更有效地识别潜在的药物与蛋白相互作用;在基因组学与转录组学研究中,基于代价敏感XGBoost的模型能够提升对关键长链非编码RNA的识别能力。总体而言,代价敏感学习在大规模分子数据处理中具有良好效果,并能够在不同类别之间实现更均衡的性能表现,尤其在药物筛选中具有重要价值。但若代价设置不合理,可能导致模型过度偏向少数类并降低泛化能力,同时代价函数设计的不确定性也可能影响模型表现。

图5(a)Boosting算法示意图。该方法通过串联多个弱分类器构建一个强分类器,并通过迭代更新机制,使后续分类器更加关注前一轮中被误分类的少数类样本,从而在训练过程中逐步平衡对少数类与多数类的关注。(b)Bagging算法示意图。该方法通过有放回随机采样生成多个数据子集,并在这些子集中增加少数类样本的出现概率,从而提升模型对少数类的识别能力。(c)该示例展示了Boosting方法在药物发现中的应用。首先构建一个不平衡数据集,其中包含可与药物相互作用的蛋白以及不可相互作用的蛋白。随后,模型以相同权重随机抽取样本训练第一个分类器,并在整个数据集上进行测试。通过迭代更新误分类样本的权重,逐步训练多个弱分类器,最终组合形成一个强分类模型。(d)该示例展示了Bagging方法在蛋白质-配体结合研究中的应用。首先从原始训练集中分离多数类与少数类样本,然后从多数类中随机抽取一定数量的样本,并与少数类样本合并形成新的子集,该过程重复多次。接着,在每个子集上利用二维卷积神经网络进行训练,最终通过平均集成策略构建整体模型。

2.4 特征工程与特征选择策略

特征工程是数据预处理中的关键环节,其核心在于从原始数据中提取、加工或构建新的特征,以提升机器学习模型的性能。通过设计针对性的特征或变换,不仅能够突出少数类的关键属性,还可以增强模型对少数类样本的敏感性,从而改善在不平衡数据上的表现。特征选择作为特征工程的重要组成部分,通过筛选最具代表性的特征子集、去除冗余信息,进一步提升模型对少数类的识别能力。常见的特征选择方法包括过滤式、包装式、嵌入式以及随机特征选择等,这些方法已广泛应用于药物发现、蛋白质工程以及基因组学等领域。

2.4.1 过滤式方法

过滤式方法通过分析特征的统计属性或基于预设指标来评估其预测能力,从而筛选出关键特征子集。这类方法独立于具体模型,具有计算效率高、适用于高维数据的优势,在处理不平衡数据时有助于提升模型对少数类的识别能力。例如,在蛋白质工程中,该方法可在不依赖具体模型的情况下评估特征重要性;在催化剂设计中,也可用于识别对催化性能影响最大的关键特征,同时避免额外实验成本。然而,该方法难以捕捉特征之间的复杂交互关系,且可能需要进一步调整以避免模型偏向多数类。

图6(a)代价敏感学习方法示意图。该方法通过为不同类型的误分类样本赋予不同权重,使模型更加关注代价较高的少数类误分类,从而降低误判概率。(b)该示例展示了代价敏感XGBoost方法在基因组学与转录组学中的应用。将不平衡的基因数据(少数类与多数类比例为1:55)输入代价敏感XGBoost框架,通过代价敏感学习对样本进行加权处理,随后利用XGBoost分类器进行建模,从而获得用于后续分析或建模的更平衡数据表示。

2.4.2 包装式方法

包装式方法通过反复训练模型并评估不同特征子集的效果,从而筛选出对预测最有贡献的特征。这种方法能够更准确地识别对少数类预测具有重要作用的特征。例如,在药物发现中,通过包装式方法筛除无关特征,可以更有效地刻画复杂的药物-靶标关系;在催化剂设计中,也可从大量候选特征中筛选出对吸附能预测最关键的特征子集。尽管该方法效果较好,但由于需要多次训练模型,其计算成本较高,在少数类样本较少的大规模不平衡数据中尤为明显,因此通常需要与其他方法结合以提升效率。

2.4.3 嵌入式方法

嵌入式方法在模型训练过程中自动完成特征选择,能够动态识别对少数类预测最关键的特征,从而减少对多数类特征的依赖并提升模型敏感性。例如,在催化剂设计中,通过递归特征消除方法可以逐步去除冗余特征;在药物研究中,基于卷积神经网络的嵌入式方法能够更有效提取复杂关系特征。该方法的优势在于特征选择与模型训练过程高度一致,但其对特征重要性的刻画仍可能不够全面,尤其在复杂特征交互情况下,往往需要结合其他策略进行补充。

图7(a)过滤式方法示意图。该方法对六个输入样本(每个样本包含四个特征,不同颜色表示不同特征)根据不同性能评估指标进行排序,并直接选择得分最高的特征。(b)该示例展示了包装式特征选择方法在药物发现中的应用。首先对提取的特征进行评估并赋予不同权重,然后从特征集中选择子集,并通过包装式方法筛选出最有利于模型性能的特征。(c)嵌入式方法示意图,该方法将特征选择与模型训练过程相结合,最终得到最优特征子集。(d)随机特征选择方法流程图,通过从完整特征集中随机选取部分特征作为最终特征子集。

2.4.4 随机特征选择

随机特征选择通过随机选取特征子集来降低特征维度,在减少计算复杂度的同时提高模型的泛化能力,并有助于发现对少数类有贡献的关键特征。例如,在药物-靶标相互作用预测和蛋白质识别研究中,该方法通过构建基于随机特征子集的模型,能够从多个视角提取信息并去除冗余特征。不过,该方法具有一定随机性,可能导致模型性能波动,尤其在高度相关的化学数据中,需要结合优化策略以保证稳定性。

2.5 不平衡数据的评估指标

在处理不平衡数据时,传统指标如准确率和精确率容易受到多数类影响,从而掩盖模型在少数类上的真实表现。因此,更适合的指标包括平衡准确率、F1分数、ROC曲线下面积(AUC-ROC)以及马修斯相关系数(MCC)等。

F1分数综合考虑精确率与召回率,特别适用于少数类预测尤为重要的场景,其定义为:

F1=2×TP2×TP+FP+FN=2×precision×recallprecision+recall

其中,TP为正确预测的正类样本,FN为被错误预测为负类的正类样本,TN为正确预测的负类样本,FP为被错误预测为正类的负类样本。

AUC-ROC通过评估不同阈值下的真正率与假正率来衡量模型区分能力,其定义为:

TPR=TPTP+FNFPR=FPFP+TN

MCC则综合考虑正负样本的预测结果,是一种在类别不平衡情况下依然可靠的综合指标,其定义为:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

表1|主要机器学习方法在数据不平衡问题中的优势与局限性概述

3 未来发展方向与挑战

在总结现有方法的基础上,可以从方法选择原则、新兴研究方向以及数据增强策略等方面进一步探讨不平衡数据问题的发展趋势。

3.1 方法选择的一般原则

选择合适方法需综合考虑不平衡程度、数据规模、计算资源与数据复杂性。对于轻度或中度不平衡问题,可以采用SMOTE等简单过采样或欠采样方法;对于大规模或噪声较多的数据,欠采样方法具有更高计算效率,但需避免信息丢失;在高度不平衡情况下,可采用GAN等深度生成模型,但其计算成本较高;对于高维或特征冗余数据,应结合特征选择或增强方法;在误分类代价明确的场景中,代价敏感学习尤为适用;而集成学习方法通常具有较强鲁棒性,结合采样或特征方法可进一步提升性能。

3.2 新兴研究趋势

近年来,化学领域在处理不平衡数据方面呈现出明显的跨学科融合趋势。多模态数据融合通过整合基因表达、蛋白相互作用及药物数据,有助于更全面地刻画分子特征并提升模型能力。联邦学习通过在不共享原始数据的前提下实现多方协同建模,在药物研发中具有重要潜力。自监督学习则通过利用大量无标签数据挖掘潜在模式,为处理不平衡数据提供了新的思路。

3.3 基于物理模型的数据增强

未来的重要方向之一是将物理模型引入数据增强过程,以生成具有明确物理意义的虚拟数据。例如,分子动力学模拟可揭示实验中难以观测的构象变化,从而补充稀缺数据;密度泛函理论能够提供反应活性、电子结构等关键性质数据;分子对接则可预测分子间相互作用模式。这些方法能够显著丰富数据集,提高模型对分子性质与反应行为的预测能力。

总体来看,将物理模型与机器学习相结合已成为重要发展趋势,通过引入物理规律,不仅能够提升预测精度,还能增强模型的可解释性,并为构建更具泛化能力的化学模型提供坚实基础。

3.4 基于大语言模型的数据增强

随着化学领域面临数据不平衡问题,深度学习技术的发展,尤其是大语言模型的兴起,为这一挑战提供了新的解决思路。诸如ChatGPT和Gemini等模型在数据增强方面展现出显著潜力。例如,有研究表明,这类模型能够提升药物识别与分类任务的准确性。此外,2022年提出的Chemformer能够处理多种化学任务,包括序列到序列学习和判别任务,进一步体现了大语言模型在化学研究中的应用前景。

大语言模型可以通过学习多模态表示(如文本描述与分子结构)来应对不平衡数据问题。例如,从文本生成分子结构的能力展示了其在扩展数据集、缓解类别不均方面的潜力,从而推动化学数据分析的发展。

3.5 数学驱动的数据增强

近年来,将人工智能与高级数学方法相结合成为数据科学中的重要趋势,包括微分几何、代数拓扑、组合数学与几何拓扑等方向。数学人工智能逐渐成为分子数据科学中的新范式,并已在药物设计竞赛、病毒演化机制研究、新型优势变体预测、蛋白质工程、突变预测、毒性预测以及聚合物性质研究等多个领域展现出应用价值。

例如,多尺度拓扑驱动的Transformer模型能够有效提升蛋白质-配体结合亲和力的预测性能,其优势在于能够捕捉传统序列模型难以表征的立体化学信息。因此,基于数学方法的生成模型有望成为数据增强的重要新路径。此外,基于图结构的Merriman–Bence–Osher方法通过扩散机制在图中传播标签信息,在半监督学习中能够更好地表示少数类,从而缓解数据不平衡问题。

3.6 新材料设计与制造

尽管通过实验合成更多少数类样本是解决数据不平衡的根本途径,但构建平衡数据集在人工智能辅助的新材料设计与制造中同样具有关键意义。随着计算能力的提升和算法的不断优化,数据分布的均衡性正在加速新材料研究的突破。

平衡数据集能够显著提高机器学习模型在新材料预测中的准确性。例如,通过特征工程等方法构建的模型在材料性质预测与合成路径优化中表现出更高可靠性,从而加快材料研发进程。此外,平衡数据还促进了高通量实验与计算模拟的融合,使研究能够探索更广泛的参数空间,提升材料发现效率。

同时,平衡数据对于促进材料多样性具有重要作用。通过系统整理与利用现有材料数据库,可以更有效地挖掘潜在新材料,推动创新设计。

3.7 持续挑战与未来研究方向

在化学研究中,数据不平衡问题仍面临诸多挑战。首先,小样本数据与数据不平衡的叠加是分子科学中的核心难题之一。由于实验获取高质量且平衡的数据成本高昂,尤其是在新材料、稀有化合物或毒性评估研究中,数据稀缺与分布不均尤为突出。因此,如何高效地收集、共享与整合数据成为亟需解决的问题。

其次,不同研究项目与实验室之间缺乏统一的数据处理与共享标准,也进一步加剧了问题复杂性。尽管开放数据理念逐渐普及,但数据格式不统一、注释不完整等问题仍然限制了数据的有效复用。因此,有必要建立标准化数据平台,由相关机构或资助组织主导规范数据提交与验证流程,以提升数据质量与透明度。

此外,现有方法在稳健性与泛化能力方面仍有待提升,尤其在小样本与复杂分子体系中表现有限。因此,未来研究需要开发更加精细且具有领域针对性的建模与数据增强方法。其中,基于物理模型的数据增强策略被认为具有重要潜力,但目前仍处于探索阶段。

总体而言,未来需要构建更加系统化的技术框架,以推动不平衡数据处理方法的广泛应用。同时,应加强新算法在不同化学场景中的验证,以确保其稳定性与实际应用价值,从而为解决化学领域中的数据不平衡问题提供坚实的理论与技术基础。