optical-generative-models

Nature 2025 | 光学生成模型

生成式人工智能在图像合成、自然语言处理和分子设计等领域展现出强大能力,但不断扩大的模型规模也带来了能耗和计算成本的挑战。近期发表在Nature的一项研究提出一种新的思路——利用光学系统实现生成式模型。该工作将扩散模型思想与衍射光学计算相结合,通过浅层数字编码器将随机噪声映射为相位模式,并将其作为光学生成种子输入到衍射解码器中,利用光在自由空间传播完成图像生成。与传统数字模型不同,图像合成的核心计算由光学传播完成,在推理阶段几乎不需要额外计算资源。

研究展示了多种数据分布下的生成能力,包括手写数字、时尚产品、人脸以及梵高风格艺术图像等。实验结果表明,光学生成模型在图像质量和多样性方面与数字神经网络模型相当,同时具有更高的能效潜力。该框架为构建低功耗、可扩展的生成式人工智能提供了新的技术路径,也展示了光学计算在未来人工智能系统中的应用前景。

获取详情及资源:

📄 论文: https://doi.org/10.1038/s41586-025-09446-5
💻 代码: https://zenodo.org/records/15446687

0 摘要

生成式模型已广泛应用于多个领域,包括图像与视频合成、自然语言处理以及分子设计等。随着数字生成模型规模不断扩大,如何实现快速且节能的可扩展推理逐渐成为一项重要挑战。相关研究提出了一类受扩散模型启发的光学生成模型。在该框架中,一个浅层且运行速度较快的数字编码器首先将随机噪声映射为相位模式,这些相位模式作为光学生成的初始种子,对应于目标数据分布。随后,通过联合训练的基于自由空间的可重构解码器,在全光学条件下对这些生成种子进行处理,从而生成此前未出现过、但符合目标数据分布的图像。

在图像合成过程中,除了用于照明的光功率以及通过浅层编码器产生随机种子所需的计算外,该类光学生成模型在生成图像时几乎不消耗额外的计算资源。研究展示了多种数据分布下的光学生成结果,包括手写数字、时尚产品、蝴蝶、人脸以及艺术作品等单色或多色图像,分别对应MNIST、Fashion-MNIST、Butterflies-100、Celeb-A数据集以及梵高绘画与素描作品的数据分布。整体性能与基于数字神经网络的生成模型相当。

在实验验证中,利用可见光成功生成了手写数字和时尚产品的图像。此外,在单色光与多波长光照明条件下生成了具有梵高风格的艺术作品。这类光学生成模型为实现高能效、可扩展的推理任务提供了新的方向,并进一步展示了光学与光子学在人工智能生成内容领域中的潜在应用价值。

1 引言

近年来,生成式数字模型已经能够生成多样且高质量的合成图像,实现类人水平的自然语言处理能力,创作新的音乐作品,甚至设计新的蛋白质结构。这些新兴的生成式人工智能技术正在推动从大语言模型到具身智能以及人工智能生成内容等多种应用的发展。随着这些模型不断取得成功,其规模也在持续扩大,对计算资源的需求随之显著增加,包括更高的能耗、更大的存储需求以及更长的推理时间。同时,生成式人工智能模型在可扩展性与碳排放方面的问题也逐渐引发关注。尽管已有多种新方法试图通过减小模型规模、降低功耗并提升推理速度来缓解这些问题,但仍然迫切需要新的技术路线,以构建更加节能且可扩展的生成式人工智能模型。

相关研究提出了一种光学生成模型,能够直接通过光学过程合成符合特定数据分布的单色或彩色图像,即生成此前在该分布中从未出现过的图像。该方法受到扩散模型的启发,利用一个浅层数字编码器将二维高斯随机噪声快速转换为二维相位结构,这些相位结构作为光学生成的初始种子。光学种子的生成只需进行一次,通过一个浅层且高速的相位空间编码器对随机二维噪声进行处理即可完成。随后,在需要生成图像时,系统只需从预先计算好的光学生成种子中随机选取一个,即可即时完成符合目标分布的图像生成。

这一总体框架可以通过多种光学硬件实现,例如集成光子学系统或基于自由空间传播的实现方式。在具体实现中,研究采用了基于自由空间的可重构光学生成模型。每一个光学生成种子在空间光调制器上显示并受到平面波照明时,会通过针对特定数据分布优化的可重构衍射解码器合成对应图像。图像生成的刷新速率由用于显示预计算光学生成种子的空间光调制器帧率决定。生成图像所需的光学计算完全通过光在自由空间中的传播完成,并由一个经过优化且固定的衍射解码器实现。

实验结果表明,该光学生成模型在统计性能上与基于数字神经网络的生成模型相当。研究展示了多种数据分布下的图像生成效果,包括手写数字、时尚产品、蝴蝶、人脸以及具有梵高风格的艺术作品,分别对应MNIST、Fashion-MNIST、Butterflies-100、Celeb-A数据集以及梵高绘画作品的数据分布。为了验证快照式与多色光学生成模型,构建了一个工作在可见光波段的自由空间实验系统。实验结果显示,所训练的光学生成模型能够有效捕捉各目标数据分布中的关键特征及其内部关系。

该框架具有较高的灵活性。针对不同数据分布的生成任务可以共享相同的光学架构,每个任务仅需要一个针对特定分布优化且固定的衍射解码器,即可通过由随机噪声相位编码得到的光学生成种子生成大量图像。因此,只需更换光学生成种子及对应的可重构解码器表面,即可在不同生成任务之间切换,而无需改变整体光学系统结构。光学生成模型在能效、可扩展性与灵活性方面展现出的优势,有望推动相关领域进一步发展,并为人工智能生成内容、图像与视频处理及合成等多种人工智能应用提供新的解决方案。

图1｜快照式光学生成模型的设计。a、b、c中的图像均由人工智能生成。 a, 快照式光学生成模型的结构示意。基于随机高斯噪声的输入首先通过浅层数字编码器进行编码,从而生成大量光学生成种子,这些种子由空间光调制器随机访问并加载。当输入光场经过可重构且经过优化的衍射解码器传播后,生成的图像被传感器阵列记录。对于给定的目标数据分布,该光学生成模型能够合成数量巨大的图像。输入光通过衍射解码器传播并形成输出图像的光学过程耗时小于1ns,但整体图像生成速度主要受输入SLM刷新时间限制。b, 快照式光学生成模型的训练流程。系统利用已经训练完成的DDPM模型进行指导训练,由DDPM生成的数据对用于优化快照式光学生成模型。c, 图像的盲推理过程。预先计算得到的光学生成种子可以通过例如云端服务器进行随机访问,而图像的快照生成则在本地通过自由空间光学传播完成。 $d_{0, 1}$ 表示SLM与衍射解码器之间的距离; $d_{1, 2}$ 表示衍射解码器与图像传感器之间的距离; $ε_{θ}$ 表示噪声预测模型,其中 $θ$ 为模型参数; $α_{t}$ 为扩散过程中的时间相关噪声调度系数; $z$ 为从正态分布中采样得到的随机变量; $σ_{t}$ 为在时间步 $t$ 加入噪声的标准差; $H$ 表示浅层数字编码器的输出;MSE表示均方误差;KL表示Kullback–Leibler散度; $\hat{I}$ 表示中间去噪结果; $O$ 表示生成的光强图像。

2 快照式图像生成

图1展示了单色快照式图像生成模型的整体结构示意。如图1a所示,每个输入为服从正态分布的随机二维数据,首先通过数字编码器转换为二维相位模式。该编码器能够快速提取潜在特征,并将其编码到相位通道中,以便后续进行模拟光学处理。这些由随机噪声生成并经过相位编码的输入被称为光学生成种子,随后被加载到空间光调制器上,为衍射光学生成模型提供输入信息。在相干光照明条件下,携带相位编码信息的光场在传播过程中被一个针对特定目标数据分布优化的衍射解码器处理,最终生成的图像由图像传感器记录,形成符合目标数据分布的输出图像。

训练流程如图1b所示。首先训练一个基于去噪扩散概率模型(DDPM)的教师数字生成模型以学习目标数据分布。训练完成后,该DDPM模型被固定并持续生成噪声—图像数据对,用于训练快照式光学生成模型。在这一过程中,浅层数字相位编码器与光学生成模型通过联合训练进行优化,使系统能够以简单且可重构的架构高效学习目标分布。

图1c展示了盲推理过程。数字编码器从随机噪声模式生成的相位编码图案即光学生成种子会被预先计算并存储,随后光学生成模型通过固定或静态的衍射解码器在自由空间中对这些相位种子进行解码。为了实现从高斯随机噪声快速生成光学生成相位种子,数字编码器由三个全连接层构成,其中前两层后接非线性激活函数。可重构衍射解码器包含例如 $400 \times 400$ 个可学习相位特征,每个特征的相位范围为 $0 \sim 2 π$ 。在完成优化之后,该解码器在对应的数据分布任务中保持固定。关于快照式图像生成过程以及联合优化的解码层细节可参见方法部分及补充图1。

在MNIST数据集和Fashion-MNIST数据集上分别训练模型后,得到了两种不同的光学生成模型。扩展数据图2a和2b展示了此前未出现过的手写数字与时尚产品图像的快照生成结果,所有类别均呈现出较高质量的输出图像。图像质量评估采用inception score(IS)和Fréchet inception distance(FID)两个指标。评估过程中使用批量大小为1000的生成图像,并通过随机整数种子 $s \in [0, 10000)$ 控制随机高斯输入 $I (x, y)$ 的采样。在IS评估中,生成图像数量与原始数据集相同,以评估整体数据分布。同时对光学生成图像数据与原始数据集进行了 $t$ 检验,利用 $P$ 值评估IS指标提升的统计显著性。较高的IS值以及小于0.05的 $P$ 值表明,快照式光学生成模型生成的图像在多样性方面统计上优于原始数据集。基于FID的评估则进行了100次重复计算,结果显示生成图像与原始数据分布之间具有良好一致性。

为了进一步评估该模型的有效性,训练了三组共十个二分类器,每个分类器均基于卷积神经网络结构。第一组分类器仅使用标准MNIST训练数据进行训练;第二组使用由标准数据与光学生成数据按50%–50%混合构成的数据集;第三组则完全使用光学生成数据进行训练。每个分类器负责识别一个特定的手写数字类别,并保证所有训练集样本数量一致。随后这些分类器在标准MNIST测试数据集上进行盲评估。结果显示,使用100%生成图像训练的分类器平均分类准确率达到99.18%,相较于完全使用原始MNIST数据训练的结果平均下降约0.4%。结合扩展数据图2f中各类别表现出的优异IS和FID指标,可以看出快照式光学生成模型能够生成符合目标分布的新手写数字图像,其整体分布与真实数据一致(较低FID),但在具体风格上未曾在数据集中出现(较高IS)。

随后评估了输出衍射效率 $η$ 对图像生成性能的影响。其中 $η$ 定义为图像传感器上接收到的总光功率与在空间光调制器平面照射到光学相位种子的总输入功率之比。根据可用照明功率以及光学硬件中的噪声水平,可以在训练过程中通过引入与 $η$ 相关的损失项来优化衍射效率。通过训练针对不同 $η$ 水平的光学生成模型,扩展数据图2g给出了FID与输出衍射效率之间的经验关系。评估采用批量大小200并在不同随机种子下重复100次。结果表明,对于仅包含单个解码层的光学生成模型,在图像质量仅有轻微下降的情况下,平均 $η$ 可以提高到41.8%,显示出该模型在实现高能效图像合成方面的潜力。此外还训练了包含5个连续解码层的光学生成模型,在相同衍射效率水平下进一步提升了图像质量。例如在保持 $F I D \approx 100$ 的情况下, $η$ 平均可提升至约50%。这些结果表明,在目标图像质量固定的条件下,采用更深层的解码器结构可以实现更高的输出衍射效率,相较于单层光学解码器具有明显优势。

进一步将光学生成模型扩展到多色图像生成任务中,使用三种照明波长 $λ_{R}$ 、 $λ_{G}$ 和 $λ_{B}$ 实现彩色生成。多色图像生成的相关结果与分析见扩展数据图3及方法部分。

图2｜迭代式光学生成模型。a、b、c中的图像均由人工智能生成。 a, 迭代式光学生成模型的结构示意。在每一个时间步中,上一时间步的噪声扰动样本被作为输入送入光学模型。经过光波传播后,多色信息被记录并用于下一次光学迭代,同时加入按计划调度的噪声。在最后一个时间步,图像传感器阵列记录输出光强,从而得到最终生成的图像。b, 迭代式光学生成模型的训练方式与数字DDPM模型类似。c, 在训练完成后的盲推理阶段,迭代式光学生成模型从高斯噪声分布(时间步 $T$ )开始逐步重建目标数据分布,并在时间步 $0$ 生成最终图像。SNR表示分布转换系数; $p_{prior}$ 表示正态分布; $p_{data}$ 表示原始数据分布; $q$ 表示近似后验概率; $x_{t}$ 表示时间步 $t$ 时的状态,即 $I_{t}$ 。

3 迭代式光学生成模型

此前的结果与分析主要针对快照式光学生成模型,其中每一个相位编码的光学生成种子在一次光照条件下即可通过光学解码器生成图像。在此基础上,进一步提出了一种迭代式光学生成模型,用于从高斯噪声递归地重建目标数据分布。图2a展示了该模型的结构示意。该迭代模型同样在三个照明波长下工作,浅层数字相位编码器生成的多通道相位图案会依次加载到同一个空间光调制器上。为了展示该模型的生成能力,系统采用 $L_{o} = 5$ 个解码层,这些层通过联合训练得到并在目标数据分布任务中保持固定。

与前述快照式光学生成模型不同,在图像传感器平面记录初始强度图像 ${\hat{I}}_{t}$ 之后,该图像会加入具有设定方差的高斯噪声,得到新的输入 $I_{t - 1}$ 用于下一时间步迭代。其中时间步 $t \in [0, T]$ ,且 $I_{T} \sim N (0, I)$ ,其中 $T$ 表示总时间步数, $N$ 表示高斯分布。该迭代模型的训练流程如图2b所示。训练时首先采样一批时间步 $(t_{1}, t_{2}, \dots)$ ,然后向原始数据 $I_{0}$ 添加噪声得到带噪样本 $(I_{t_{1}}, I_{t_{2}}, \dots)$ 。这些带噪样本经过浅层数字编码器与迭代式光学生成模型处理后得到连续输出。与标准DDPM实现不同,该迭代模型直接预测去噪后的样本,并以 $I_{0}$ 为参考计算损失函数。

图3｜快照式光学生成模型的实验验证。 a, 实验中使用的快照式光学生成模型结构示意。相位编码图案即光学生成种子在推理之前被预先计算完成,并在每次图像生成任务中随机访问使用。b, 快照式光学生成模型的实验装置实物照片。c, 该图中的图像由人工智能生成。展示了利用光学生成模型生成手写数字与时尚产品图像的实验结果,对应的目标数据分布分别为MNIST与Fashion-MNIST数据集。图中同时给出了归一化强度的颜色条以及尺度标尺,并展示了与原始数据集比较得到的实验FID评估结果。

图2c展示了迭代式光学生成模型的盲推理过程。训练完成后,光学模型从时间步 $T$ 逐步迭代至0,对扰动样本进行递归去噪,最终生成的图像由传感器记录。相关细节见方法部分。基于Butterflies-100数据集和Celeb-A数据集分别训练了两个用于多色图像生成的迭代式光学生成模型。与每个波长通道仅进行一次快照照明的多色生成方式相比,迭代模型生成的图像质量更高、背景更加清晰,显示出其在没有数字扩散引导的情况下实现多样化图像生成的潜力。此外,在整个训练过程中没有出现模式坍缩现象,原因在于连续迭代将复杂的数据分布映射任务分解为多个由不同时间步控制的独立高斯过程。

为了进一步说明浅层数字编码器与衍射解码器协同作用的重要性,还实现了一种不使用数字编码器的迭代式光学生成模型,并在Celeb-A数据集上进行训练。该无编码器模型同样能够生成具有不同风格与背景的人脸彩色图像。这表明通过在空间光调制器上直接实现强度到相位的转换,并结合图像传感器平面的光电转换过程,迭代式光学生成模型也能够完成复杂的域映射任务。然而,与使用数字编码器联合训练的模型相比,该方法在生成性能和图像多样性方面均有所下降。

扩展数据图4b展示了扩展数据图4a对应模型在不同时间步 $(t = 1000, 800, \dots, 20, 1)$ 下得到的中间结果 $I_{t - 1}$ ,清晰展示了光学生成模型如何逐步将噪声分布映射到目标数据域。迭代式光学生成模型的FID与IS指标分别见扩展数据图4c和4d,其评估方法与扩展数据图3c和3d保持一致。结果表明,迭代模型在图像生成性能方面实现了显著提升,较低的FID值说明生成图像与目标分布更加接近。同时,较高的IS值以及统计 $t$ 检验结果表明该模型能够生成比原始数据集更加多样的图像。此外,同一图中还给出了未使用数字编码器训练的迭代式光学生成模型的FID与IS结果,其性能明显低于使用浅层数字编码器联合训练的迭代模型。

4 实验验证

研究通过一个工作在可见光波段的可重构系统对快照式光学生成模型进行了实验验证(图3a)。实验中使用波长520nm的激光,经准直后均匀照射空间光调制器(SLM)。SLM显示由浅层数字编码器处理得到的预计算相位模式 $ϕ (x, y)$ ,这些模式构成光学生成种子。光束经过分束器后,携带相位调制信息的光场进入第二个SLM,该器件作为固定或静态的衍射解码器。对于每一个光学生成模型,解码器表面的优化状态保持固定,同一光学架构只需切换不同解码器状态即可生成符合不同目标数据分布的图像。在快照式光学生成模型的输出端,生成图像的强度由图像传感器记录(图3b,具体实验细节见方法部分)。

在初步实验中,分别训练了两个模型用于生成手写数字与时尚产品图像,对应MNIST数据集和Fashion-MNIST数据集。图3c展示了两种模型的实验结果,在MNIST和Fashion-MNIST数据集上分别获得了131.08和180.57的实验FID值。成功生成符合目标分布的图像表明该系统具有良好的通用性,进一步验证了快照式光学生成模型的可行性。系统的整体推理时间主要受限于SLM加载时间,通过采用更快的相位光调制器或帧率超过1kHz的SLM可以进一步缩短这一时间。更多手写数字与时尚产品的光学生成快照图像见补充图2、3以及补充视频1和2。

为了进一步探索快照式光学生成模型的潜在空间,还开展了实验研究随机噪声输入与生成图像之间的关系。相关潜在空间插值实验及分析见方法部分、扩展数据图5以及补充视频3–9。此外,还在受限光学条件下评估了快照式光学生成模型的性能,包括限制相位编码范围(例如 $0 \sim π / 2$ 与 $0 \sim 2 π$ )以及限制解码器位深(例如4bit与8bit)。相关结果见补充图4a、4b及补充图5。图3与补充图4的实验结果比较表明,提高衍射解码器的相位位深以及扩大输入SLM的相位编码范围对于生成性能具有重要作用。

图4｜高分辨率单色梵高风格艺术生成的快照式光学生成模型数值与实验结果,并与具有1000步推理的教师数字扩散模型进行比较。 该图中的图像由人工智能生成。图中展示了数字教师扩散模型(具有10.7亿可训练参数,每次推理需要1000步)与快照式光学生成模型在单色梵高风格艺术图像生成任务中的对比结果,同时给出了光学生成模型的实验结果。右侧橙色框中的结果显示数字DDPM教师模型与光学模型之间存在明显差异,表明快照式光学生成模型能够生成超出教师扩散模型结果范围的多样化图像。数字相位编码器包含5.8亿可训练参数,每一幅快照光学图像均由不同的随机噪声输入生成。通过输入文本(“architecture”“plants”或“person”)可以生成不同主题的艺术作品。图中同时给出了颜色条和尺度标尺。更多梵高风格艺术生成实验结果见补充图9和补充图10。

进一步利用同一实验装置(图3b)生成更高分辨率的梵高风格艺术图像。通过数字编码器与联合训练的衍射解码器实现了梵高风格单色图像的快照生成(扩展数据图6)。数字编码器结构及处理流程见补充图6。补充图7中的比较结果显示,在相同数字编码器架构下,衍射解码器在图像解码方面明显优于基于自由空间传播的图像解码方式。在某些情况下,自由空间解码完全失败,其CLIP评分低于10–15,而衍射解码器仍然能够稳定生成高质量图像。随着SLM与解码器之间距离的增加以匹配实验条件,由于数值孔径限制出现了轻微的分辨率下降(补充图7与补充图8对比),但基于衍射解码器的方法仍然能够稳定生成图像,而自由空间解码在多种情况下生成失败。

通过增加数字编码器的参数规模(补充表1),可以进一步提高快照生成的梵高风格图像分辨率与质量。扩展数据图7展示了可训练参数数量从4400万增加至5.8亿时的详细比较结果。图4和图5展示了使用5.8亿参数数字编码器进行高分辨率单色与彩色(RGB)图像生成的实验结果。单色梵高风格图像在520nm照明条件下生成,彩色图像则依次使用 $450, 520, 638$ nm波长分别对应蓝、绿、红三个通道。

在图4中,左侧三列结果显示光学生成模型单次传播生成的快照图像与数字扩散模型生成的结果高度相似。该教师扩散模型具有10.7亿可训练参数,每幅图像需要1000步推理,这一对比表明光学生成过程与教师模型的生成分布保持一致。相反,右侧橙色框中的三列结果展示了光学模型能够生成与教师扩散模型不同的图像,体现了其在输出端具有一定的创造性多样性。更多支持性实验结果见补充图9和补充图10。

在多色梵高风格图像生成实验中,每个波长通道对应的相位编码生成种子被依次生成并加载到SLM上。在相应波长照明下,图像通过固定的衍射解码器生成,随后通过数字方式进行通道合成。换言之,同一个解码器状态在所有波长通道中共享。图5展示了多色梵高风格艺术图像的生成结果,其中既包括与教师扩散模型输出相似的作品,也包括不同风格的生成结果。虽然观察到轻微的色差效应,但生成的高分辨率彩色图像仍保持较高质量。更多彩色梵高风格图像见补充图11和补充图12。

为了量化实验光学生成模型的保真度,补充图13给出了数值模拟结果与实验生成结果之间的峰值信噪比比较。对于单色与多色快照光学生成模型,这些定量结果均表明实验输出与模拟结果具有良好一致性。此外,补充图14给出了图4和图5对应结果的CLIP评分评估,显示光学生成模型在语义层面上能够保持与目标内容的一致性。

图5｜多色光学生成模型在彩色梵高风格艺术生成中的数值与实验结果,并与具有1000步推理的教师数字扩散模型进行比较。 该图中的图像由人工智能生成。图中展示了多色光学生成模型在彩色梵高风格艺术图像生成中的数值与实验结果,并与数字教师扩散模型(具有10.7亿可训练参数,每次推理需要1000步)进行比较。右侧橙色框中的结果显示数字教师模型与光学模型之间存在明显差异,说明多色光学生成模型能够生成不同于教师扩散模型输出的多样化图像。数字相位编码器包含5.8亿可训练参数,RGB三个通道的每一幅快照光学图像均由不同的随机噪声输入生成。通过输入文本(“architecture”“plants”或“person”)可以生成不同主题的艺术作品。图中同时给出了尺度标尺。更多彩色梵高风格艺术生成实验结果见补充图11和补充图12。

5 讨论

相关研究利用衍射网络架构实现了从噪声模式到图像的快照式光学生成。以往基于自由空间传播的光学网络主要应用于计算成像与传感、噪声估计与过滤以及数据分类等任务。而该框架能够直接从随机噪声中生成多样化图像,展现出一种具有“创造性”的快照式图像生成能力,明显拓展了传统光学计算系统的应用范围。此外,在不改变整体架构或物理硬件的情况下,只需将衍射解码器重新配置到新的优化状态,即可针对不同的数据分布完成光学生成任务。这种灵活性使光学生成模型在边缘计算、增强现实与虚拟现实显示以及多种娱乐相关应用中具有潜在价值。

结果还表明,在教师模型DDPM的指导下,目标数据分布的知识可以被蒸馏并转移到光学生成模型中,生成的图像体现了这一分布特征。该蒸馏过程使光学生成模型能够有效捕捉语义信息,相关细节见扩展数据图8及方法部分。同时,通过模拟扩散过程,迭代式光学生成模型能够以自监督方式学习目标数据分布,避免模式坍缩,并生成比原始数据集更加多样的图像结果(扩展数据图4)。进一步分析表明,迭代式光学生成模型在未来还有可能在不依赖数字编码器的情况下生成符合不同数据分布的多样化图像。此外,相位编码策略为光学生成模型提供了一种关键的非线性信息编码机制,相关分析见扩展数据图9及方法部分。

光学生成模型在实际应用中仍面临一些挑战。例如光学系统中的微小失准以及器件物理缺陷可能影响模型性能,此外光学调制器或解码器表面的相位位深有限,也会对系统表现产生影响。针对这一问题,通过数值分析研究了不同相位位深条件下的三种场景,并在测试阶段施加相应限制进行评估。结果表明,即使模型在训练阶段未考虑这些限制,在测试时引入相位位深约束后仍能够生成手写数字图像。为了进一步缓解这些问题,可以在训练过程中直接引入相位位深等物理限制,使数值优化得到的模型更加符合实际硬件条件。与未考虑这些限制的模型相比,这种策略能够显著提升性能。

分析还表明,仅具有三个离散相位水平的相对简单解码器表面即可实现有效图像生成,对应相位值为 $0$ 、 $2 π / 3$ 和 $4 π / 3$ 。这一结果意味着衍射解码器可以由被动薄膜结构实现,例如通过双光子聚合或基于光刻的纳米制造技术进行制备。这将进一步简化光学生成系统的结构,使其更加紧凑、轻量且成本更低。

基于该框架,还可以设计空间复用或光谱复用的光学生成模型,从而在不同空间或光谱通道中并行生成多个独立图像。相关示例见方法部分及扩展数据图10中的光谱复用光学生成模型。此外,得益于衍射解码器在视觉信息处理方面的天然高速优势,光学生成模型还有望实现体积范围内的三维图像生成,为增强现实、虚拟现实以及娱乐应用等领域提供新的技术可能。