生成式AI在风景园林设计中的算法适应性研究 | 多阶段生成任务对比分析 - PenJing8

生成式AI在风景园林设计中的算法适应性研究 | 多阶段生成任务对比分析

2024-08-28 陈然7
核心提示:本研究系统测试了生成式人工智能算法在风景园林方案生成设计中的适应性,构建了“文本生成-布局生成-平面渲染-效果图生成”的全流程技术框架。通过对比大语言模型、生成对抗网络、稳定扩散模型等算法在各阶段的表现,揭示了预训练模型在专业领域的应用潜力与局限,为风景园林生成设计提供了技术选型与体系构建的重要参考。

生成式算法在风景园林生成设计中的适应性研究

摘要

【目的】测试目前常见的生成式人工智能算法在风景园林生成设计中的表现,尝试探讨不同的生成式人工智能算法在各个设计环节应用的优劣势。

【方法】构建“文本生成—布局生成—平面渲染—效果图生成”的风景园林方案生成设计理论框架,在同一个输入条件下测试不同算法在每个设计环节的表现。

【结果】测试了大语言模型及其在下游任务中的适应性调整方法、大型文生图预训练模型及其微调与控制方法、生成对抗网络及其与文生图模型的结合方法、参数化三维模型控制方法在各个阶段的表现。

【结论】目前大型预训练模型以其在通用领域的生成能力为生成设计领域提供强有力的支撑,但预训练模型提供的只是基础的通用能力,从通用领域到风景园林领域的适应性研究还需要检索、控制、微调等多种技术手段协作以开发全面的技术体系。

关键词:生成式算法;生成设计;风景园林;大语言模型;文生图模型;适应性研究

生 成 式 预 训 练 模型 4( Generative Pre-Trained 4, GPT4)、 稳 定 扩 散 模 型 ( StableDiffusion Model)等新一代生成式算法带动了新一轮科技革命,人工智能与规划设计专业的结合在学界关注度也逐步提高,如 2023 年Nature Computational Science 首次刊登了基于深度学习的城市自动规划模型[1]。2024 年第十四届全国人民代表大会第二次会议的《政府工作报告》首次提出开展“人工智能+”行动,更是促进人工智能技术在多个领域的创新应用。在这一背景下,人工智能技术和规划设计领域的结合迅速发展[2?4]。2024 年 7 月的世界 人 工 智 能 大 会( Worldartificial IntelligenceConference, WAIC)上,与规划设计领域高度相关的“智能社会论坛”成为 WAIC 的重要分会。

生成式算法指具有生成图像、文本数据能力的深度学习算法,深度学习算法是人工智能领域中的重要分支。GPT-4 和 Diffusion等著名算法虽然是在 2022 年之后才被大众所熟知,但其强大的生成能力有在各个行业应用的潜力,为各领域科技革命带来前所未有的机遇。在这个新的技术背景下,生成式算法可以应用在风景园林方案生成工作中的哪个环节?不同算法在不同风景园林设计任务上的表现如何?进一步如何通过不同的生成式算法构建基本的风景园林方案生成框架?这是本研究关注的 3 个重要问题。

1 相关技术综述

本研究结合生成式算法的特征与风景园林设计任务的特征,把风景园林设计方案生成工作划分为 4 个阶段:方案文本生成、场地布局生成、平面图渲染、效果图生成。这4 个阶段分别对应不同的技术体系,测试不同技术在每个阶段的算法能力。

1)方案文本生成阶段的主要任务是文本推导、设计逻辑框架生成等。该阶段对应的技术类型主要是大语言模型(large languagemodels, LLMs)。LLMs 是为通用领域开发的模型,不具备特定领域专业知识,因此 LLMs在风景园林应用的研究重点是如何向 LLMs 注入专业知识,使其适应风景园林领域。LLMs在 2023 年初兴起[5],鲜有在风景园林领域的相关研究,但有应有多种技术方法针对下游应用的适应性研究[6]。LLMs 对下游应用的适应性调整方法主要包括 3 种:二次预训练(pre-training)及微调(fine-tuning)[7]、检索增强生成(retrieval-augmented generate, RAG)[8]、多代理系统(multi-agent systems, MAS)[9]:

1)二次 预 训 练 及 微 调: LLMs 经 过 万 亿 级 令 牌 (token)量的通用数据训练,具备了通用领域知识,而重新训练一个特定领域的 LLMs 成本过高,因此有研究人员提出多种轻量化微调方法,主要是利用特定领域的小样本数据来微调 LLMs,但此处的“小样本数据”只是相较于基座模型训练样本量更小,实际上还是需要 10 亿令牌(token)以上的数据量。因此即便是微调,实际训练时仍然是成本高、效率低;

2)RAG:该方法在 2023 年兴起,令 LLMs 直接检索数据库,不需要训练,而是直接通过检索类确保模型具有准确的专业知识储备,效率高且成本低,但是对于超出数据库的问题泛化能力较差;

3)MAS:该方法也在 2023 年兴起,令 LLMs 模拟多个个体进行交互交流,模拟社会化分工行为[10],对于复杂任务较为合适,但经常由于任务过于复杂,常出现不可控、不可评价问题。

2)场地布局生成阶段的主要任务是基于场地条件控制生成场地布局,是设计工作最重要的环节。深度学习算法驱动的布局生成研究在建筑和规划领域从 2018 年左右出现[11?15],在风景园林领域从 2021 年左右开始出现[16?19]。其中典型的研究范式是通过生成对抗网络 (generative adversarial network, GAN)训练模型直接根据场地条件生成设计布局。尽管目前多数研究认为,将复杂的设计平面图生成过程简化为“图像到图像生成”的研究范式过于简单直接,但该研究范式为该研究问题提供了宝贵的探索思路,而且直至目前,在深度学习算法驱动的平面布局生成的研究中,GAN 系列方法还是主要方法[20]。GAN 方法系列在生成设计领域研究通常采用 Pix2Pix、循环 生 成 对 抗 网 络( cycle generative adversarialnetwork, Cycle GAN)等图像翻译策略,把设计问题简化为图像翻译问题,直接把复杂的设计问题凝练于端到端的算法黑盒中,但这也导致了设计过程不可解释和不可控[21],且可供训练的数据量不足以支撑风景园林如此复杂设计任务[22]。上述两方面局限是在风景园林领域应用深度学习算法的重要的研究瓶颈。

3)平面图渲染阶段的主要任务是生成高质量平面图图像。在稳定扩散(Stable Diffusion,SD)、 DALL-E 等 大 型 文 生 图 预 训 练 模 型 (Txt2Img Models)[23] 出现之前,平面图渲染任务通常被包含在场地布局生成研究中[24?27],大多数研究都是“场地条件—布局生成—平面渲染”的二阶段式研究范式,主要技术手段以 GAN 系列方法为主。而 2023 年至今,文生图模型也被应用于平面图生成中,由于其经过大规模通用领域图像数据训练,因此平面图图像生成质量明显优于 GAN 系列算法的应用研究。但与 LLMs 类似,文生图模型同样存在通用领域模型难以适应风景园林平面图特定领域的问题,在平面图要素识别过程中会出现错误。

4)效果图生成阶段的主要任务是还原平面图对应的三维空间结构,以及表达设计风格、设计细节。由于效果图与通用领域图像中的现实场景照片非常接近,因此 SD 通用预训练模型在生成效果图方面能力较强。但在风景园林规划设计中应用依然存在 3 个问题:

1)设计风格、氛围的准确表达。借助类似LLMs 微调的微调大型语言模型的低秩适应技术(low-rank adaptation of large language models,Lora)[28]和基于 Dream Booth 方法[29]的二次预训练方法,可以通过小样本数据训练,提高模型生成特定类型图像的准确性。

2)场地空间与平面图空间的准确对应。通常通过三维模型生成的方法解决,但目前在深度学习领域,较少有成熟的三维模型生成算法可以直接解决复杂场景生成问题,主要研究还是针对小体量的三维单体[30],而非综合性复杂场景[31]。

3)图像结构的准确控制。由于文生图模型的重要控制条件是文本内容,而文本数据天然对图像结构的控制能力较差。因此针对该问题,已有研究提出基于 Control NET 的方法,该方法具有强大的图像结构控制能力,在结合 SD 算法之后大幅提升了文生图模型的图像结构控制能力,但其对于过于小众的数据类型依然会出现对象识别错误。

风景园林生成设计各阶段常用技术综述及解决模型表格
表 1 风景园林生成设计各阶段常用技术综述及解决模型

综上,总结出 4 个阶段分别的常见技术类型和各阶段技术问题,并且归纳了相应的解决模型(表 1)。

2 风景园林方案生成技术方法

风景园林方案生成设计技术逻辑和流程图
图 1 风景园林方案生成设计技术逻辑和流程

本研究把风景园林设计方案生成工作划分为 4 个阶段,主要通过对照实验的方法,测试同一条件下不同算法的表现。由于在实验过程中深度学习中数据与算法同等重要,因此本研究针对数据准备也构建了针对性方法,包括文本、布局、平面、效果、数据 5 个部分的生成方法。

各部分所针对的问题不同,因此技术对比的逻辑也不同(图 1-1)。另外,由于方案生成的布局生成、平面渲染、效果图生成三阶段是可以串联的,因此本研究尝试串联生成完整的流程(图 1-2),研究重点不是流程中各个阶段的算法对比测试。

2.1 概念文本阶段

概念文本阶段大语言模型(LLMs)的适应性调整方法测试框架
图 2 概念文本阶段 LLMs 适应性调整方法测试框架

概念文本阶段目标是基于输入问题直接生成完整设计说明。而目前 LLMs 应用中最关键的问题是模型不具备特定领域知识。而为解决此问题通常使用的二次预训练及微调、RAG、MAS 这 3 种方式又分别有各自优劣势。因此,研究将 LLMs 基座模型与这 3 种方法的表现做对比研究(图 2)。

1)LLMs 基座模型:LLMs 基座模型指未经过任何特定领域知识训练的模型。本研究根据模型类型选取引用量较高的 5 个模型,闭源模型选取国内开发的文心一言、国外开发的 GPT-4, 开 源 模 型 选 取 国 内 开 发 的Chat GLM 和 Baichuan,国外开发的 llama。这5 个模型涵盖开源、闭源、中文友好与英文友好不同类型,可以代表常见任务类型。

2)二次预训练及微调:二次预训练与微调都是指利用特定领域数据训练基座模型,令模型具有专业知识。

人居环境LLM和植物LLM的训练逻辑示意图
图 3 人居环境 LLM 和植物 LLM 的训练逻辑

本研究通过二次预训练及微调构建人居环境 LLM 和植物 LLM 两个特定领域模型。其中人居环境 LLM 先经过二次预训练,再进行指令微调。植物 LLM 只经过指令微调。具体来说,人居环境 LLM 的训练数据包含未经处理的建筑、景观、城市设计以及植物学等多学科基础知识(共 3.4 亿 token),模型基座为 Chinese-Alpaca-13B;微调数据为重新构建的 28 万条人居环境指令数据集,来源于上述二次预训练数据库,模型基座为上述过程中二次预训练后的基座模型,因此此处二次预训练和微调是递进关系(图 3)。植物 LLM的训练数据集中的微调数据为 14.3 万条植物设计指令数据集,模型基座为 Chinese-Alpaca-13B。

3)RAG:RAG 是令模型在回答问题之前,直接根据问题检索数据库,避免了高成本的训练过程。因此 RAG 的关键在于建立检索数据库以及构建检索工具。检索数据库方面,采用上述“人居环境 LLM 二次预训练数据集”;检索工具方面,模型触发检索时需要把用户问题和数据库中的数据同时转换为词嵌入表示(Embedding),再将两者快速匹配,检索到相关文本,该过程需要一个文本检 索 基 础 模 型 作 为 桥 梁。 本 研 究 选 取Flag Embedding 模型,为了提升准确性,从“人居环境 LLM 二次预训练数据集”随机抽取5 000 个 2 000 token 的文本切片,通过 GPT-3.5 的应用程序接口(application programminginterface, API),批量生成 5 000 条检索问题,再把文本切片和检索问题作为检索数据集,用检索数据集微调 Flag Embedding 模型,将微调后的 Flag Embedding 作为本研究的检索工具。

4)MAS:构建 MAS 需要多次调用 LLMs,模拟多个角色进行群组讨论。由于从零构建MAS 需要解决复杂的记忆存储和检索问题,因此本研究以更为成熟的 Auto GEN 系统为基础构架建立群聊集群。通过 Auto GEN 预设的Group Chat Manager 工具管理群聊,仅做群聊系统角色设定的改动,以及操作环境的适应性调整,无其他调整。

2.2 场地布局生成阶段

场地布局生成阶段目标是基于场地条件直接生成场地布局。

目前场地布局生成阶段研究以 GAN 系列算法为主,其中最常见的方法为 Cycle GAN与 Pix2Pix 算法策略[2],两者目的相似,都是针对图像翻译任务的算法,都是通过大量数据训练挖掘源域与目标域之间的关系,应用在设计上即处理场地设计前和设计后的转换关系。

Cycle GAN 为 GAN 的一个变体,采用无监督学习策略,克服了一对一数据标签的限制。该策略通过对抗性训练及循环一致性损失的应用,指导模型学习将数据从原域转换至目标域,同时维持核心属性。由于无监督学习策略,Cycle GAN 策略更重视提炼数据转换规律,而 Pix2Pix 策略的训练策略更重视 “逼近训练标签”。算法如何通过挖掘大规模数据集以掌握其隐式规律是生成设计的重要问题,因此,相较于 Pix2Pix,Cycle GAN 策略的训练逻辑更适用于生成设计。Pix2Pix 和Cycle GAN 策略在生成设计任务上的区别已有多个相关研究有实验对比[19, 32-34],因此本研究不再展开对比。

针对该阶段研究目前特有的不可解释问题,本研究额外做了风景园林专项生成研究以初步探索算法对不同设计要素的布局规律的理解问题。因此,在场地布局生成阶段中,进行园林布局生成、园林布局专项生成 2 个生成实验。

具体来说,园林布局生成实验训练的数据集来自“场地条件—场地布局”数据,输入端训练数据集为绿地空间、建筑位置、水体分布的图像,输出端训练数据集为草地、道路、铺装、水体、构筑物、植物完整布局的图像。园林布局生成实验数据量为 194 对 (图 3)。

园林专项生成实验包含铺装、构筑物、道路、植物 4 项,每项输入端训练数据为缺失该项要素的场地布局图像,输出端训练数据为完整布局图像,如植物专项生成实验输入端为缺失植物的场地布局图像,输出端实验为包含植物要素的完整园林布局图像,4 项实验数据量都是 194 对。

2.3 平面图渲染阶段

平面图渲染阶段目标是基于场地布局或文本条件直接生成详细彩色平面图。

在当前阶段,平面图渲染任务普遍依赖于两大核心技术:大型文生图预训练模型与GAN 系列算法。这两类方法各自具备显著的优势与局限,构成本研究在该任务探索阶段所测试的基础模型框架。

其中,为提升文生图预训练模型的能力,本研究测试二次预训练及微调方法以提升模型对平面图的理解能力。另外,为兼顾图像生成质量和图像识别能力,本研究提出 GAN和 SD 相结合的方法。

因此该阶段的算法测试包括 4 个模块:GAN、文生图预训练模型、二次预训练及微调、GAN 与 SD 的组合优化实验。

1)GAN 模块。与布局生成类似,该部分基于 Cycle GAN 策略,实现基于场地布局的平面图渲染实验。基于场地布局的平面图渲染实验以场地布局图像(6 类要素)为输入端训练数据,以彩色平面图为输出端训练数据。

2)大型文生图预训练模型模块。大型文生图预训练模型通常经过 10 亿以上“文本-图像”数据对进行训练,通常以文本控制生成图像。其文本控制能力来源是算法构架中所包含的视觉语言模型(visual-language models,VLMs),比如基于对比学习的语言-图像预训练(contrastive language?image pre-training, CLIP)、自举方法的语言-图像对比预训练 (bootstrappinglanguage-image pre-training, BLIP)等模型。已有研究人员根据 CLIP 模型与图像生成网络不同组合方式,如 U 形网络(U-shaped network,U-Net)、残差网络(residual networks, Res Nets)等 算 法 模 型, 采 用 不 同 的 训 练 策 略 , 如Diffusion、GAN、变分自编码器(variationalauto-encoder, VAE)等算法,开发了各种大型文生图预训练模型。本研究选取较为著名的开源模型 SD、闭源模型 Midjourney 和 DALL-E 进行对比测试。

3)二次预训练及微调模块。与 LLMs 类似,二次预训练是为了给模型注入专业知识。本研究尝试对 SD 模型进行二次预训练,增加其对特定领域的适应性和专业性。

具 体 来 说, 二 次 预 训 练 主 要 采 用Dream Booth 技术,该技术能够在小样本数据条件下有效避免过拟合现象,通过训练图像与对应的文本标签数据,得到特定方向的基座模型。本研究分别使用 200、6 000 张平面图 2 个样本数据集训练 LA_1、LA_2 两个风景园林平面图基座模型。

4)GAN 与 SD 的组合优化实验模块。为同时调用基于 Cycle GAN 策略训练的平面渲染小模型的平面图要素准确识别能力,以及 SD大型文生图预训练模型对高质量图像的生成能力,本研究将 GAN 算法与 SD 模型相结合构建渲染流程。

2.4 效果图生成阶段

效果图生成阶段的生成目标是基于平面图准确生成三维空间效果。

目前在 SD 等强大的开源模型支持下,该阶段的智能化生成已经非常成熟,但目前还存在 3 个主要问题.

1)图像结构控制问题:采用成熟的基于Control NET 的方法实现图像结构的严格控制。

2)特定风格的表达问题:采用 Lora 微调方法,其是 Bream Booth 的简化形式,通过在原始模型中添加一个低秩矩阵作为适应层,并将其与原始权重矩阵相乘实现具体风格的调优。本研究采用此微调方法,训练 3 类效果图风格(古风 Lora_1、拼贴风 Lora_2、马克风 Lora_3)的 Lora 风格模型。

3)场地空间与平面图的对应问题:目前暂无成熟技术解决。最直接的方法是手工三维建模。本研究根据该问题基于 Grasshopper开发三维模型生成系统,该系统基于场地布局生成简单模型作为 Control NET 控制图像,再借助 Control NET 与 SD 结合进行效果图快速生成实验。

2.5 数据制作方法

在深度学习领域,算力、算法和数据是三大核心要素。其中,数据是众多研究最容易忽视的要素,然而实际上,数据与算法有同等重要的地位。

本研究所采用的算法类型多,数据类型多,不同任务所对应数据的制作方法不同。

1)LLMs 二次预训练任务。所需数据量极大,但格式要求低。主要通过爬虫获取,还包括人工收集电子书数据等。

2)LLMs 微调、检索模型微调任务。所需格式要求高,为一问一答的单轮问答,多问多答的多轮问答数据,此处构建多线程并发访问 GPT-3.5 的 API 中转池,快速批量获取问答数据。多线程并发访问可以将 0.1 条/s处理量提升到 1 000 条/s 处理量,处理量的上限由效率提升视线程数和中转池并发容错率决定。

3)图像分类任务。平面图渲染及效果图生成都需要高质量图像数据集,图像数据类型越相似,训练效果越好,因此图像分类问题极为重要。本研究采取多轮 K-Means 聚类结合人工筛选的方法,提升图像分类效率,该方法可以将单人百级处理量提升到单人十万级处理量。

4)布局生成任务。布局生成需要准确的场地布局标签,人工绘制时间极长,本研究以 194 套人工绘制的标签数据为基础,借助Pix2Pix 策略训练策略分层训练(6 类要素单独训练)的描图模型,再通过爬虫收集 9 286 套平面图,平面图经过描图模型得到合成数据,最后通过贝赛尔曲线优化技术在合成数据基础上得到优化后的布局标签数据。与单纯通过 Transform 图像处理技术不同,基于 Pix2Pix策略的训练以及贝赛尔优化所增加的数据更贴近真实情况(该技术流程可以将 1 张/6h 的处理效率提升到 1 张/1 min)。

5)跨模态图文转换数据任务。SD 模型的 训 练 需 要 图 文 数 据 对, 本 研 究 通 过Cog VLM 多模态视觉语言模型生成准确的图像标签(Caption)描述,以及通过 CLIP 模型生成图像标签。

3 结果与讨论

为尽量标准化测试各生成阶段,采用北京市海淀区西北旺 10 hm2 绿地空间规划项目①作为标准化测试案例。其中文本生成阶段的输入条件为问题,输出结果为文字段落,与其他阶段不连接。接下来的 3 个阶段为串联的完整流程:场地现状图通过布局生成阶段生成场地布局图,场地布局图通过平面渲染阶段生成平面图,同时场地布局图通过效果图阶段生成效果图(图 1)。

3.1 方案文本生成阶段结果

方案文本生成的研究分 3 组实验:1)比较 5 种原生 LLMs 在生成统一问题方面的性能;2)针对特定训练的 3 种风景园林行业垂直领域模型,进行问题生成;3)展示 MAS 完成的整个设计讨论流程。3 组实验模型的回答均为大段落语句,并不能直观提炼要点。因此,按照设计要求的关键要点②对答案进行了归纳整合。

3.1.1 LLMs 基座模型

本研究所测试的 5 种 LLMs 基座模型在整体语言生成推理性能上发挥正常,但全部对风景园林专业领域知识有所欠缺③。GPT-4、Chat GLM 与文心一言 3 个模型整体表现较好,GPT-4 生成的文本中设计分区最为合理,且为唯一注意到建筑与剧场要求的模型,整体思路较为严谨;Chat GLM 生成的文本在植物配置上最为合理,列举了适宜的树种;文心一言生成的文中设计主题与说明最接近人类设计师的思维,且与 GPT-4 相比,对中文问题更加友好。

3.1.2 二次预训练及微调

相较于 LLMs 基座模型,人居环境 LLM的设计习惯表达逻辑更符合设计师的角色,在分区与节点的设置上更加规范合理。但是在模型逻辑、完整、规范等能力方面与通用语言相比有所欠缺④。这有两方面原因:首先,数据量方面,目前 LLMs 的二次预训练数据量一般在 10 亿 token 以上,本研究模型未达到该训练规模;其次,数据质量方面,本研究模型数据未经处理,也未按逻辑分类、切片,一般需要严谨的分类体系,甚至训练多个专业模型再融合为大模型[35-36]。而 10 亿 token 规模的数据量需求和分类体系构建,从算力和数据角度都是成本极高的工作,这也印证了上文第 1 节提到的问题:即便是微调,也离不开数据质量和数量问题。

但人居环境 LLM 也具有优点,即便数据质量不够,人居环境 LLM 依然能习得人类设计师常用的语言习惯。这印证了前人研究的观点[7, 37-39],模型微调可以培养模型性格、语言习惯靠近专业领域,当数据量达到一定程度上才会出现专业知识的“涌现”。

另外,本研究还进一步把人居环境 LLM与植物景观 LLM 融合,这样做的优势方面与人居环境 LLM 大体相同,回答内容会更加靠近人类进行植物规划设计的习惯,不仅在植物设计方面具有了明显的优势,同时还加入植物科普展示、科普装置等设计节点④。但模型的回答出现新的问题,即在没有提前要求的情况下生成结果却完全偏向植物设计。这说明经过训练后的模型,在一定程度上丧失了原有基座模型在通用领域的推理能力,这也是 LLMs 下游应用的常见问题,一般需要多次测试通用数据集和专业数据集的多种配比[40]。这也为 LLMs 微调工作提高了成本。

3.1.3 检索增强生成

RAG 是目前构建专业领域 LLMs 成本较低的替代方案。模型通过数据库检索,获取10 条文本切片作为参考,检索结果靠近“生态”“ 科 技 ”“ 多 功 能 ”“ 河 道 ”“ 建 筑 ”等关键词⑤。生成结果虽准确复现了检索内容,但由于生硬地根据检索结果回答,生成结果脱离原有问题⑤。这说明要构建完整的专业化LLMs 不能直接依靠检索,检索只能应用于需要高度准确性的具体问题,如规范性问题、知识查询等。针对规划设计文本这种综合性开放问题,还需经过问题拆解,综合运用微调、思维链、RAG、MAS 等多种技术构建LLMs 体系。如在检索步骤的前后设定更多的指令用于拆解问题、总结答案,以此作为多个 MAS,组成 RAG+MAS 的综合性体系。

3.1.4 多代理系统

MAS 能够模拟人类开会讨论。为探索MAS 的创造力,本研究只输入“海淀区—社区 花 园—10 hm2” 的 条 件 及 角 色 的 定 位 。MAS 可以很好地模拟人类会议的讨论过程,不同角色会从不同角度思考任务问题,甚至会出现争辩、反驳的行为⑥。

MAS 的整个推理过程较一次性生成更清晰,也可以看到详细的分析过程,生成结果明显优于前述 LLMs 的一次性生成结果。在本节中,LLMs 基座模型没有经过任何微调或检索,但生成结果的逻辑和专业性都所有增强,这是因为在复杂任务中,多角色分阶段的推演远比一次性回答更好。这与规划设计任务相似,复杂的工作经常需要分析、推理、试错,而非一次性生成。

但与其他相关研究类似,目前 MAS 在特定领域任务应用的相关研究中,最大的问题就是难以评价和不可控。控制和评价这两个问题彼此有关联,从单一代理(agent)角度增减优化角色设定所带来的影响本身就是随机、不可控的,每一轮的交流会带来随机性的累加,难以直接量化评价,这也与人类团体在处理复杂任务相似。

3.2 场地布局生成阶段生成结果

3.2.1 园林布局生成

园林布局生成模型的生成结果元素之间面积分配与布局配置合理,道路、铺装与构筑物之间关系合理,实现了完整的流线设计;植物沿道路两旁及场地周边分布,创造出了多样化的疏密空间(图 4)。

园林布局生成及专项生成结果图
图 4 园林布局生成及专项生成结果图

值得关注的是,园林布局生成模型的生成结果与人类设计师方案完全不同,但整体空间布局是符合基本设计规律的。这与常见的深度学习任务不同,其他深度学习任务在训练过程会令算法生成结果逼近答案目标,结果与真实解越相似评分越高。而设计任务不追求与训练数据的高度相似性,而是需要在符合通用设计框架的基础上进行创新,这反映了设计任务的特殊性。

同时这也解释了 Cycle GAN 策略在应用设计任务上的优势,Cycle GAN 策略不令算法生成结果逼近真实结果,而是令算法先从原域图像生成到目标域图像,再从目标域图像生成假原域图像,其训练规则是增加原域图像与最后的假原域图像的相似度,而不是增加目标域与真实解的相似度。这样的无监督策略,能够保证算法在维持原域和目标域对应关系时,依靠的是算法在大量的数据中挖掘隐式规律,而非直接参考答案。

3.2.2 园林布局专项生成

在园林布局生成实验中,算法直接将设计问题转化为图像生成问题。尽管最终结果显示,算法在一定程度上能够提炼设计逻辑,但缺乏可解释性。因此,本研究进行了针对性的园林布局专项生成实验,每个实验只生成单一要素,这样能够初步探索算法对各设计元素的理解程度。

专项生成结果显示,每种要素的生成结果中都符合基本设计规律(图 4)。在植物的专项生成中,算法可以合理地预留开放空间;在道路的专项生成中,算法的生成的道路可以合理连接各个节点;在铺装的专项生成中,算法可以考虑建筑与铺装的关系,构筑物周边会预留一部分铺装广场;在铺装(带外环境)的专项生成中,本研究额外对比了外环境道路对铺装生成的影响,在城市道路影响下,铺装设计会考虑外环境道路与出入口关系;在构筑物的专项生成中,算法也考虑到了景观轴线的设置。

另外,由于算法挖掘的是隐式规律,而非强制的显式规则,因此不会在每个方案中出现一样的生成结果。如在构筑物生成中,并非每个方案都考虑空间轴线,但在部分结果中(如铺装专项、构筑物专项),构筑物生成和铺装生成都会考虑空间轴线。

隐式规律也带来一些意想不到的问题。例如道路生成存在断头路的问题,生成的道路不能完整连接所有活动区域。推测这与算法基于概率分布的训练逻辑有关,其挖掘的规律是基于概率分布的规律,而非强制性的设计规则,这种训练逻辑在非强制规范约束的任务场景中有优势,但遇到强规则约束的任务则难以生成合理的结果。

3.3 平面图渲染阶段生成结果

针对大型文生图预训练模型与 GAN 系列算法进行对比实验,主要分为 4 个模块进行平面渲染:GAN、大型文生图预训练模型、二次预训练及微调、GAN 与 SD 的组合优化实验。

3.3.1 大型文生图预训练模型

大型文生图预训练模型基于文本控制,本研究比较了 Midjourney、DALL-E、SD 模型的平面图生成能力,结果发现 3 个模型生成的图像质量都非常高。但仅凭文本控制无法满足平面图生成更为精细的设计要求。这 3个基座模型一方面未经过特定训练模型无法理解平面图的含义,另一方面无法控制图像结构。

3.3.2 多种控制手段对比

图像控制问题是平面图渲染阶段极为重要的问题。SD 为经典文生图(Txt2Img) 模型,只能通过文本控制,而结合图生图(Img2Img)和 Control NET 的方法大幅提升了 SD 模型在不同应用场景中的图像控制能力。

另外,如前文所述,大型文生图预训练模型的优势是图像质量高,GAN 系列算法的优势是对专业知识的准确识别。为兼顾两者能力,本研究借鉴 Img2Img 方式简单改进 SD模型的生成流程,将 Cycle GAN 策略训练得到的 Res Net 生成器搭载在 SD 模型前端,作为一种新的控制方式(图 5)。

平面图渲染阶段:多种图像控制方法对比及二次预训练模型效果图
图 5 平面图渲染阶段算法对比

用前述布局生成结果作为输入图像,测试 GAN、 Img2Img、 Control NET、 GAN 与SD 结合这 4 种方法的生成效果(图 5-1)。使用 Img2Img 方法时,输入图像提供的是图像信息,而在 Control NET 中输入图像提供的是图像结构信息,两者有本质区别。

在 Img2Img 方法中,模型无法从布局图像中获取充分的语义信息,输入的布局图像只提供了颜色信息,不包含其他信息,因此生成了与输入图像极其相似的结果(图 5-1)。而 Control NET 方法可以只限定图像结构,图像结构下的各个部分的语义信息调用的是基座模型的通用能力,因此可以在控制结构的前提下生成平面图内容。但由于 Control NET没有经过专业平面图数据训练,生成结果依然偏离设计常识(图 5-1)。

而在本研究开发的 GAN 与 SD 结合的方法中,考虑到 GAN 的生成结果不仅包含图像结构信息,还包含图像语义信息,因此参考Img2Img 方法改进。在此方法中 GAN 的生成结果提供专业的设计信息,SD 模型仅作细节补充用,因此在两者结合下生成结果优于单独使用 Control NET 方法(图 5-1)。

3.3.3 二次预训练及微调

SD 模型与前述 LLMs 类似,是经过通用数据训练的通用模型,未具备风景园林专业知识。二次预训练及微调可以为基座模型注入专业知识。与前述模型类似,数据量、数据质量制约模型效果。因此本节测试的模型包括:经过 200 张相似平面图训练的基座模型 LA_1,经过 6 000 余次多样化平面图训练的 基 座 模型 LA_2, 引 用 了 目 前 流 行 的Landscape Super Mix 基座模型(该模型经过大量风景园林图像训练,但没有专门训练平面图数据集,以下简称 LS 模型),以及将 LS与本研究 LA_2 模型融合的综合性模型 LA_LS。与上一节相似,本节测试图像同样是前述布局生成阶段的生成结果,并采用 Control NET方法控制,不涉及应用 GAN 算法。

对比 LA_1 模型、LA_2 模型的生成结果 (图 5-2),初步说明数据质量和数据量对训练模型产生的影响。

1)在数据质量(相似性)的影响下,LA_1 模型风格稳健统一,LA_2 模型风格更多样化。初步说明相似的数据集训练的生成效果较为统一。

2)在数据量的影响下,小样本的 LA_1模型与基座模型的风格极相似,而 LA_2 模型更加偏离基座模型效果,贴近平面图效果。推测原因与 LLMs 的二次预训练类似,少量的数据训练仅培养模型性格,很难真正为模型注入新知识。

对比 LA_2 模型、LS 模型、LA_LS 融合模型,初步说明数据类型对训练模型产生的影响。

LS 模型经过大量风景园林效果图训练,在平面图表现上较为一般;LA_2 模型则是标准的平面图样式,但细节欠佳;而融合模型LA_LS 的平面图效果明显优于 LA_2 模型和LS 模型。推测原因在于平面图不只是一个类型图片,而是风景园林对象的一个视角的图片,因此增加其他视角的风景园林效果图的训练有助于算法模型对平面图的理解。

在本研究的其他实验中(图 5-2),也更加印证了融合模型在经过综合性风景园林数据的训练下,对风景园林平面图的理解能力极强,即便在极为简单的两根线控制下依然能达到极强的生成能力,这种对平面图的理解能力和生成能力是 GAN 系列算法,以及本研究的改进方法所达不到的高度。

3.4 效果图生成阶段生成结果

由于 SD 在效果图生成的应用上比较成熟,因此效果图生成阶段的分析主要围绕 SD 的应用展开,针对 2 个主要的研究问题:效果图风格问题和精准控制问题。效果图风格问题测试的是微调方法,精准控制问题测试的是基于 Control NET 的方法。其中,精准控制问题又包括平面图空间结构对应问题和手绘草图控制问题。1)为解决平面图空间结构对应问题,本研究开发基于 Grasshopper 的三维生成系统,以支持平面图三维空间结构控制;2)手绘草图控制问题包括图像布局控制和线稿控制。根据常见应用场景可应用额外测试局部重绘、极简线稿控制 2 个方法。

3.4.1 三维空间结构控制

为解决平面图空间结构对应问题,本研究开发了基于 Grasshopper 的三维生成系统,该系统衔接前述布局生成阶段,基于矢量化方法将布局生成结果转化为矢量要素,再通过 Grasshopper 平台生成简单三维模型作为Control NET 控制性条件(图 6)。

基于Grasshopper的三维模型生成系统流程图
图 6 三维模型生成系统流程

3.4.2 多应用场景综合性对比

SD 采用 Control NET 技术实现对图像空间结构的控制,利用 Lora 微调技术生成特定风格的效果图。本研究对这 2 种技术在效果图生成上的表现进行对比分析,控制变量确保输入图片一致(图 6)。

效果图生成阶段:文生图(Txt2Img)渲染结果图
图 7 效果图生成 Txt2Img 渲染效果

1)文生图(Txt2Img)渲染。当使用 LS模型且未应用 Control NET 控制机制时,模型仅依赖文本提示词来构建场景,导致生成的图像与实际场地条件的一致性较低(图 7)。然而,当引入线稿分割和语义分割这 2 种Control NET 控制技术后,该模块不仅能够在图像布局控制方面达到图生图模块中图像布局控制的高质量标准,也能在线稿控制方面实现类似的优质效果。

效果图生成阶段:图生图(Img2Img)渲染结果图
图 8 效果图生成 Img2Img 渲染效果

2)图生图(Img2Img)渲染。使用 LS 模型进行效果图生成。由于图像控制已在生成阶段被集成(图 8),因此,无论是否应用Control NET 技术,图像布局控制下的渲染结果均展现良好的效果。此外,Lora 成功指导特定风格的转化。然而,在缺乏 Control NET技术控制的情况下,线稿控制下的渲染无法达到预期的效果。而引入线稿分割 Control NET技术控制后,虽可产生合理效果图,但细节不如图像布局控制的精细程度。

效果图生成阶段:急速概念渲染、局部重绘与涂鸦重绘结果图
图 9 效果图生成急速概念渲染与涂鸦重绘效果

3)急速概念渲染。将几根线条,通过Control NET 的控制及提示词的描述,生成目标场景图像。在 LS 模型下的两个模块均能生成符合要求的效果图(图 9-1)。对于 LS_LA模型,在平面图渲染阶段发现了其在平面图生成上杰出的能力,此实验同样显示其可生成合理的效果图,但效果与 LS 模型有一定的距离。这证明在 LS_LA 融合模型中,基座模型会受到另一个模型的影响而丧失通用能力。

4)局部重绘与涂鸦重绘(图 9-2)。在图生图模块中,将急速概念出图时产生的不理想图片,通过增加色块涂鸦及提示词描述,让模型再次重绘渲染得到理想布局的图像。接着,通过局部重绘技术调整图像细节。最后,利用 SD 进行高清修复,实现效果图的理想布局和高质量呈现。

4 结论

本研究从方案文本生成、场地布局生成、平面图渲染、效果图生成 4 个阶段测试目前主流算法,分析目前各阶段生成任务所存在的问题。

文本生成阶段,llama 等通用大模型已展现强大的文本推理能力。然而,尽管目前的研究通过指令微调(prompt-tuning)、RAG及思维链等尝试将这些模型微调以适应特定领域,但风景园林领域的适应性研究极少。本研究测试目前主流的二次预训练及微调、RAG、MAS 模型,这 3 个模型各有优劣势。目前普遍认为,LLMs 在下游领域的适应性研究面临两项挑战:

1)存在 AI 幻觉,缺乏专业数据时模型无法正确理解语义信息;

2)长文本理解还存在问题,模型处理多段文本信息时无法保持段落一致性。而根据本研究的初步探索,笔者认为风景园林文本生成是综合性任务,仅通过单纯的微调和 RAG 无法完全解决该阶段任务内容。未来的研究需要结合多种技术手段构建 LLMs 体系:首先,针对需 要 高 度 准 确 的 子 任 务 需 借 助 知 识 图 谱 (knowledgeable graph, KG)等可解释技术开发可信的检索系统;其次,针对于整个体系的基座需要数倍于十亿级高质量分类数据微调基座模型,令模型习得风景园林规划设计逻辑;最后,由于综合性的规划文本不可能一次性生成,最终模型体系的构建还需要 MAS结合思维链技术设计完整的任务规划系统。

在场地布局生成和平面图渲染阶段,早期研究多采用 GAN 生成平面布局,但随着SD 等模型的出现,以及结合 Control NET 技术和 Lora 的使用,设计规划等行业的研究焦点从生成向渲染偏移。本研究在平面图生成的基础上比较了文生图和 GAN 系列模型,系统总结了目前主流渲染方法。而这两个阶段的生成研究依然面临挑战:1)景观图像缺乏结构化关系;2)缺乏专业数据;3)图纸专业化生成能力不足;4)平面图生成多维信息的能力存在缺陷。未来研究应关注实现平面多维信息编码向三维向量空间的转换,实现高层次数据综合分析。渲染模块未来同样需要解决专业领域模型缺失、元素识别不准确和模型塌陷等问题。

在效果图生成阶段,突出问题在于平面图和效果图的对应,目前三维模型构建主要方法包括参数化[39]、建筑信息建模(BIM)[41]、点云生成[42] 及跨视角生成。除了 BIM 等参数化方法,其他基于深度学习方法的生成结果通常不可编辑,限制了实际应用,这也是本研究采用参数化方法的原因。但这种基于参数化的三维生成方法较为笨重,在未来的研究中,应该关注如何跳过三维模型直接通过多模态大模型快速对应平面图信息。该类型研究属于跨视角生成研究,目前还处于初期阶段,主要包括有两方面问题:

1)数据集缺乏;

2)目前三维模型构建基于的图像模型在空间一致性方面存在局限性,生成图像的稳定性具有挑战。

生成设计研究主要以辅助设计研究为主,由于规划设计专业的复杂性,设计师始终需要承担起多方沟通的桥梁角色,技术始终是辅助作用,使用技术的目的是为了提升工作效率。本研究深入讨论各生成模型的研究现状、面临挑战以及未来发展。尽管板块各自独立,但其共同推进设计自动化的前沿研究。

未来研究应聚焦于开发能连接理论与实践的计算机设计算法,保证设计方案的创新性和实用性,使其能有效融入实际设计流程中。这种方法论的进步不仅将促进设计技术发展,也将为设计自动化开辟新的篇章。

常见问题解答 (FAQ)

风景园林方案生成设计框架包含哪四个阶段?
该框架包括:方案文本生成、场地布局生成、平面图渲染、效果图生成四个阶段。
大语言模型(LLMs)在风景园林应用中面临的主要挑战是什么?
主要挑战是模型缺乏特定领域专业知识(如风景园林知识),需要进行二次预训练、微调、或使用检索增强生成(RAG)、多代理系统(MAS)等方法进行适应性调整。
在场地布局生成阶段,为什么 Cycle GAN 策略比 Pix2Pix 策略更适用于设计任务?
Cycle GAN 采用无监督学习策略,更重视在大量数据中挖掘隐式规律,不强制算法结果逼近训练标签,这符合设计任务不追求与训练数据高度相似性,而是在通用设计框架基础上进行创新的特殊性。
效果图生成阶段解决平面图与三维空间结构对应问题的最直接方法是什么?
最直接的方法是手工三维建模。本研究采用基于 Grasshopper 的三维模型生成系统,将布局生成结果转化为矢量要素,生成简单三维模型作为 Control NET 的控制条件。
风景园林生成设计研究未来应关注的重点方向是什么?
未来研究应聚焦于开发能连接理论与实践的计算机设计算法,保证设计方案的创新性和实用性;在技术上,应关注实现平面多维信息编码向三维向量空间的转换,以及如何跳过三维模型直接通过多模态大模型快速对应平面图信息(跨视角生成)。
 
更多>同类园林
最新文章