收藏 触屏版

适龄年龄:18+

首页> 新闻> NFT> 论文插图AI也能自动生成了,用到了扩散模型
论文插图AI也能自动生成了,用到了扩散模型
明明发表时间:2023-06-26

论文插图AI也能自动生成了,用到了扩散模型

生成式 AI 已经风靡了人工智能社区,无论是个人还是企业,都开始热衷于创建相关的模态转换应用,比如文生图、文生视频、文生音乐等等。

最近呢,来自 ServiceNow Research、LIVIA 等科研机构的几位研究者尝试基于文本描述生成论文中的图表。为此,他们提出了一种 FigGen 的新方法,相关论文还被 ICLR 2023 收录为了 Tiny Paper。

也许有人会问了,生成论文中的图表有什么难的呢?这样做对于科研又有哪些帮助呢?

科研图表生成有助于以简洁易懂的方式传播研究结果,而自动生成图表可以为研究者带来很多优势,比如节省时间和精力,不用花大力气从头开始设计图表。此外设计出具有视觉吸引力且易理解的图表能使更多的人访问论文。

然而生成图表也面临一些挑战,它需要表示框、箭头、文本等离散组件之间的复杂关系。与生成自然图像不同,论文图表中的概念可能有不同的表示形式,需要细粒度的理解,例如生成一个神经网络图会涉及到高方差的不适定问题。

因此,本文研究者在一个论文图表对数据集上训练了一个生成式模型,捕获图表组件与论文中对应文本之间的关系。这就需要处理不同长度和高技术性文本描述、不同图表样式、图像长宽比以及文本渲染字体、大小和方向问题。

在具体实现过程中,研究者受到了最近文本到图像成果的启发,利用扩散模型来生成图表,提出了一种从文本描述生成科研图表的潜在扩散模型 ——FigGen。

这个扩散模型有哪些独到之处呢?我们接着往下看细节。

模型与方法

研究者从头开始训练了一个潜在扩散模型。

首先学习一个图像自动编码器,用来将图像映射为压缩的潜在表示。图像编码器使用 KL 损失和 OCR 感知损失。调节所用的文本编码器在该扩散模型的训练中端到端进行学习。下表 3 为图像自动编码器架构的详细参数。

然后,该扩散模型直接在潜在空间中进行交互,执行数据损坏的前向调度,同时学习利用时间和文本条件去噪 U-Net 来恢复该过程。

论文插图AI也能自动生成了,用到了扩散模型

至于数据集,研究者使用了 Paper2Fig100k,它由论文中的图表文本对组成,包含了 81,194 个训练样本和 21,259 个验证样本。下图 1 为 Paper2Fig100k 测试集中使用文本描述生成的图表示例。

论文插图AI也能自动生成了,用到了扩散模型

模型细节

首先是图像编码器。第一阶段,图像自动编码器学习一个从像素空间到压缩潜在表示的映射,使扩散模型训练更快。图像编码器还需要学习将潜在图像映射回像素空间,同时不丢失图表重要细节(如文本渲染质量)。

为此,研究者定义了一个具有瓶颈的卷积编解码器,在因子 f=8 时对图像进行下采样。编码器经过训练可以最小化具有高斯分布的 KL 损失、VGG 感知损失和 OCR 感知损失。

其次是文本编码器。研究者发现通用文本编码器不太适合生成图表任务。因此他们定义了一个在扩散过程中从头开始训练的 Bert transformer,其中使用大小为 512 的嵌入通道,这也是调节 U-Net 的跨注意力层的嵌入大小。研究者还探索了不同设置下(8、32 和 128)的 transformer 层数量的变化。

最后是潜在扩散模型。下表 2 展示了 U-Net 的网络架构。研究者在感知上等效的图像潜在表示中执行扩散过程,其中该图像的输入大小被压缩到了 64x64x4,使扩散模型更快。他们定义了 1,000 个扩散步骤和线性噪声调度。

论文插图AI也能自动生成了,用到了扩散模型

训练细节

为了训练图像自动编码器,研究者使用了一个 Adam 优化器,它的有效批大小为 4 个样本、学习率为 4.5e−6,期间使用了 4 个 12GB 的英伟达 V100 显卡。为了实现训练稳定性,他们在 50k 次迭代中 warmup 模型,而不使用判别器。

对于训练潜在扩散模型,研究者也使用 Adam 优化器,它的有效批大小为 32,学习率为 1e−4。在 Paper2Fig100k 数据集上训练该模型时,他们用到了 8 块 80GB 的英伟达 A100 显卡。

实验结果

在生成过程中,研究者采用了具有 200 步的 DDIM 采样器,并且为每个模型生成了 12,000 个样本来计算 FID, IS, KID 以及 OCR-SIM1。稳重使用无分类器指导(CFG)来测试超调节。

下表 1 展示了不同文本编码器的结果。可见,大型文本编码器产生了最好的定性结果,并且可以通过增加 CFG 的规模来改进条件生成。虽然定性样本没有足够的质量来解决问题,但 FigGen 已经掌握了文本和图像之间的关系。

论文插图AI也能自动生成了,用到了扩散模型

下图 2 展示了调整无分类器指导(CFG)参数时生成的额外 FigGen 样本。研究者观察到增加 CFG 的规模(这在定量上也得到了体现)可以带来图像质量的改善。

论文插图AI也能自动生成了,用到了扩散模型

下图 3 展示了 FigGen 的更多生成示例。要注意样本之间长度的变化,以及文本描述的技术水平,这会密切影响到模型正确生成可理解图像的难度。

论文插图AI也能自动生成了,用到了扩散模型

不过研究者也承认,尽管现在这些生成的图表不能为论文作者提供实际帮助,但仍不失为一个有前景的探索方向



免责声明:所提供的信息不是交易建议,www.hao76.com对根据本页提供的信息进行的任何投资不承担任何责任。本文内容仅供参考,风险自担!



相关专题
恋爱游戏推荐联机手机丧尸游戏合集多人枪战手游 好玩的多人枪战手游
恋爱游戏推荐

恋爱游戏推荐

恋爱类游戏一向深受广大玩家的喜爱。这类游戏拥有精美的画面品质,人物角色设计的立绘漂亮美观,形象也十分生动迷人,玩家可以去往不同场景区域进行游玩,小编特意为玩家们梳理了最精彩、最全、最新的恋爱游戏,感兴趣就来试试吧。
联机手机丧尸游戏合集

联机手机丧尸游戏合集

联机手机丧尸类游戏一向深受广大玩家的喜爱。这类游戏可以和好友们一同合作暴揍僵尸,获得胜利,这才是真正的快乐王道,小编特意为玩家们梳理了最精彩、最全、最新的联机手机丧尸游戏,感兴趣就来试试吧。
多人枪战手游 好玩的多人枪战手游

多人枪战手游 好玩的多人枪战手游

多人枪战手游一向深受广大玩家的喜爱。玩家成为特种兵,解锁多种武器装备,不断进阶,提升战斗力,成为枪王之王。小编特意为玩家们梳理了最精彩、最全、最新的可多人枪战手游,感兴趣就来试试吧。
  • 币种
  • 全球指数(¥)
  • 24H涨幅12
  • BTC
    BTC
    696004.219677
    $94930.810000
    -2.32%
  • ETH
    ETH
    24365.658561
    $3323.330000
    -2.67%
  • USDT
    USDT
    7.330098
    $0.999781
    +0.00%
  • USDC
    USDC
    7.333166
    $1.000200
    +0.00%
  • BNB
    BNB
    5102.716566
    $695.980000
    -1.49%
  • BUSD
    BUSD
    7.333900
    $1.000300
    -0.12%
  • XRP
    XRP
    17.344603
    $2.365700
    +2.32%
  • ADA
    ADA
    6.898397
    $0.940900
    -7.05%
  • SOL
    SOL
    1444.198266
    $196.980000
    -3.04%
  • DOGE
    DOGE
    2.501796
    $0.341230
    -2.96%
  • DOT
    DOT
    49.437653
    $6.743000
    -5.19%
  • DAI
    DAI
    0.000000
    $0.000000
    -0.01%
  • TRX
    TRX
    1.835858
    $0.250400
    -1.24%
  • SHIB
    SHIB
    0.000156
    $0.000021
    -3.08%
  • AVAX
    AVAX
    273.032508
    $37.240000
    -6.36%
  • WBTC
    WBTC
    695377.505961
    $94845.330000
    -2.07%
  • LEO
    LEO
    66.328066
    $9.046751
    -0.34%
  • MATIC
    MATIC
    2.781647
    $0.379400
    -2.61%
  • UNI
    UNI
    96.008612
    $13.095000
    -4.75%
  • FTT
    FTT
    20.797100
    $2.836600
    -4.94%
  • LTC
    LTC
    742.627893
    $101.290000
    -3.14%
  • CRO
    CRO
    1.065401
    $0.145314
    -2.86%
  • LINK
    LINK
    149.713314
    $20.420000
    -5.43%
  • XLM
    XLM
    3.092511
    $0.421800
    -1.32%
  • NEAR
    NEAR
    37.655611
    $5.136000
    -5.33%
  • ATOM
    ATOM
    47.384777
    $6.463000
    -5.55%
  • XMR
    XMR
    870.272790
    $118.700000
    +1.73%
  • ALGO
    ALGO
    2.610085
    $0.356000
    -5.84%
  • ETC
    ETC
    185.272059
    $25.270000
    -3.62%
  • BCH
    BCH
    3180.491460
    $433.800000
    -1.41%
  • VET
    VET
    0.329047
    $0.044880
    -5.59%
  • FLOW
    FLOW
    5.293487
    $0.722000
    -4.88%
  • ICP
    ICP
    79.263009
    $10.811000
    -3.61%
友情链接:
好玩的游戏手机游戏攻略大全梦想世界3小森生活太极熊猫破解版乱斗西游破解版织女星

上海玺果网络科技有限公司Copyright © 2014-2025 Hao76 Corporation, All Rights Reserved

沪公网安备 42011102000202号-3|沪ICP备16000974号-3|沪网文〔2017〕1090-014号

抵制不良游戏,拒绝盗版游戏,注意自我保护,谨防受骗上当,适度游戏益脑,沉迷游戏伤身,合理安排时间,享受健康生活