GithubHelp home page GithubHelp logo

papersummary's Introduction

Hi👋, I'm Yuhi Matsuo.

I'm interested in Computer Vision 💻👀 and Deep Learning 🧠.

If you want to know more about me, please check MYPAGE.

GitHub IsHYuhi
GitHub IsHYuhi

  • Japanese🇯🇵

IsHYuhi

Skills

Contact

papersummary's People

Contributors

ishyuhi avatar

Stargazers

 avatar  avatar  avatar

Watchers

 avatar  avatar

Forkers

haru-333

papersummary's Issues

Towards Multi-modal Entity Resolution for Product Matching

INFO

author

Moritz Wilke, Erhard Rahm

affiliation

Leipzig University

conference or year

2021

link

paper
実装

概要

Entity Resolution (ER) (ないしRecord Linkage)は, 様々なweb shopの商品情報をマッチさせるのに用いられている. しかし, 特定のドメイン(テキストや数字)の属性のみでは, 信頼性の高い照合判定を行うことが難しい. この問題を解決するために, 属性ベースのマッチングシステムを拡張し, ほとんどすべてのweb shopで利用可能な画像データを組み込む. システムを評価するために, WDCの製品マッチングデータセットにウェブから収集した画像を追加. 実験の結果から, 画像を使用することでrecallと全体的な照合品質が向上することを示した.

* ER とは1つまたは複数のデータソースからどのアイテムがreal-world entityを参照しているかを特定する手順.

スクリーンショット 2021-09-24 14 50 06

課題と背景

ERの応用例としてweb上の商品のマッチングが挙げられる. web shopでの価格や在庫を比較したり, 製品をユーザーに提示するために使用することができる. スマートフォンなどはスペックなどの属性で識別することが可能であるが, ファッション分野のように文字の情報が少ないアイテムをマッチングさせることは困難であり, 視覚的特徴に大きく作用される.

例えばFigure 1において, 似ているが異なる2つの靴は, 視覚的な商品照合の問題点と可能性を示している. 画像を見れば, 2つの靴が異なるものであることは一目瞭然であるが, 属性情報からは明確な判断を下すことは困難である. これは, 属性値が欠けていると, 説明文の違いが大きくなるためである. また, 2つ目の靴の説明文は, 顧客を納得させるために広告的に書かれているため, 情報価値が低下している.

他にも, 一般的なERや製品マッチングの研究において, マッチングするエンティティに関する真の情報を含む大規模な公開データセットがないことが障害となっていた. 商品画像と説明文を組み合わせたデータセットはいくつかあり, 画像と説明文のいずれかのマッチングペアを含むデータセットもあるが, 現在のところ商品の画像と説明文, そして一致するアイテムの真のセットを含む公開データセットはない.

Dataset

WDC Product Data Corpus and Gold Standard for Large-scale Product Matching 2.0 (WDC dataset)

  • ER評価に適しているが, 製品画像は含まれていない. (v2で削除された) 前述[14]の実験は, WDC datasetの初期バージョンで行われたが, 対応する画像は現在入手不可.

DeepFashion2

  • ファッション分野の画像検索用データセット
  • 同じ商品の異なる画像が含まれており, ショップからのものとユーザーからのもの存在
  • しかし, 商品にはテキスト属性がないため, マルチモーダルとしては扱えない

SIGIR eCom 2020 multi-modal product classification and retrieval challenge

  • 商品の説明と画像が含まれているが,商品照合のためのグランドトゥルースが含まれていない.
  • (to the best of our knowledge) 製品の画像と説明文,およびマッチング製品に関する情報の両方を含むERデータセットは,現在のところ存在しない.

提案手法

データセットの拡張

スクリーンショット 2021-09-24 15 30 49

The underlying common crawl1 snapshot dates back to November 2017 and does not contain additional data apart from the HTML documents, hence it is not initially clear to which amount the URLs are still valid and whether the images are still available.

WDCデータセットを画像データで拡張.
基礎となる共通のクロール1スナップショットは2017年11月時点であり, HTML文書以外の追加データを含んでいないため, どの程度までURLが有効なのか, 画像がまだ利用可能なのか, 明らかではない.
画像の取得を次のような手順で行った

  1. 文書を解析して, 画像のURLとその画像が製品に属することを示す注釈を含むHTMLタグを探す(ウェブサイトから無関係な画像を収集することを避けるために用いる)

  2. URLを照会して商品ごとに最大5枚の画像を取得し, インターネット上のarchive2 に画像がないかどうかを問い合わせる手順を用いる.

結果, WDCコーパスから10M(63%)の製品の画像を集めたデータベースを作成. しかし, 集められた画像データは決してきれいなものではない. (正しい商品ではなく, ロゴやプレースホルダー, 全く別のもの, ピクセル単位で重複など)
表1は, 靴カテゴリのクローリング結果. 最初の評価は画像を完全にカバーし,間違った画像やノイズの多い画像データを含まないデータで行いたいので,手動で画像を検証し,必要な特性を持つ評価サブセットを作成し,それを小さくしている.

マッチング手法

画像データをproduct matchingに用いるアプローチ[14] との大きな相違点はImage embeddingをマッチングタスクにおいて直接学習するか否かである. 先行研究ではImageNet or カテゴリーを学習したモデルを固定し特徴抽出機としてのみ扱っていた.

スクリーンショット 2021-09-24 15 19 05

DeepMatcherをベースにし, 全体の構造や構成要素はそのままに, 画像データの処理機能を追加.

Attribute-level embedding

  • 事前に学習した単語モデルを適用して,属性値の各単語(またはn-gram)を単語ベクトルに変換
  • 出力は, 入力された単語の数と同じ長さのエンベッディングのリスト
  • これらのリストは各レコードごとに異なる長さであるため, 2つの製品の属性を比較する前にそれらを整列させる必要がある

Attribute summarizer

  • (例えば) RNNのような, あらゆる種類のシーケンスからベクトルまでのモジュールであることが可能
  • 情報を圧縮し, 冗長な単語や意味のない単語をフィルタリングして, 属性を固定長のベクトルとして表現

Image processing module

  • オプションの前処理ステップで, 画像内の主要な形状を検出し, それに応じて画像を切り取り(画像のスペースや非情報領域を減らす)
  • 例えば, 物体の検出やsegmentationを行う方法があるが, カテゴリごとのbboxやmaskが必要となり複雑になる(どのように実装されているかは不明)

Image embedding

  • 学習済みのResnet50を使用
  • 全結合層を追加して,他の特徴ベクトルの次元にダウンサンプル
  • 学習時間を短縮するため, 最初の6層を固定
  • この研究では製品ごとに1枚の画像しか使用していないため, 画像のsummarizerはない

これらのステップを経て, 画像やテキストの属性から得られる特徴ベクトルは同じ次元であり, 同等に扱うことができる

Attribute comparator

  • 同じ属性の両方の商品の特徴ベクトルを入力として, 類似性表現を作成
  • DeepMatcherでは, 両ベクトルの絶対距離, 連結, またはベクトルを返すその他のメソッドを使用

Classifier

  • 2層のFC層

検証

スクリーンショット 2021-09-24 15 19 21

マッチング品質はprecision, recall, f1 scoreを測定.

  • 画像のみを使用した場合, 再現率は90%以上, fスコアは73%となり, 画像がマッチングに有用な情報を提供していることがわかる
  • テキスト属性のみを使用した場合は, タイトルと説明文の両方を使用した場合よりも, タイトル属性を使用した場合の方が効果的である. (説明文がノイズや欠落しているケースが多いため, 有用性が低いことが影響していると考えられる)
  • テキスト属性に加えて画像を使用することで, 最大で約2%recallが向上し, f1 scoreも向上
  • タイトルと画像の類似性を組み合わせた場合には85.6%という最高のf1 scoreが得られたが, 画像を使用した場合には0.4%というわずかな改善のみであった
  • タイトルと説明文の組み合わせでは, 画像を使用することで2.1%の改善

新規性

  • マルチモーダルERのベンチマークデータセットの作成
  • DeepMatcherフレームワークの画像データを使用するための拡張
  • システムの評価

date

Sep. 24th, 2021

Learning from Synthetic Shadows for Shadow Detection and Removal

INFO

author

Naoto Inoue, Student Member, IEEE, and Toshihiko Yamasaki, Member, IEEE

affiliation

conference or year

IEEE TCSVT 2020

link

arXiv
実装

概要

スクリーンショット 2021-08-19 14 34 51

影の除去は,CVやCGにおいて必須のタスクである.近年のshadow removal手法は,shadow/shadow-freeまたはshadow/shadow-free/mask imageの実ペアデータを用いて,畳み込みニューラルネットワーク(CNN)を学習させるものである.しかし,大規模かつ多様で正確なデータセットを得ることは大きな課題であり,shapeやintensityが未知の影画像に対する学習モデルの性能を制限している.この研究では新しい大規模なshadow/shadow-free/matt imageトリプレットのデータセットと, それを合成するためのパイプラインSynShadowを提案. Shadow-free, matt image, および影の減衰パラメータの任意の組み合わせを与えて, 影の画像を合成. SynShadowで学習したShadow Removalモデルは, いくつかのベンチマークにおいて, 様々な形状や強度の影を除去するのに十分な性能を発揮することを実証. さらに, SynShadowで事前に学習したモデルをfine-tuningするだけで, 既存の影の検出・除去モデルが改善されることも示した.

実世界で得られたデータはシーンの数や種類が大幅に制限され, ノイズや偏りを引き起こす可能性がある. このようなデータから学習された影除去モデルは,Mask-ShadowGAN で議論されているように,汎化性能が低い.他にも,太陽光の下で影のない領域が変化しないという保証はないため,ペアの学習画像の信頼性が低い. この課題を克服するために,以下のいくつかのアプローチが提案されている.

  • Mask-ShadowGAN
    unpairで学習(CycleGAN等).最適化には制約があり,しばしば性能が低くなる.

  • SP+M(Shadow Image Decomposition)
    既存のデータセットを補強.影をわずかに暗くしたり明るくしたりするだけなので,このアプローチで生成される画像の種類は限られている.

  • DHAN
    影のない画像とマスク画像のペアの組み合わせを与えて,新しい影画像を得る.しかし,生成される影の種類は限られいて,特に影の強度の点で限界がある.これは,変換のマッピングがデータドリブンな方法で完全に学習されるためである.

この研究では,大規模かつ多様でありながら現実的なデータセットを生成.前述の影除去における課題に取り組んでいる.shadow imageは,

  1. 背景となるshadow-free image
  2. シャドウが観察される場所を示すグレースケールのマット画像
  3. 減衰特性を示すパラメータ

の3つの要素で構成される.従来の合成手法 DHAN と比較して,これらの要素が互いに独立していることが重要であることがわかった.iii)については,物理的に根拠のある影の照明モデルThe Shadow Meets the Mask: Pyramid-Based Shadow Removal を拡張.このモデルのパラメータセットをランダムにサンプリングするだけで,多様で現実的な影の減衰を得ることができるように,モデルを変換する.

  • shadow/shadow-free/matt imageの大規模なデータセットであるSynShadowと, 多様でリアルなトリプレットを合成するパイプラインの提案.

  • SynShadowは, 影の検出・除去のための様々な既存のCNNモデルを微調整することで改良し, より困難な入力に対してロバストな影の除去を実現するために有用であることを実証.

提案手法

スクリーンショット 2022-08-04 17 33 57

point pの放射強度(intensity)がI(p),放射輝度(lumminance)が L(p),反射率(reflectance)がR(p).
* λは対応するwave length

スクリーンショット 2022-08-04 17 34 02

dが一次光(primary),aが環境光(ambient).

スクリーンショット 2022-08-04 17 40 26

スクリーンショット 2022-08-04 17 33 13

オブジェクトによって一次光が遮られているのでIdarkは上記のようになる. ここでa(p)は減衰係数.

スクリーンショット 2022-08-04 17 33 19

写真内の画素における実際の色は, (5)の両辺をカメラの応答関数で積分することで得られる.これはlitとdarkの強度関係のアフィン性を変えないと仮定している.そのため式は以下のようになり,
スクリーンショット 2022-08-04 17 44 23

αとγは影の減衰特性のパラメーターで物質の表面やライティングなどによって変わる.ノイズの存在や表面の反射率のばらつきにより完全ではないものの,実際の写真によく適用できることが実証されている.

スクリーンショット 2022-08-04 17 47 59

スクリーンショット 2022-08-04 17 48 05

αとγを(l0, l1, l2, s1)の4つに変換する.ISTD+やSRDデータセットから,影領域とそれ以外の領域が(l0, l1, l2)が互いに相関することがわかった.
l0>l1>l2となるのは空の青い光(環境光)が原因であると考えられる.

また,domain randomizationから着想を得て,パラメータをサンプルする.
スクリーンショット 2022-08-04 17 53 01

検証

新規性

議論,展望

Comment

date

Water-Filling: An Efficient Algorithm for Digitized Document Shadow Removal

INFO

author

Seungjun Jung1, Muhammad Abul
Hasan2, and Changick Kim1

affiliation

1KAIST, Daejeon, Republic of Korea
2University of South Australia, Adelaide, SA, Australia

conference or year

ACCV 2018

link

arXiv
実装

概要

スクリーンショット 2021-11-15 22 01 03
本研究では, デジタル化された文書の影アーティファクトを除去することで, 証明を補正する新しいアルゴリズムを提案. 各画素の輝度値を用いて, 入力された文書のtopographicなsurfaceを作成する. 次にimmersion processをシミュレーションすることで, 文書上の影を推定. immersion processのシミュレーションはiterative updateルールを持つ拡散方程式を用いてモデル化される. 影を推定した後, Lambertian surfaceモデルを用いて文書を再構築する. 提案した手法は木々恣意照明条件の下で撮像された文書のセットに対して, 有効な照明補正効果をもたらし, SoTAを上回った.

従来手法では, 背景の影を推定することから始まり, 次に文書表面再構成モデルを使用して影を除去する.これらの戦略は、mask-and-interpolationアプローチとwithout-mask-interpolationアプローチの2つの主要なカテゴリーに分けることができる. 前者のアプローチでは, エッジ検出や二値化法を用いて, 文書上のテキストや写真の領域の位置を把握し, 次に文書の表面上のテキスト領域とその隣接領域を覆うマスクを適用する.最後に, マスクされた領域を補間して, デジタル化されたドキュメントの背景の照明を補正する. 後者の手法では, 文書画像パッチのカラーヒストグラムを用いて, 背景に属する局所領域を集約し, 残りの領域を補間して影領域をする. よく知られている表面モデルを用いて影を除去することは簡単な作業であるため, 文献に記載されているほとんどの研究は, 背景をできるだけ正確に抽出することだけに集中していた.

本論文では, デジタル化された画像ピクセルの輝度値を用いて, 地形面を構築する. 次に, 拡散方程式を用いて流体の力学を表現したモデルを地形面に適用し, 文書の影を推定する. そして, 影を推定した後, lambertian表面モデルを用いてデジタル化された文書を再構成し, 影を除去することで照明を補正する. 提案されたアルゴリズムを設計するにあたり, 流域変換に適用されている技術に影響を受けている.

提案手法

スクリーンショット 2021-11-15 22 00 52

検証

新規性

議論,展望

提案手法の限界は, 画像の境界に接続されたテキストや写真が影とみなされ, 処理後に除去されてしまうことである. しかし, 文書画像の中で重要なテキストや写真は通常, 画像の境界に接続されていないため, これは重大な問題ではないことがわかった. また, 鏡面反射を除去する際には, 背景層を正確に推定しても, 前景層にある点の元の輝度値が露出過多で大きく損なわれると. ランベルト表面モデルを用いてその点を再構成することが困難になるため, 満足のいく結果が得られないことが多いことも指摘しておきたい.

Comment

date

ShadowDiffusion: When Degradation Prior Meets Diffusion Model for Shadow Removal

INFO

author

Lanqing Guo1, Chong Wang1, Wenhan Yang2, Siyu Huang3, Yufei Wang1, Hanspeter Pfister3, Bihan Wen1*

affiliation

1Nanyang Technological University, Singapore
2Peng Cheng Laboratory,
China 3Harvard University, USA

conference or year

link

arXiv
実装

概要

Shadow Removalは依然として境界のアーティファクトに課題がある.

Shadow Diffusionと呼ばれる新しいShadow Degradationモデルを提案.
劣化事前分布と拡散生成事前分布を用いて所望の出力をrefineする.ShadowDiffusionは拡散生成器の補助タスクとして,推定されたShadow maskを段階的にRefineしてさらに正確で頑健な影なし画像生成に利用する.

この研究は影除去タスクのためにDiffusionModelを利用した最初の研究である.

SoTAと比較してPSNRがSRDデータセットに対して31.69db => 34.73dbに改善された.

提案手法

既存手法の多くは影除去のためのdiscriminative モデルの学習に焦点を当てていたが,自然画像の基本的な分布のモデル化は,その復元プロセスにおいて見落とされている.そのため影除去の結果において,境界のアーティファクトなどが残ってしまう.

敵対的損失はこの問題を軽減することができるが,これらの手法は学習中に調整が必要であり,特定の視覚的特徴やデータ分布にorverfitしてしまうため,新しいコンテンツやアーティファクトに対してうまく動作しない可能性がある.

近年low-level visionタスクにおいてDDPMなどのDiffusionモデルが注目されている.

スクリーンショット 2023-12-17 16 12 59 Degradation Estimation Networkには事前学習済みUformerを使用している.

検証

ISTD, ISTD+, SRDで比較.

スクリーンショット 2023-12-17 15 37 58 unrolling有無の比較.

新規性

  • 初の影除去のための拡散に基づくモデルを提案.シャドウフリー画像と精緻なシャドウマスクを共同で追求するために,新しいDynamic Mask-aware Diffusion Model (DMDM)を導入し,不正確なマスク推定でも頑健な影除去を実現.

  • unrollingにヒントを得た拡散サ ンプリング戦略を提案し,DMDMの本質的な反復処理に影劣化の事前分布を明示的に統合する.

  • 公開されているISTD,ISTD+,SRDデータセットに対するextensiveな実験結果から,提案するShadowDiffusionは他のSoTA手法に大きな差をつけている.

  • 本手法は一連のimage enhancementタスクに一般化することができる.

議論,展望

Comment

date

Style-Guided Shadow Removal

INFO

author

Jin Wan1, Hui Yin1, , Zhenyao Wu2, Xinyi Wu2, Yanting Liu3, and Song Wang2

affiliation

1Beijing key lab of traffic data analysis and mining, Beijing Jiaotong University
2Department of Computer Science and Engineering, University of South Carolina
3Key Laboratory of Beijing for Railway Engineering, Beijing Jiaotong University

conference or year

ECCV2022

link

paper
実装

概要

提案手法

検証

新規性

議論,展望

Comment

date

Nov. 9th 2022

Towards Ghost-free Shadow Removal via Dual Hierarchical Aggregation Network and Shadow Matting GAN

INFO

author

Xiaodong Cun,1 Chi-Man Pun,1∗ Cheng Shi1,2

affiliation

1 Department of Computer and Information Science, University of Macau, Macau, China
2 School of Computer Science, Xi’an University of Technology, Xi’an, China

conference or year

AAAI2020

link

arXiv
実装

概要

影の除去は, シーン理解のために必要不可欠なタスクである. (例えば, 物体の検出や追跡など, 多くのコンピュータビジョンタスクの性能を低下させる可能性がある. )多くの研究では, 画像内容のマッチングのみを考慮しているため, 影の領域での色の不一致や, 影の境界でのartifactsなどの二種類のghostが発生することが多い.
この研究では以下の2つの方法でこれらの課題に取り組んでいる.

  • Dual hierarchically aggregation network(DHAN)と名付けられたネットワークを提案
  • shadow maskとshadow-freeな画像からリアルなshadow mattingを合成するshadow matting GAN(SMGAN)を提案
    実験により提案手法が実際のデータセットと、合成されたデータセットにおいて既存のSoTAモデルお大きく上回ったことを示した.
    image

既存の深層学習に基づく手法において、大きく2つの欠点がある.

  • 既存のネットワーク構造は, shadow removalのために注意深く設計されていない
    shadow removalのgoalは影の画像から色を復元することであるが, 影の境界もvisual qualityにおいて重要な役割を持つ.
    • DeShadowNetにおいて事前学習済みのVGG19を用いて、マルチコンテキスト特徴から影のmattingのみを学習していて, 境界にartifactgでる.
    • DSCにおいては方向性を考慮したattentionモデルを用いて学習していて, 方向性の詳細をよく捉えているが, これもまた影の境界を多く保持している.
  • 既存のデータセットはユニークな背景画像が 限られていて, 高品質なデータセットが不足している. このように限られたシーンしか存在しないことがshadow imageとshadow-free間の色の生合成に大きな影響を与えている.

提案手法

shadow imageとshadow-free imageは同じsemantic情報を共有しているため, 影の除去においてshadow imageだけを学習するだけで良いという観察に基づいて新たなネットワークを提案.
context aggregation network(CAN)[Chen, Xu, and Koltun2017]をベースにしている. このネットワーク構造はnonlocal dehazingやL0スムージングなどに適していることがわかっている. このネットワーク構造では, ダウンサンプリングを行わないため, 低レベルの詳細部が保存される. shadow removalは低レベルのタスクに似ているが影の領域を学習する必要があるので, Partial convやGated convを使うという解決策が可能性としてあるが, これらはinpaintingのために設計されている. なので影を特別に学習し, 低レベルの詳細部を保持するために, 階層的なレイヤーを集約するように, 複数前のレイヤーから特徴をagregationしてattention module を構築した. 特徴をツリー状の構造に統合. 図はかなり簡略化されているので式(1), (2)を参照した方が理解しやすい.
image

Squeeze-and-excitation block (Hu, Shen, and Sun 2018) to re-weight the importance of each feature channel.
image

loss functions

perceptual loss

image

BCE loss

image

GAN loss

image

Shadow Matting

既存のデータセットは100以上の異なるシーンと10以上のユニークな影の種類しか含まれていない. また, 環境光は非常に早く変化するので, フラッシュでも同じ光の状態で影がある/影のないペアを撮影することは不可能である. shadow/shadow-free image間で変換される光の不確実性は, ネットワークの精度に影響を与える. これらの影響より, 限られたシーンでの訓練はshadow/shadow-freeの領域で色の不一致が発生する. そこでGANを介してshadow-freeな画像を合成し, データセットを作成.

pix2pixと同じようにペア画像として訓練, SMGANの構造はCycleGANを同じ. 実験の結果このような設定は, 影の除去と検出のタスクに十分であることがわかった.
image

検証

Removal

定性評価

image
ISTD, ISTDの合成画像で学習させ, SRDで評価. 合成画像を含めた方がうまくいっている.
image

定量評価

(S) は影の領域における評価, (NS)はnon-shadowの領域における評価
image

Ablation Study

image
image

Detection

定性評価

影の検出だけで学習させた場合.
image

定量評価

back-boneで良いのを試せば精度が上がる可能性がある.
image

影の合成の評価

image

Attention

image

新規性

  • Dual Hierarchical Aggregation Network (DHAN)の提案. 提案されたネットワークは、拡張されたマルチコンテキストの特徴と注目度をそれぞれ階層的に集約する.
  • 現在のペアの影のデータセットを用いて, Shadow Matting GANを提案し, 新しいデータセットを提案, 拡張されたデータセットを用いて学習.
  • 実験によって既存のSoTAモデルと比較して優れた性能が示された.

議論,展望

Comment

既存手法だと新たにBlenderなど使って新しい影を合成したデータセットを用いるなどはよく見かけた.
影を合成してデータセットを作成することを考えた際に, そもそものデータに依存してしまうのでは.. と思っていたがどうやら有効らしい. GANでのaugmentationが有効な例と考えることができる (?)

実際Colabでコードを動かしてみたが, やはりデータセットのドメイン外だとうまくいかないことが多そう. ドメインギャップにどう対応するかが今後の課題になりそう. 他にも, 例として階段などに影が落ちている場合などの影の除去は難しそう.

ゲーム内での合成を確認してみる. ↓
Sidorov (2019), Conditional gans for multi-illuminant color constancy: Revolution or yet another approach?

date

May 19th, 2021

BEDSR-Net: A Deep Shadow Removal Network from a Single Document Image

INFO

author

Yun-Hsuan Lin, Wen-Chin Chen, Yung-Yu Chuang*

affiliation

National Taiwan University

conference or year

CVPR 2020

link

Paper
実装

概要

image

 文書画像の影を除去する手法を提案. 既存の文書画像の影の除去アルゴリズムの多くは, 手作業で作成されたヒューリスティックを使用しており, 異なる特性を持つ文書にはロバストではない. この手法ではグローバルな背景色を推定し, 背景画素と非背景画素の空間分布に関する情報をアテンションマップにエンコードすることで影を効果的に除去する.
 また, 合成した画像で学習したモデルが実際の写真に対しても有効であることを示し, 文書の影を合成した画像の大規模なセットを, 対応する影のない画像と影のマスクとともに提供. 定量的, 定性的にも既存の手法を凌駕することを示した.

提案手法

 DSC, DeshadowNet, ST-CGANなどの既存手法は自然画像の影の除去には有効であるが,文書画像に特化して設計されたものではない.そのため文書画像の影除去に対する性能は文書画像に対して再訓練を行っても最適ではない.
 本論文では,1枚の文書画像から影を除去するための初めてのディープラーニング手法, BEDSR-Net (Background Estimation Document Shadow Removal Network)を提案.BEDSR-Netはback groundのカラーを予測し, attention mapを抽出するBE-Net(Background Estimation Network), 影を除去するSR-Net(Shadow Removal Network)から構成される.
image
 BE-Netは4つのConvolutions, GAP, fully connected layerで構成. GAPを用いることで異なるサイズの入力に対応可能.
BE-Netの最後の畳み込み層の特徴マップにGrad-CAMを適用してattention mapを抽出.推定されたattention mapはまた, 影の位置に関する手がかりを明らかにし影マスクの役割を果たすことができる. SR-NetはGeneratorにU-Net, DiscriminatorにPatchGANを採用.

データセット

Synthetic Document Shadow Removal Dataset (SDSRD)

 大きなバリエーションを持つ大量の文書画像のセットを持つため, SDSRDを作成. BlenderとPythonスクリプトを用いて文書画像を合成. PRImAレイアウト解析データセットから970枚の文書画像を収集し, 各文書について異なる照明条件とオクルーダーを用いて複数のシャドウ画像を合成. 合計8,309枚合成した.

Real document shadow removal dataset(RDSRD)

 よりバリエーションのある実画像での評価のため, RDSRDを収集. データセットは, 紙, 新聞, スライドを含む25の文書の540枚の画像で構成. 異なる照明条件とオクルーダーの下で撮影.

検証

定量評価

PSNR, SSIM, またOCRで読み取った際のレーベンシュタイン距離を比較.
image
ほとんどのデータセットにおいて既存手法を凌駕する性能を発揮. またBE-Netを取り入れたST-CGAN, ST-CGAN-BEの性能からBackground estimation moduleが重要な役割を果たしていること, また比較からattention mapがshadow maskを生成するより優れた性能が発揮されていることが確認できる.
image
内容をよく保持していることが比較からわかる.

定性評価

image

新規性

  • 本研究では, 文書画像の特徴的な特性を探索することで, 背景色とattention mapを学習. これらの情報は,画像品質の向上やモデルパラメータの削減に有効であることがわかった. また, attention mapを探索することで,学習に影のマスクを必要としないため学習データ収集の手間が軽減され, 不正確なマスクのリスクを低減することを可能にした.

  • 影のある画像, 影のない画像, 影のあるマスクの3つの画像からなる大規模なデータセットを提供.

  • 様々な研究グループが収集した様々な特徴を持つ実画像を用いて, 合成画像上で学習したモデルが実画像に対しても有効であることを示した.

議論,展望

将来的には, unpaired training, より複雑な背景を持つ文書の取り扱い, 背景推定モジュールの文書レイアウト認識への適用などを検討.

Comment

date

August 5th, 2020

Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers

INFO

author

Sixiao Zheng1  Jiachen Lu 1  Hengshuang Zhao2  Xiatian Zhu3  Zekun Luo 4 Yabiao Wang4
 Yanwei Fu 1  Jianfeng Feng1  Tao Xiang3, 5 Philip H.S. Torr2  Li Zhang1

affiliation

1 University  2University of Oxford  3University of Surrey
4Tencent Youtu Lab  5Facebook AI

conference or year

link

arXiv
実装

概要

x1
x2

Most recent semantic segmentation methods adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract/semantic visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated/atrous convolutions or inserting attention modules. However, the encoder-decoder based FCN architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating semantic segmentation as a sequence-to-sequence prediction task. Specifically, we deploy a pure transformer (i.e., without convolution and resolution reduction) to encode an image as a sequence of patches. With the global context modeled in every layer of the transformer, this encoder can be combined with a simple decoder to provide a powerful segmentation model, termed SEgmentation TRansformer (SETR). Extensive experiments show that SETR achieves new state of the art on ADE20K (50.28% mIoU), Pascal Context (55.83% mIoU) and competitive results on Cityscapes. Particularly, we achieve the first (44.42% mIoU) position in the highly competitive ADE20K test server leaderboard.

最近のセマンティックセグメンテーション手法の多くは、エンコーダー-デコーダー方式の完全畳み込みネットワーク(FCN)を採用している。エンコーダーは、空間分解能を徐々に下げていき、より大きな受容野を持つ抽象的・意味的な視覚的概念を学習する。セグメンテーションには文脈のモデル化が重要であるため、最近では、拡張/非拡張の畳み込みや、注意モジュールの挿入などにより、受容野を大きくすることに重点が置かれている。しかし、エンコーダ・デコーダベースのFCNのアーキテクチャは変わっていません。本論文では、意味分割を配列から配列への予測タスクとして扱うことで、別の視点を提供することを目的としています。具体的には、純粋な変換器(つまり、畳み込みや解像度の低下を伴わないもの)を用いて、画像をパッチのシーケンスとしてエンコードします。変換器の各層でグローバルコンテキストがモデル化されているため、このエンコーダーとシンプルなデコーダーを組み合わせることで、強力なセグメンテーションモデル(SEgmentation TRansformer: SETR)を実現することができます。大規模な実験の結果、SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)で新たな技術水準を達成し、Cityscapesでは競争力のある結果を得ました。特に、競争の激しいADE20Kテストサーバのリーダーボードでは、1位(44.42% mIoU)を達成しています。

37] の研究以来,既存の意味論的セグメンテーションモデルは,完全畳み込みネットワーク (FCN) に基づくものが主流となっている.標準的なFCNセグメンテーションモデルは、エンコーダーとデコーダーの構成になっている。エンコーダーは特徴表現の学習を行い、デコーダーはエンコーダーから得られた特徴表現をピクセルレベルで分類する。この2つのうち、特徴表現の学習(つまりエンコーダ)が最も重要なモデルコンポーネントであることは間違いない[8, 60, 57, 29]。エンコーダは、画像理解用に設計された他の多くのCNNと同様に、積み重ねられた畳み込み層で構成されている。計算コストの問題から、特徴マップの解像度は徐々に下げられ、エンコーダーは受容野を徐々に広げながら、より抽象的で意味的な視覚的概念を学習することができる。このような設計は、翻訳の等変性とローカリティという2つの利点があるために人気がある。前者は、画像処理の性質をよく考慮しており[58]、未見の画像データに対するモデルの一般化能力を支えています。一方,後者は,空間的にパラメータを共有することで,モデルの複雑さを制御します。しかし、この方法では、制約のないシーン画像のセマンティック・セグメンテーションに不可欠な長距離依存情報の学習が、受容野がまだ限られているために困難になるという根本的な限界があります。

この限界を克服するために,最近,いくつかのアプローチが導入されている.一つのアプローチは,畳み込み演算を直接操作することである.これには,大きなカーネルサイズ[41],アトラス・コンボリューション[23, 8],イメージ/フィーチャ・ピラミッド[60]などがある.もう1つのアプローチは,FCNアーキテクチャに注意モジュールを統合することである.このようなモジュールは,特徴マップ内のすべてのピクセルのグローバルな相互作用をモデル化することを目的としている[48].セマンティック・セグメンテーション[26, 30]に適用する場合,一般的なデザインは,FCNアーキテクチャにアテンション・モジュールを組み合わせ,アテンション・レイヤーを上部に配置することである.いずれのアプローチでも、標準的なエンコーダ・デコーダのFCNモデルのアーキテクチャは変わりません。最近では、畳み込みを完全に排除して、代わりにアテンション・アローンモデルを導入する試みもなされています[47]。しかし,畳み込みを行わなくても,FCNモデルの構造は変わらない.すなわち,エンコーダは入力の空間解像度をダウンサンプリングして,意味クラスの識別に有用な低解像度の特徴マッピングを作成し,デコーダは特徴表現をアップサンプリングして完全解像度のセグメンテーションマップを作成するのである.

本論文では、セマンティックセグメンテーションモデルの設計を見直し、代替案を提示することを目的としている。具体的には、空間解像度を徐々に下げていく積層型の畳み込み層ベースのエンコーダを純粋な変換器に置き換えることを提案する[45]。その結果、SEgmentation TRansformer(SETR)と呼ばれる新しいセグメンテーションモデルが誕生する。この変換器だけのエンコーダは,入力画像を学習したパッチ埋め込みで表現された画像パッチのシーケンスとして扱い,識別的な特徴表現の学習のためにグローバルな自己注視モデルを用いてシーケンスを変換する.具体的には、まず、画像を固定サイズのパッチのグリッドに分解し、パッチのシーケンスを形成します。各パッチの平坦化されたピクセルベクトルに線形埋め込み層を適用して、特徴埋め込みベクトルのシーケンスを得て、これを変換器の入力とする。エンコーダの変換器で学習した特徴をもとに、デコーダを使って元の画像の解像度を復元します。重要なのは、空間的な解像度のダウンサンプリングではなく、エンコーダ変換器の各層でグローバルなコンテキストモデリングを行うことで、セマンティックセグメンテーション問題にまったく新しい視点を提供することである。

この純粋な変換器の設計は、自然言語処理での大きな成功に触発されたものである[45, 49, 14, 13, 51]。さらに最近では、純粋な視覚変換器(ViT)[17]が画像分類タスクに有効であることが示されています。これは、従来の積層型畳み込み層(CNN)の設計に疑問を投げかけ、画像の特徴は必ずしも空間解像度を下げて局所的な文脈から大域的な文脈へと段階的に学習する必要がないことを示す直接的な証拠である。しかし、純粋な変換器を画像分類から、空間的な位置に敏感なタスクであるセマンティックセグメンテーションに拡張することは自明ではありません。我々のSETRは、モデル設計に新たな視点を提供するだけでなく、多くのベンチマークで最先端の成果を達成することを実証的に示す。

本論文では、以下のような貢献をしています。(1) 画像のセマンティック・セグメンテーション問題を、シーケンス・ツー・シーケンス学習の観点から再定式化し、支配的なエンコーダー・デコーダーのFCNモデル設計に代わる方法を提供する。(2)その具体例として、変換器の枠組みを利用して、画像を逐次化することにより、完全に気配りのできる特徴表現エンコーダを実現する。(3)自己注意型の特徴表現を徹底的に検証するために、複雑さの異なる3つのデコーダデザインを紹介する。大規模な実験により、我々のSETRモデルは、注目モジュールの有無に関わらず、様々なFCNと比較して優れた特徴表現を学習することができ、ADE20K(50.28%)、Pascal Context(55.83%)では新たな技術水準を達成し、Cityscapesでは競争力のある結果を得ることができました。特に、競争の激しいADE20Kテストサーバーのリーダーボードでは、我々のエントリーが1位(44.42% mIoU)になっています。

Since the seminal work of [37], existing semantic segmentation models have been dominated by those based on fully convolutional network (FCN). A standard FCN segmentation model has an encoder-decoder architecture: the encoder is for feature representation learning, while the decoder for pixel-level classification of the feature representations yielded by the encoder. Among the two, feature representation learning (i.e., the encoder) is arguably the most important model component [8, 60, 57, 29]. The encoder, like most other CNNs designed for image understanding, consists of stacked convolution layers. Due to concerns on computational cost, the resolution of feature maps is reduced progressively and the encoder is hence able to learn more abstract/semantic visual concepts with a gradually increased receptive field. Such a design is popular due to two favourable merits, namely translation equivariance and locality. The former respects well the nature of imaging process [58] which underpins the model generalization ability to unseen image data. Whereas the latter controls the model complexity by sharing parameters across space. However, it also raises a fundamental limitation that learning long-range dependency information, critical for semantic segmentation in unconstrained scene images [2, 50], becomes challenging due to still limited receptive fields.

To overcome this aforementioned limitation, a number of approaches have been introduced recently. One approach is to directly manipulate the convolution operation. This includes large kernel sizes [41], atrous convolutions [23, 8], and image/feature pyramids [60]. The other approach is to integrate attention modules into the FCN architecture. Such a module aims to model global interactions of all pixels in feature map [48]. When applied to semantic segmentation [26, 30], a common design is to combine the attention module to the FCN architecture with attention layers sitting on the top. Taking either approach, the standard encoder-decoder FCN model architecture remains unchanged. More recently, attempts have been made to get rid of convolutions altogether and deploy attention-alone models [47] instead. However, even without convolution they do not change the nature of the FCN model structure: an encoder downsamples the spatial resolution of the input, developing lower-resolution feature mappings useful for discriminating semantic classes, and the decoder upsamples the feature representations into a full-resolution segmentation map.

In this paper, we aim to provide a rethinking to the semantic segmentation model design and contribute an alternative. In particular, we propose to replace the stacked convolution layers based encoder with gradually reduced spatial resolution with a pure transformer [45], resulting in a new segmentation model termed SEgmentation TRansformer (SETR). This transformer-alone encoder treats an input image as a sequence of image patches represented by learned patch embedding, and transforms the sequence with global self-attention modeling for discriminative feature representation learning. Concretely, we first decompose an image into a grid of fixed-sized patches, forming a sequence of patches. With a linear embedding layer applied to the flatten pixel vectors of every patch, we then obtain a sequence of feature embedding vectors as the input to a transformer. Given the learned features from the encoder transformer, a decoder is then used to recover the original image resolution. Crucially there is no downsampling in spatial resolution but global context modeling at every layer of the encoder transformer, thus offering a completely new perspective to the semantic segmentation problem.

This pure transformer design is inspired by its tremendous success in natural language processing [45, 49, 14, 13, 51]. More recently, a pure vision transformer or ViT [17] has shown to be effective for image classification tasks. It thus provides direct evidence that the traditional stacked convolution layer (i.e., CNN) design can be challenged and image features do not necessarily need to be learned progressively from local to global context by reducing spatial resolution. However, extending a pure transformer from image classification to a spatial location sensitive tasks of semantic segmentation is non-trivial. We show empirically that our SETR not only offers a new perspective in model design, but also achieves new state-of-the-art on a number of benchmarks.

The following contributions are made in this paper: (1) We reformulate the image semantic segmentation problem from a sequence-to-sequence learning perspective, offering an alternative to the dominating encoder-decoder FCN model design. (2) As an instantiation, we exploit the transformer framework to implement our fully attentive feature representation encoder by sequentializing images. (3) To extensively examine the self-attentive feature presentations, we further introduce three different decoder designs with varying complexities. Extensive experiments show that our SETR models can learn superior feature representations as compared to different FCNs with and without attention modules, yielding new state of the art on ADE20K (50.28%), Pascal Context (55.83%) and competitive results on Cityscapes. Particularly, our entry is ranked the 1st (44.42% mIoU) place in the highly competitive ADE20K test server leaderboard.

提案手法

検証

新規性

The following contributions are made in this paper: (1) We reformulate the image semantic segmentation problem from a sequence-to-sequence learning perspective, offering an alternative to the dominating encoder-decoder FCN model design. (2) As an instantiation, we exploit the transformer framework to implement our fully attentive feature representation encoder by sequentializing images. (3) To extensively examine the self-attentive feature presentations, we further introduce three different decoder designs with varying complexities. Extensive experiments show that our SETR models can learn superior feature representations as compared to different FCNs with and without attention modules, yielding new state of the art on ADE20K (50.28%), Pascal Context (55.83%) and competitive results on Cityscapes. Particularly, our entry is ranked the 1st (44.42% mIoU) place in the highly competitive ADE20K test server leaderboard.

議論,展望

Comment

date

June 4th, 2021

Towards Open World Object Detection

INFO

author

K J Joseph†‡, Salman Khan‡*, Fahad Shahbaz Khan‡◇, Vineeth N Balasubramanian

affiliation

Indian Institute of Technology Hyderabad, India Mohamed bin Zayed University of AI, UAE
*Australian National University, Australia Linkoping University, Sweden

conference or year

CVPR 2021 (Oral)

link

arXiv
実装

概要

スクリーンショット 2021-08-23 11 20 19

人間には、環境中の未知のオブジェクトインスタンスを識別する自然な本能があります。これらの未知のインスタンスに対する本質的な好奇心は、対応する知識が最終的に利用可能になったときに、それらについて学ぶのに役立ちます。このような背景から、我々は「Open World Object Detection」という新しいコンピュータビジョン問題を提案する。この問題では,モデルが以下のことを行うことが求められる.すなわち,

1)これまでに紹介されていないオブジェクトを,明示的な監督なしに「未知」として識別すること,
2)対応するラベルを徐々に受け取ったときに,以前に学習したクラスを忘れることなく,識別された未知のカテゴリを段階的に学習すること.

我々は、この問題を定式化し、強力な評価プロトコルを導入して、「ORE」と呼ぶ新しいソリューションを提供します。OREは、コントラストクラスタリングとエネルギーベースの未知の識別に基づいています。我々の実験的評価とアブレーションの研究は、オープンワールドの目的を達成するためのOREの有効性を分析しています。興味深い副産物として、未知のインスタンスを識別して特徴づけることで、インクリメンタルな物体検出の設定において混乱を減らすことができ、方法論的には余分な努力をすることなく、最先端の性能を達成することができました。私たちの研究が、新たに特定された、しかし極めて重要な研究の方向性について、さらなる研究を呼び起こすことを期待しています1。

intro
深層学習は、物体検出の研究[14, 54, 19, 31, 52]を加速させました。この研究では、モデルが画像内の物体を識別し、位置を特定することを課題としています。既存のアプローチは,検出されるべきクラスがすべて学習段階で利用可能であるという強い仮定の下で動作します.この仮定を緩めると、2つの難しいシナリオが発生します。

  1. テスト画像には,未知のクラスのオブジェクトが含まれている可能性があり,それらは未知のクラスとして分類されるべきである.
  2. そのような未知のクラスに関する情報(ラベル)が利用可能になったとき、モデルは新しいクラスを段階的に学習することができなければならない。

発達心理学の研究[41, 36]によると,自分が知らないことを特定する能力は,好奇心をかきたてる鍵である。このような好奇心は,新しいことを学びたいという欲求を刺激します [9, 16].**このことから、我々は、モデルが未知のオブジェクトのインスタンスを未知のものとして識別することができ、その後、学習データが徐々に到着したときにそれらを認識することを統一的に学習するという新しい問題を提案することになった。**この問題設定を「Open World Object Detection」と呼びます。

Pascal VOC[10]やMS-COCO[32]のような標準的なビジョンデータセットにアノテーションされているクラスの数は、オープンワールドに存在する無限のクラスの数に比べて非常に少ない(それぞれ20と80)。未知のものを未知のものとして認識するには、強力な一般化が必要です。Scheirerら[57]は、これをOpen Set分類問題として公式化しています。これ以降、この困難な設定に対処するための様々な方法論(1-vs-rest SVMsや深層学習モデルを使用)が策定されています。Bendaleら[3]は、識別された新しい未知のクラスを認識するために画像分類器を追加更新することで、オープンセットをオープンワールド分類設定に拡張しています。興味深いことに、図1に見られるように、オープンワールドでの物体検出は、問題設定の難しさのために、未開拓です。オープンセットとオープンワールドの画像分類の進歩は、問題設定の根本的な違いのため、オープンセットとオープンワールドのオブジェクト検出に簡単には適応できません。**オブジェクト検出器は、未知のオブジェクトを背景として検出するように訓練されています。**多くの未知のクラスのインスタンスは、既知のオブジェクトと一緒にオブジェクト検出器に導入されています。未知のクラスのインスタンスはラベル付けされていないため、検出モデルを学習する際に、これらの未知のインスタンスを背景として明示的に学習します。**Dhamijaら[8]は,このような追加の学習信号があったとしても,最先端のオブジェクト検出器では,未知のオブジェクトが既知のクラスの1つとして分類されてしまい,しばしば非常に高い確率で誤検出されてしまうことを発見した.Millerら[43]は,ドロップアウトサンプリングを用いて,物体検出予測の不確実性の推定値を得ることを提案している.これは、オープンセットオブジェクト検出の文献の中で、唯一の査読付きの研究成果です。**我々の提案するOpen World Object Detectionは、さらに一歩進んで、新しいクラスが未知として検出され、オラクルが全ての未知のオブジェクトの中から興味のあるオブジェクトのラベルを提供した後、そのクラスを段階的に学習する。我々の知る限りでは、これは文献では試みられていない。

Open World Object Detectionの設定は、既存の閉じた世界での静的な学習の設定よりもはるかに自然です。この世界は、新しいクラスの数、種類、構成など、多様でダイナミックなものです。推論時に期待されるクラスがすべて学習時に見られると考えるのは甘いでしょう。ロボット工学、自動運転車、植物の表現型、ヘルスケア、監視などの分野で実用化されている検出システムでは、社内で学習している間に、推論時にどのクラスを期待するかについて完全な知識を得ることはできません。**このような環境で展開される物体検出アルゴリズムに期待される最も自然で現実的な動作は、未知の物体を未知と予測し、既知の物体を対応するクラスに自信を持って予測することです。**識別された未知のクラスに関する詳細な情報が得られた場合、システムは既存の知識ベースにそれらを組み込むことができるはずです。これがスマートな物体検出システムの定義であり、我々はこの目標を達成するための努力をしています。本研究の主な貢献点は以下の通りです。

  • Open World Object Detection という新しい問題設定を導入し、実世界をより詳細にモデル化します。

  • オープンワールド検出の課題を解決するために、コントラストクラスタリング、未知を考慮した提案ネットワーク、エネルギーに基づく未知の識別に基づいて、「ORE」と呼ばれる新しい手法を開発する。

  • 本研究では、物体検出器のオープンワールド特性を測定するための包括的な実験設定を導入し、競合するベースライン手法と比較して、その上で ORE をベンチマークします。

  • 興味深い副産物として、提案手法は、インクリメンタルオブジェクト検出のために設計されたものではないにもかかわらず、インクリメンタルオブジェクト検出において最先端の性能を達成しています。

related work
Open Set Classification
オープンセット分類では,学習セットで得られた知識は不完全であると考え,テストの際に新しい未知のクラスに遭遇する可能性がある.Scheirerら[58]は,既知の訓練例から離れたサンプルにラベルを付けることの性能とリスク(オープンスペースリスクと呼ばれる)のバランスを取るために,1-vs-restの設定でオープンセット分類器を開発した.後続の研究[23, 59]では,未知のクラスの場合に分類器の信頼性が薄れていくことを考慮して,確率モデルを用いてオープンセットフレームワークを多クラス分類器の設定に拡張しました.Bendale and Boult [4]は、ディープネットワークの特徴空間で未知のクラスを特定し、ワイブル分布を用いてセットリスクを推定しました(OpenMax分類器と呼ばれます)。OpenMaxの生成版は、新規のクラス画像を合成することで、[13]で提案されました。Liuら[35]は,多数派,少数派,未知のクラスが共存するロングテールの認識設定を考えた.彼らは、見たことのないクラスを未知のクラスとして識別するメトリック学習フレームワークを開発した。同様に、分布から外れたサンプル[30]や新規性のあるサンプル[48]を検出することを目的とした、いくつかの専用のアプローチがある。最近では、自己教師付き学習(Self-Supervised Learning)[46]や教師なし学習(unsupervised Learning with reconstruction)[65]がオープンセット認識のために検討されている。しかし、これらの研究では、未知のインスタンスを認識することはできるが、複数の学習エピソードに渡って自分自身を動的に増加的に更新することはできない。さらに、我々のエネルギーに基づく未知の検出アプローチは、これまでに検討されていない。

Open World Classification
[3]は,画像認識におけるオープンワールド設定を初めて提案した.彼らは,固定されたクラスのセットで学習された静的な分類器の代わりに,既知のものと未知のものが共存する,より柔軟な設定を提案した.このモデルは、両方のタイプのオブジェクトを認識することができ、未知のものに対する新しいラベルが提供されたときに、適応的にモデルを改善することができる。彼らのアプローチは、オープンスペースのリスクのバランスをとるためにクラス確率を再調整することで、オープンワールドの設定で動作するようにNearest Class Mean分類器を拡張しています。また、[47]はオープンワールドでの顔識別学習を研究しており、[64]は見たことのあるクラスの模範セットを用いて新しいサンプルと照合し、以前に知られていたすべてのクラスとの照合が低い場合には拒否することを提案している。しかし,これらは画像分類のベンチマークではテストしておらず,電子商取引のアプリケーションにおける商品分類を研究している.

Open Set Detection
**Dhamijaら[8]は,オープンセットの設定が一般的なオブジェクト検出器に与える影響を正式に研究しました.彼らは,最新のオブジェクト検出器は,未知のクラスを高い信頼度で見たクラスに分類することが多いことに気づきました.**これは,検出器が背景クラスを用いて明示的に学習されているにもかかわらず[55, 14, 33],あるいは,各クラスをモデル化するために one-vs-rest 分類器を適用しているにもかかわらず[15, 31]である.未知のクラスを拒絶するために,物体検出器における(空間的および意味的な)不確実性の尺度を開発することに焦点を当てた研究がある[43, 42, 17].例えば,[43, 42]では,SSD検出器においてモンテカルロ・ドロップアウト[12]サンプリングを用いて不確実性の推定値を求めている.しかし,これらの手法は,動的な世界では知識を段階的に適応させることができない.

提案手法

スクリーンショット 2021-08-23 11 42 25
4. ORE:
Open World Object Detector(オープンワールドオブジェクト検出) Open World Object Detection(オープンワールドオブジェクト検出)を成功させるためには、明示的な監視なしに未知のインスタンスを識別することができ、識別された新規インスタンスのラベルが知識アップグレードのためにモデルに提示されたときに、(ゼロから再学習することなく)以前のインスタンスを忘れてはならない。我々は、これら2つの課題を統合的に解決するソリューション「ORE」を提案します。

ニューラルネットワークは普遍的な関数近似器であり[22]、一連の隠れ層を通して入力と出力の間のマッピングを学習する。これらの隠れた層で学習された潜在的な表現は,各機能がどのように実現されるかを直接制御する。我々は,物体検出器の潜在空間におけるクラス間の明確な識別を学習することで,2つの効果が得られるのではないかと仮説を立てた.

  • 第一に、未知のインスタンスの特徴表現が他の既知のインスタンスとどのように異なるかをモデルが識別するのを助け、未知のインスタンスを新規性のあるものとして識別するのに役立ちます。
  • 第二に、潜在空間において以前のクラスと重複することなく、新しいクラスのインスタンスの特徴表現を学習することができ、忘却することなく段階的に学習することができます。
  • これを実現する鍵となるのが、提案する潜在空間におけるcontrastive clusteringであり、これについては項4.1で詳しく説明する。

**対照的なクラスタリングを用いて未知のインスタンスを最適にクラスタリングするためには、未知のインスタンスが何であるかを監視する必要があります。しかし、潜在的に無限にある未知のクラスの小さなサブセットであっても、手動でアノテーションを行うことは不可能である。この問題に対処するために、我々はRegion Proposal Network(RPN)[54]に基づいた自動ラベル付けメカニズムを提案し、項4.2で説明するように、未知のインスタンスに擬似ラベルを付ける。自動ラベル付けされた未知のインスタンスが潜在空間に固有に分離されることで、エネルギーベースの分類ヘッドが既知のインスタンスと未知のインスタンスを区別することができる.**4.3項で説明したように、未知のインスタンスではHelmholtz自由エネルギーが大きいことがわかります。

図2にOREのアーキテクチャの概要を示す。Dhamijaら[8]は、one-stage RetinaNet detector[31]やobjectness based YOLO[52]と比較して、Faster R-CNN[54]がオープンセットのパフォーマンスに優れていることを発見したので、基本的な検出器としてFaster R-CNN[54]を選択しました。Faster R-CNN [54]は,2段階のオブジェクト検出器です.第1段階では,クラスに依存しない領域提案ネットワーク(RPN)が,共有されたバックボーンネットワークから送られてくる特徴マップから,オブジェクトを持つ可能性のある潜在的な領域を提案する.第2段階では、提案された各領域のバウンディングボックスの座標を分類・調整します。関心領域(RoI:Region of Interest)ヘッドの残差ブロックによって生成された特徴は、対照的にクラスタリングされます。RPNヘッドと分類ヘッドは、それぞれ自動ラベル付けと未知の領域の識別に適応されます。これらの首尾一貫した構成要素のそれぞれについて、以下のサブセクションで説明する。

4.1. 対照的なクラスタリング
潜在空間におけるクラスの分離は、未知のものを識別するためのオープンワールド手法にとって理想的な特性です。これを実現するための自然な方法は、対比クラスタリング問題としてモデル化することである。つまり、同じクラスのインスタンスは近くに留まるように強制され、異なるクラスのインスタンスは遠くに押し出される。各既知のクラスi∈Ktに対して、プロトタイプ・ベクトルpiを保持する。fc∈Rdをクラスcのオブジェクトに対して、オブジェクト検出器の中間層で生成される特徴ベクトルとする。
(1)
ここで,Dは任意の距離関数であり,Δは,似ているものと似ていないものがどれだけ近づけるかを定義する。
を定義します。この損失を最小化すると
を最小化することで、潜在空間において望ましいクラス分けが可能になります。

各クラスに対応する特徴ベクトルの平均値を用いて、クラスのプロトタイプのセットを作成します。P = {p0 - - pC}となる。各プロトタイプ・ベクトルを維持することは、OREの重要な要素です。ネットワーク全体がエンド・ツー・エンドで学習されるため、構成する特徴が徐々に変化するのに合わせて、クラス・プロトタイプも徐々に進化する必要があります(確率的勾配降下法は、各反復において小さなステップで重みを更新するため)。対応する特徴量を格納するために、クラスごとに固定長のキューqiを保持します。特徴量ストアFstore = {q0 - - qC}は,クラス固有の特徴量を,対応するキューに格納します.格納される特徴ベクトルの数はC×Q(Qはキューの最大サイズ)で制限されるため,これは特徴ベクトルが学習によってどのように変化するかを追跡するためのスケーラブルなアプローチである.アルゴリズム1は,クラスタリング損失を計算する際にクラスのプロトタイプがどのように管理されるかについての概要を示している.損失の計算は,ある数のburnin反復(Ib)が完了してから開始する.これにより、初期の特徴埋め込みが成熟してクラス情報を符号化できるようになる。それ以降は,式(1)を用いてクラスタリング損失を計算する.すべてのIp反復の後、新しいクラスプロトタイプPnewのセットが計算される(8行目)。そして、PとPnewを**量パラメータηで重み付けすることにより、既存のプロトタイプPが更新される。これにより、クラスのプロトタイプは、以前のコンテキストを追跡しながら徐々に進化していく。計算されたクラスタリング損失は、標準的な検出損失に追加され、ネットワークをエンドツーエンドで学習するためにバックプロパゲーションされます。

4.2. RPNによる未知の物体の自動ラベリング

式1を用いてクラスタリング損失を計算する際に、入力特徴ベクトルfcとプロトタイプベクトルを対比させる。プロトタイプベクトルには、未知のオブジェクトのプロトタイプも含まれる(c∈{0, 1, ..., C}、0は未知のクラスを表す)。これは、未知のオブジェクトのインスタンスに未知のグランドトゥルークラスをラベル付けする必要があるが、すでにアノテーションされた大規模データセットの各画像のインスタンスをすべて再アノテーションするという困難な作業のため、実際には実現不可能である。

そこで我々は、画像内のオブジェクトの一部を未知のオブジェクトとして自動的にラベル付けすることを提案する。これには、領域提案ネットワーク(RPN)がクラスに依存しないという事実を利用している。入力画像が与えられると、RPNは、前景と背景のインスタンスのバウンディングボックス予測のセットを、対応するオブジェクトネススコアとともに生成する。オブジェクトネス・スコアが高く、かつグランドトゥルースのオブジェクトと重ならないプロポーザルを、潜在的な未知のオブジェクトとしてラベル付けします。つまり、オブジェクトネス・スコアでソートされた上位k個の背景領域の提案を未知のオブジェクトとして選択するのです。この一見単純なヒューリスティックな手法は、5章で示すように良好な性能を発揮します。

潜在空間Fにおける特徴(f∈F)と、それに対応するラベルl∈Lが与えられた場合、エネルギー関数E(F, L)を学習することを求める。我々の定式化は、観測された変数Fと可能な出力変数Lのセットの間の互換性を推定する関数E(-)を、単一の出力スカラー、すなわちE(f) : R d → Rを用いて学習するEnergy based model (EBM) [27]に基づいている。
EBMの本質的な能力は、in-distributionデータに低いエネルギー値を割り当てたり、逆にサンプルが未知のクラスからのものであるかどうかを特徴づけるために、エネルギー指標を使用することになります。
具体的には、Helmholtzの自由エネルギーを用いて、Lのすべての値のエネルギーを組み合わせます。

(2)

ここでは,Lのすべての値のエネルギーを組み合わせ,Tは温度パラメータである.ソフトマックス層以降のネットワーク出力と、クラス固有のエネルギー値のギブス分布の間には、単純な関係が存在します[34]。これは次のように定式化できます。

(3)

ここで,p(l | f)はラベルlの確率密度,gl(f)は分類ヘッドg(.)のl番目の分類ロジットです.この対応関係を利用して、分類モデルの自由エネルギーをロジットの観点から以下のように定義します。

(4)

上記の式は、標準的なFaster R-CNN [54]の分類ヘッドをエネルギー関数に変換する自然な方法を提供します。対照的なクラスタリングによって潜在空間に明確な分離が行われているため、図3に示すように、既知のクラスのデータポイントと未知のデータポイントのエネルギーレベルに明確な分離が見られます。この傾向を考慮して、既知および未知のエネルギー値ξkn(f)およびξunk(f)のエネルギー分布を、シフトしたワイブル分布のセットでモデル化した。これらの分布は、ガンマ分布、指数分布、正規分布と比較して、少数の検証セット(既知と未知の両方のインスタンスを含む)のエネルギーデータに非常によく適合することがわかった。学習された分布は、ξkn(f) < ξunk(f) の場合、予測を未知のものとしてラベル付けするのに使用できる。

4.4. 忘却の軽減
未知のクラスを識別した後、オープンワールド検出器の重要な要件は、興味のある未知のクラスのいくつかのラベル付きの例が提供されている場合、新しいクラスを学習できることです。重要なのは、この段階では、以前のタスクの学習データは存在しないということです。新しいクラスのインスタンスのみでトレーニングを行うと、以前のクラスの壊滅的な忘却[40, 11]につながる。このような忘却を軽減するために、パラメータ正則化[2, 24, 29, 66]、模範解答の再生[6, 51, 37, 5]、動的拡大ネットワーク[39, 60, 56]、メタ学習[50, 25]など、様々なアプローチが開発されている。

我々は、例の再生の重要性を他のより複雑なソリューションと比較した[49, 26, 62]からの最近の洞察に基づいています。具体的には、Prabhuら[49]は、複雑な継続学習手法による進歩を振り返り、増分学習における再生のための欲張りな模範解答選択戦略が、最先端の手法を大差で一貫して凌駕することを示している。Knoblauchら[26]は、再生法の不当な力を理論的に正当化する方法を開発している。彼らは、最適な継続的学習者がNP困難問題を解き、無限のメモリを必要とすることを証明している。少数の例を保存して再生することの有効性は、Wangら[62]によって関連する数ショットの物体検出の設定で有効であることが判明している。これらのことから、忘却を軽減するためにOREに比較的単純な方法論を用いることにした。すなわち、バランスのとれた模範例のセットを保存し、これらの模範例に対する各増分ステップの後にモデルを微調整する。各時点で、各クラスの最低Nexのインスタンスが模範セットに存在することを確認します。

検証

5.1. オープンワールド評価プロトコル
データの分割
クラスをタスクのセットT = {T1, - - Tt, - - - }にグループ化します。Ttを学習する間、{Tτ : τ<t}のすべてのクラスは既知、{Tτ : τ>t}は未知として扱われます。このプロトコルの具体的な実施例として、Pascal VOC[10]とMS-COCO[32]のクラスを検討する。すべてのVOCクラスとデータを第1タスクT1としてグループ化する。MS-COCO[32]の残りの60クラスは、意味的なずれを伴う3つの連続したタスクにグループ化される(Tab.1参照)。Pascal VOCとMS-COCOの学習セットから上記の分割に対応するすべての画像が学習データとなる。評価には、Pascal VOCテスト分割とMS-COCO val分割を使用します。各タスクの学習データから1k枚の画像を検証用に残しておきます。データ分割とコードはhttps://github.com/JosephKJ/OWODに掲載されています。

評価指標
未知の物体は既知の物体と混同されやすいため、この挙動を明示的に表すためにWilderness Impact (WI) メトリクス[8]を使用しています。
(5)
ここで,PKは既知のクラスで評価したときのモデルの精度,PK∪Uは既知および未知のクラスで評価したときの精度で,リコールレベルR(すべての実験では0.8)で測定されます.未知のオブジェクトがテストセットに追加されても精度が低下しないように、WIはより小さいことが理想的です。WIの他に、A-OSE (Absolute Open-Set Error) [43]を用いて、既知のクラスのいずれかに誤って分類された未知のオブジェクトの数を報告しています。WIとA-OSEの両方とも、モデルが未知のオブジェクトをどれだけ効果的に扱えるかを暗黙的に測定している。新しいラベル付きクラスが存在する場合のモデルの漸進的な学習能力を定量化するために,IoU閾値0.5における平均平均平均精度(mAP)を測定する(既存の文献[61, 45]と一致).

5.2. 実装の詳細
OREは、標準的なFaster R-CNN [54]オブジェクト検出器をResNet-50 [20]バックボーンに再利用しています。インクリメンタル分類法[50, 25, 6, 37]に従い、分類ヘッド内のクラス数の変化に対応するために、予想されるクラスの最大数の制限を仮定し、興味のあるクラスのみを考慮に入れるように損失を修正します。これは、見たことのないクラスの分類ロジットを大きな負の値(v)に設定することで、ソフトマックスへの貢献度を無視できるものにします(e -v → 0)。

RoI Headの最後の残余ブロックから得られる2048次元の特徴ベクトルは、対照的なクラスタリングに使用されます。コントラスト損失(式1で定義)は、標準的なFaster R-CNNの分類損失と局在化損失に追加され、共同で最適化されます。タスクTiの学習時には、Tiの一部であるクラスのみがラベル付けされます。Tiをテストしている間は、以前に導入された全てのクラスがTiのクラスと共にラベル付けされ、将来のタスクの全てのクラスは「未知」とラベル付けされる。模範解答の再生では,経験的に Nex = 50 を選択した.模範解答メモリのサイズに関する感度分析は、項6で行います。また、実装の詳細については補足を参照してください。
スクリーンショット 2021-08-23 15 33 50

5.3. オープンワールドでの物体検出結果
表2は、提案されているオープンワールド評価プロトコルにおいて、OREがFaster RCNNと比較した結果を示している。オラクル」検出器は、既知のラベルと未知のラベルのすべてにいつでもアクセスでき、リファレンスの役割を果たします。各タスクを学習した後、WIとA-OSEメトリクスを用いて、未知のインスタンスが既知のクラスとどのように混同されるかを定量化します。OREは、未知のものを明示的にモデル化しているため、WIとAOSEのスコアが著しく低いことがわかります。タスク2で未知のクラスを徐々にラベル付けしていくと,ベースライン検出器の既知のクラスセットに対する性能(mAPで定量化)は56.16%から4.076%へと大幅に低下することがわかります.提案されたバランスのとれた微調整は、WIとA-OSEの増加を犠牲にして、以前のクラスの性能を適切なレベル(51.09%)に回復させることができました。一方、OREは既知のクラスの検出と未知の包括的な効果の両方を達成することができました。タスク3のクラスを追加した場合も同様の傾向が見られます。タスク4では、未知の真相がないため、WIとA-OSEのスコアは測定できません。定性的な結果を図4と補足セクションで報告し、失敗事例の分析も行います。また、第6章と補足章では、広範な感度分析を行います。
スクリーンショット 2021-08-23 15 33 59

5.4. インクリメンタルな物体検出結果
OREが未知の物体を明確にモデル化できることから、興味深い結果が得られました。それは、物体の増分検出(Incremental Object Detection: iOD)タスクにおいて、最新鋭の技術と比較して良好な結果が得られたことです(Tab.3)。これは ORE が、未知のオブジェクトが既知のオブジェクトに分類されることによる混乱を軽減し、検出器が真の前景オブジェクトを段階的に学習することを可能にするからです。OREの評価には、iOD分野で使用されている標準的なプロトコル[61, 45]を使用しています。ここでは、Pascal VOC 2007 [10]のクラス群(10、5、最後のクラス)が、残りのクラス群で学習された検出器によって、段階的に学習されます。ここでは、Pascal VOC 2007 [10]のクラス群(10、5、最後のクラス)を、残りのクラス群で学習した検出器で段階的に学習します。Contrastive Clustering(CC)とEnergy Based Unknown Identification(EBUI)を廃止したところ、標準的なOREよりも性能が低下することがわかりました。

  1. 考察と分析

6.1 OREコンポーネントのアブレーション。
OREの各コンポーネントの貢献度を調べるために、慎重にアブレーション実験を行います(Tab.4)。ここでは、タスク1がモデルに導入される設定を考えます。自動ラベリング手法(ALUと呼ぶ)とエネルギーベースの未知識別(EBUI)を組み合わせた場合、どちらか一方を個別に使用する場合(3行目と4行目)よりも、一緒に使用した場合(5行目)の方が良い結果となりました。この構成にコントラスト・クラスタリング(CC)を追加すると、WIとA-OSEの観点から評価して、未知数の処理で最高の性能が得られます(7行目)。未知の識別の副作用として、既知のクラスの検出(mAPメトリック)に深刻な性能低下はありません。6行目では、EBUIが重要なコンポーネントであり、存在しないとWIとA-OSEのスコアが上昇することがわかります。このように、OREの各コンポーネントは、未知の識別のために重要な役割を担っています。

6.2 模範的なメモリサイズに関する感度分析。
バランス微調整戦略では、クラスごとに少なくともNex個のインスタンスを持つ模範画像を保存する必要があります。タスク2の学習時にNexを変化させ、その結果を表5に示します。バランス・ファインチューニングは、1クラスあたり最低10個のインスタンスを持っているだけでも、以前に知られていたクラスの精度を向上させるのに非常に効果的であることがわかりました。しかし、Nexを大きくしても効果はなく、同時に未知のものの扱いにも悪影響を与えることがわかりました(WIとA-OSEスコアから明らか)。これは、既知のクラスと未知のクラスでのパフォーマンスのバランスがとれるスイートスポットです。

6.3 オープンセット検出器との比較。
クローズドセットデータ(Pascal VOC 2007で学習・テスト)とオープンセットデータ(MS-COCOから同数の未知の画像を含むテストセット)で評価したときの検出器のmAP値は、検出器が未知のインスタンスをどのように処理するかを測定するのに役立ちます。理想的には、性能の低下があってはならない。OREをMillerら[43]によって提案された最近のオープンセット検出器と比較します。表6によると ORE は、未知のインスタンスを効果的にモデル化しているため、性能低下は [43] よりもはるかに小さいことがわかります。
スクリーンショット 2021-08-23 15 34 17

6.4 クラスタリング損失とt-SNE[38]の可視化
タスク1の対照的なクラスタリング損失(式1)を用いた学習中に形成されたクラスタの品質を可視化します。図5(a)では、きれいに形成されたクラスターを見ることができます。凡例の各数字は、タスク1で導入された20個のクラスに対応しています。ラベル20は未知のクラスを示しています。重要なのは、未知のインスタンスもクラスタリングされていることで、これはコントラスト・クラスタリングで使用される自動ラベル付けされた未知のインスタンスの品質を強化しています。図5(b)は、コントラスト・クラスタリングの損失をトレーニングの反復回数に対してプロットしたもので、徐々に減少しており、収束が良好であることを示しています。

新規性

  • Open World Object Detection」という新しい問題設定を導入し、実世界をより詳細にモデル化します。

  • オープンワールド検出の課題を解決するために、コントラストクラスタリング、未知を考慮した提案ネットワーク、エネルギーに基づく未知の識別に基づいて、「ORE」と呼ばれる新しい手法を開発する。

  • 本研究では、物体検出器のオープンワールド特性を測定するための包括的な実験設定を導入し、競合するベースライン手法と比較して、その上で ORE をベンチマークします。

  • 興味深い副産物として、提案手法は、インクリメンタルオブジェクト検出のために設計されたものではないにもかかわらず、インクリメンタルオブジェクト検出において最先端の性能を達成しています。

議論,展望

Comment

date

FurryGAN: High Quality Foreground-aware Image Synthesis

INFO

author

Jeongmin Bae, Mingi Kwon, and Youngjung Uh*

affiliation

Yonsei University

conference or year

2022

link

arXiv
Project page

概要

Foreground-awareな画像合成は前景のマスクと画像を生成することを目的としている.
一般的なアプローチは前景と背景の画像のブレンドとして定式化することである.このアプローチは前景と背景が意味なく分離してしまうという微妙な解に陥ってしまうため,困難な問題である.この研究ではFurryGANを提案, 3つの重要なキーポイントを示す.

  1. 前景画像と合成画像の両方をリアルにする
  2. coarse & fineなマスクの組み合わせとしてマスクを表現
  3. discriminatorのauxiliary mask predictorによってgeneratorをうまく誘導

この研究は,教師なしで髪の毛や毛皮,ひげなどをカバーする精細なアルファマスクと共にリアルな画像を生成することを可能にした.

スクリーンショット 2022-09-20 18 03 00

提案手法

スクリーンショット 2022-09-20 18 03 49

前景画像には顕著なオブジェクト(人物など )が含まれている必要があり,そのような前景に対応するマスクの解が存在するようにする.そうでなければ,マスクが前景を含むことを除外するように学習してしまう(Composit画像を作成する時に前景が含まれないように学習してしまう).そのような不適切な前景分離を防ぐため,Generatorは前景画像と合成画像の両方を生成し,どちらもFake Imageとして識別器に入力することで,前傾画像と合成画像の両方でよりリアルな画像を生成するようにする.

スクリーンショット 2022-09-20 18 04 24

スクリーンショット 2022-09-20 18 04 42

Loss

mask prediction loss

スクリーンショット 2022-09-20 18 15 45

mask consistency loss

スクリーンショット 2022-09-20 18 16 22

マスクの一部が欠落してしまうことがあるので,合成画像から予測されるマスクは,前景画像から予測されるマスクと一致するとしてlossを取る.そうすることで,マスクの欠落を防ぐ.

coarse mask loss

スクリーンショット 2022-09-20 18 21 44

全てのピクセルの平均が0.35より大きい時にlossが0になる.
全てのピクセルが0になってしまうことを防ぐように.(focal lossやdice lossのような不均衡に対するloss)

fine mask loss

スクリーンショット 2022-09-20 18 21 53

coarseの場合と逆に,1-mの平均が0.01より大きい時にlossが0になる.

検証

スクリーンショット 2022-09-20 18 05 36

スクリーンショット 2022-09-20 18 05 45

新規性

議論,展望

Comment

date

Sep. 20th, 2022

U^2-Net: Going Deeper with Nested U-Structure for Salient Object Detection

INFO

author

Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane and Martin Jagersand

affiliation

University of Alberta, Canada

conference or year

Pattern Recognition 2020

link

arXiv
実装

概要

SOD(Salient Object Detection)においてゼロからの学習が可能な低メモリ・低計算コストなモデルを提案. この研究では, フルサイズのU2-Net (176.3 MB, 30 FPS)とそれより小さいサイズのU2-Net† (4.7 MB, 40 FPS)を提供. 6つの物体検出データセットにおいて,両方のモデルがほとんどのSOTAモデルと比較して定量的,定性的に匹敵する性能を達成.

提案手法

大半の既存手法では既存の画像分類backboneを用いており, それによって生成された特徴マップを活用する手法が多い. (Multi-level deep feature integration / Multi-scale feature extraction)

しかしこれらのbackboneはImageNetデータなどで事前学習を必要とする. また対象のデータがImageNetとデータとは異なる分布に従う場合データ効率が悪い.

それに加え, salientなオブジェクト検出には, ローカルとグローバルの両方の情報が必要だがbackboneにおいて初期の段階で特徴マップが低解像度化されてしまう(i.e. ResNet, DenseNet)しかし, 単にフィルタサイズを大きくするだけではパラメータ数や計算コストが飛躍的に増加するため,グローバル情報を抽出することは困難である.

これらの問題を踏まえ, 特徴的な物体を検出するためにゼロからの学習が可能な段階的にマルチスケールの特徴を直接抽出する,低メモリ・低計算コストなアーキテクチャを提案.

Residual U-blocks

image
RSU-L(Cin,M,Cout)の構造はFig.2 (e)のようになっており, Lはエンコーダの層数, Cin,Coutは入出力チャネル, MはRSUの内部層のチャネル数を表している.
Lを大きくすると, RSUが深くなり, より多くのプーリング演算が可能になり,また 受容野の範囲が広くなるため 局所的・大域的な特徴が豊かになる. このパラメータを設定することで, 任意の空間分解能を持つ入力特徴量マップからマルチスケール特徴量を抽出することができる. マルチスケール特徴量は, 徐々にダウンサンプリングされた特徴マップから抽出され, アップサンプリング, concat, 畳み込みによって高解像度の特徴マップにエンコードされる. このプロセスは, 大規模なスケールでの直接アップサンプリングによって引き起こされる微細なディテールの損失を軽減する.

Architecture of U2-Net

image
入れ子になったU構造を用いることで, ステージ内のマルチスケール特徴量の抽出とステージ間のマルチレベル特徴量の集約をより効率的に行うことが可能.U2-Netアーキテクチャは,画像分類から適応された事前学習済みのバックボーンを一切使用せず,RSUブロックのみで構築されているため柔軟性が高く,パフォーマンスの低下を最小限に抑えながら様々な作業環境に容易に適応することが可能.

Loss Function

image
w(m)side=wfuse=1
image
2値クロスエントロピー

検証

ablation study

image

定量評価

image
DUT-OMRON, HKU-IS, ECSSDの5つの評価指標のほぼ全てにおいて,U2-Netが最も優れた性能を発揮していることがわかる.

定性評価

image
様々なシナリオに対応し, 高精度な物体検出結果を得ることができることがわかる.

新規性

既存のバックボーン上に構築されたSODモデルと比較して, U2-NetはRSUブロック上に構築されているため, ゼロからの学習が可能であり, ターゲット環境の制約に応じて異なるモデルサイズを持つように設定が可能. 6つの物体検出データセットにおいて,U2-Net, U2-Net† 両方のモデルがほとんどのSOTAモデルと比較して定量的,定性的に匹敵する性能を達成.

議論,展望

携帯電話やロボットなどの計算量やメモリが限られたデバイスでは,より高速で小型のモデルが必要.さらなる高速化とモデルサイズの縮小を実現するために, さまざまな技術やアーキテクチャを模索していく. また, より正確でロバストなモデルを学習するためには, より大規模で多様なオブジェクトデータセットが必要である.

Comment

date

June 19th, 2020

A U-Net Based Discriminator for Generative Adversarial Networks

INFO

author

Edgar Scho ̈nfeld1, Bernt Schiele2, Anna Khoreva1

affiliation

1Bosch Center for Artificial Intelligence, 2Max Planck Institute for Informatics

conference or year

CVPR 2020

link

arXiv
実装

概要

U-NetをベースとしたDiscriminatorを提案.
グローバルな画像フィードバックを提供することで, 合成された画像のグローバルなcoherenceを維持しながら, 生成器にピクセルごとの詳細なfeedbackを提供することを可能にした.
realとfakeをCutMixしたデータ拡張に基づくピクセル単位のconsistency regulalizationを提案し, U-Net識別器がreal imageとfake imageの間のsemanticおよび構造的な変化により焦点を当てるように促す.
BigGANのベースラインと比較すると, FFHQ, CelebA, 提案されたCOCO-Animalsで平均2.7のFIDの改善.

提案手法

最近の進歩にもかかわらず, 大域的な意味的コヒーレンス, long-range構造, 細部の正確さを持つ画像を合成するための学習は依然として困難である.
U-Net識別器のピクセルごとのフィードバックを利用して, さらにこれらのCutMix画像を一貫性のある正規化に利用し, CutMix変換の下での識別器のピクセルごとの一貫性のない予測にペナルティを与える. これにより識別器は, real imageとfake imageの間の意味的・構造的変化に焦点を当て, 領域保存的な摂動にはあまり注意を払わなくなる.
さらに, デコーダのlocalization能力を向上させるのにも役立つ.

image
識別器ネットワークをU-Netベースのアーキテクチャに変更し, 画素ごとの識別器フィードバックにより, グローバル構造とローカル構造の両方をよりよく捉えることができるようにすることを提案.

image
image
デコーダLDUencの損失は, 全画素の平均決定値として計算

image
image
画像を合成しながら大域的な構造と局所的な詳細の両方に焦点を当て, より強力な識別器を騙すようGeneratorを促す.

image
U-Net識別器のピクセル出力空間において, CutMix変換の下での一貫性正則化を提案する. これにより,定位品質を向上させ,実在領域と偽物領域の間の非識別的な差異に着目することができるようになる.encoderによるクラス分類において, CutMixされたimageはclass labelをfake imageとして扱う.

image
Cut-Mix Imageにおける DUdecのピクセル単位の出力とrealとfake imageの DUdecからの出力をCut-Mixしたもののlossをとることで識別器の一貫性のない予測にペナルティを与える.

検証

定量評価

image
image
FFHQのunconditional caseでは7.48FIDで通常のBIGGANと比較し4.0FIDの向上.
またISにおいてもBIGGANを凌ぐ.
COCO-Animalsのconditional image generation settingでは13.73FIDでBIGGANと比較し2.64FIDの向上.
同様にIS scoreも11.77から12.29への向上.

定性評価

スクリーンショット 2020-06-30 0 06 26

口の開き方や, 髪の毛の長さが段階的に変化していることからinterpolationがsemanticにスムーズであることがわかる.

image
高品質で多様な画像が生成されていることがわかる.

これらよりU-Net GANはunconditional, class-conditional どちらの画像生成に有効であることが確認された.

ablation study

image

全体的に,提案された U-Net GANの構成要素は, FIDの面でパフォーマンスを向上させていることがわかる.

SoTAとの比較

image

新規性

U-Netをベースとした識別器の代替アーキテクチャを提案.
CutMixに基づいたU-Net based な識別器のための一貫性を保つ正則化技術を導入.
提案された変更により, より強力な識別器が得られ, 生成器はグローバルとローカルなrealizmを維持したまま様々なレベルのdetailを持つ画像を合成することを可能にした.

議論,展望

U-Net based 識別器をStyleGAN にも適用.

Comment

date

June 30th, 2020

Taming Transformers for High-Resolution Image Synthesis

INFO

書いてる途中で間違えて消してしまったので, もう一度まとめを書く気力が残っていない...
アブストの訳と提案手法の簡潔な概要のみ記述.

author

Patrick Esser* Robin Rombach* Bjorn Ommer

affiliation

Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany

conference or year

CVPR2021(Oral)

link

arXiv
実装

概要

image
逐次データの長距離相互作用を学習するために設計されたトランスフォーマーは、さまざまなタスクで最先端の結果を示し続けている。CNNとは対照的に、トランスフォーマーには局所的な相互作用を優先する帰納的なバイアスはない。これにより、表現力が豊かになる一方で、高解像度画像のような長いシーケンスでは計算が不可能になる。本研究では、CNNの帰納的バイアスの有効性と変換器の表現力を組み合わせることで、高解像度画像をモデル化し、合成することができることを示す。(i)CNNを使って画像構成要素の文脈に沿った語彙を学習し、(ii)トランスフォーマを使って高解像度画像内の構成要素を効率的にモデル化する方法を示す。このアプローチは、オブジェクトクラスのような非空間情報と、セグメンテーションのような空間情報の両方が生成された画像を制御できる条件付き合成タスクに容易に適用できる。特に、トランスフォーマーを用いたメガピクセル画像の意味論的に誘導された合成に関する最初の結果を発表します。

我々の目標は、変換モデルの非常に有望な学習能力を利用し、メガピクセル領域までの高解像度画像合成に導入することです。変換器を画像生成に適用した以前の研究[ Image transformer, Generative pretraining from pixels]では,64×64ピクセルのサイズの画像に対して有望な結果が得られましたが,シーケンス長のコストが二次関数的に増加するため,単純に高解像度に拡大することはできませんでした.高解像度の画像合成には、画像の全体的な構成を理解し、局所的に現実的で、かつ全体的に一貫したパターンを生成できるモデルが必要である。そこで、画像を画素で表現するのではなく、コードブックから得られる知覚的に豊かな画像構成要素の組み合わせとして表現します。3.1節で述べたように、効果的なコードを学習することで、構成要素の記述長を大幅に削減することができます。これにより、3.2節で述べたように、変換器アーキテクチャを用いて、画像内のグローバルな相互関係を効率的にモデル化することができます。このアプローチは、図2にまとめられており、無条件および条件付きの設定の両方で、現実的で一貫性のある高解像度画像を生成することができます。

トランスフォーマが長距離の相互作用を効率的に学習する理由は,すべての要素間の相互作用を考慮できることにありますが,特に画像の場合,シーケンスの長さ自体が解像度に対して2次関数的に変化するため,トランスフォーマがすぐに実現不可能になってしまう理由でもあります.より長いシーケンスに対してトランスフォーマを実行可能にするために,計算量を削減する様々なアプローチが提案されている.
Image TransformerScaling autoregressive video modelsは,注目モジュールの受容野を制限することで,表現力を低下させ,特に高解像度の画像では,ピクセルの独立性について不当な仮定を導入しています.
Generating long sequences with sparse transformersAxial attention in multidimensional transformersは,完全な受容野を保持していますが,長さnのシーケンスのコストを削減できるのはn2からn √nまでの範囲に限られ,64ピクセルを超える解像度では依然として法外なコストがかかります.

畳み込みアルゴリズムは,画像の自己回帰モデリングに使用されてきましたが,低解像度の画像では,トランスフォーマが畳み込みアルゴリズムよりも一貫して優れた性能を発揮することが以前の研究 [Image Transformer, Generating long sequences with sparse transformers, Axial attention in multidimensional transformers]で示されていました.今回のアプローチでは,最新の畳み込み手法に対するトランスフォーマの優位性を維持しつつ,高解像度画像を効率的にモデル化することができます.

提案手法

image

コードブックとTransformerを用いて画像を生成するVQGANを提案. VQ-VAEのように潜在空間を量子化するが, GANを用いて画像を生成させること, コードの出現確率PixelCNNでなくTransformerで自己回帰学習していることが異なる. 深度やkey pointからの画像生成も可能.
feature mapのそれぞれのベクトルに最も距離が近いものを, あらかじめ用意したコードブックで置き換える.
再構成の際, コードブックに流れた勾配をそのままエンコーダに渡して学習させる.
VQVAEのl2 lossをperceptual lossに置き換え.

VQGANのダウンサンプリングブロック数mを調整することで,H×Wサイズの画像をh = H/2 m × w = W/2 mに縮小することができますが,データセットに依存するmの臨界値を超えると,再構成品質が劣化することがわかりました.メガピクセル領域の画像を生成するためには、パッチワイズで作業し、画像をクロップして、トレーニング中にsの長さを最大限実現可能なサイズに制限する必要があります。画像をサンプリングするために、図3に示すように、スライディング・ウィンドウ方式で変換器を使用します。我々のVQGANは、データセットの統計がほぼ空間的に不変であるか、または空間的な条件付け情報が利用可能である限り、利用可能なコンテキストが画像を忠実にモデル化するのに十分であることを保証する。実際には、これは制限的な要件ではない。なぜなら、これに違反した場合、すなわち、整列したデータに対する無条件の画像合成の場合、[38]と同様に、単に画像座標を条件とすることができるからである。

検証

image

image

新規性

本論文では,従来,変換器を低解像度の画像に限定していた基本的な課題に取り組みました。我々は、画像を知覚的に豊かな画像構成要素の組み合わせとして表現するアプローチを提案し、それにより、画像をピクセル空間で直接モデル化する際に発生する二次的な複雑さを克服しました。構成要素をCNNアーキテクチャーでモデル化し、その構成要素をトランスフォーマーアーキテクチャーでモデル化することで、それぞれの相補的な強みを最大限に活かし、トランスフォーマーベースのアーキテクチャーを用いた高解像度画像合成の最初の成果を得ることができました。実験では、メガピクセル級の画像を合成することで、畳み込み型の帰納バイアスの効率性とトランスフォーマーの表現力を実証し、最新の畳み込み型アプローチを上回る結果を得ました。条件付き合成のための一般的なメカニズムを備えたこの手法は、新しいニューラル・レンダリング・アプローチに多くの可能性をもたらします。

議論,展望

Comment

image-GPTとの比較

我々のアプローチの有効性をさらに評価するために,画像に関する最新の生成的な変換モデルである ImageGPT [8]と比較します.著者らは膨大な計算量を用いて、変換モデルが画像のピクセル表現に適用できることを実証し、表現学習と画像合成の両方で素晴らしい結果を出しました。しかし、彼らのアプローチはピクセル空間に限定されているため、192×192の解像度を超えることはできません。我々のアプローチは、強力な圧縮方法を利用して画像の文脈に富んだ表現を取得し、変換モデルを学習するので、より高い解像度の画像を合成することができます。図15と図16に、画像の補完を示して、両手法を比較してみました。どちらの図も、我々のアプローチが、飛躍的に向上した忠実度の一貫した補完を合成できることを示している。[8]の結果は、https:// openai.com/blog/image-gpt/から得られたものです。

date

May 31th, 2021

MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image Translation

INFO

author

George Cazenavette, Manuel Ladron De Guevara

affiliation

Robotics Institute Carnegie Mellon University, School of Architecture Carnegie Mellon University

conference or year

2021

link

arXiv
実装

概要

image
attention-basedなtransformer networkはほぼ全ての言語タスクにおいて比類のない成功を収めているが, トークンの数が大きく, activation memoryの使用量が2次関数的であるため, visionタスクには適していない. それゆえ, I2IにおいてCNNが事実上の(デファクトな)solutionになっている. 最近提案されたMLP-Mixerアーキテクチャは、transformerモデルの特徴であるlong-rangeなconnectionを維持しつつ、attention-basedなネットワークが抱える速度やメモリの問題を軽減してる. self-attentionに代わるこの効率的な手法を利用して, 本研究でははMixerGANと呼ばれる新しいunpaired I2Iモデルを提案. これは, より単純なMLPベースのアーキテクチャで, extensiveなattentionを必要とせずにピクセル間のlong-rangeな関係性を考慮するものである. 定量的および定性的な分析により, MixerGANは従来のCNNベースの手法と比較して, 競争力のある結果を得ることができた.

提案手法

image
image
image
オリジナルのCycleGANと同様に, mixer-based Generatorは、単層の畳み込みstemに続いて, 学習されたダウンサンプリングのための2つのストライドCNNで構成.Generatorのtransforming partは, 9つのisotropic(等方向性)mixer blockで構成される. 最後に, transformative sectionは, 2つのTranspose Convと, 表現をソースの次元に再マッピングするための畳み込みで構成される. 識別器には, 従来のPatchGAN pix2pixと, mixerを用いたネットワークの両方を使用.
mixer blocksはMLP-Mixer paperに準拠.
image

検証

image
image
image

新規性

最近, Vision taskのためのMLP-Mixerモデルが提案されたことで, MLPが深層学習の現代においてもvision分類タスクに有効であることが示された.本研究では, MLP-Mixerが生成モデル, 具体的にはUI2Iにも有効なアーキテクチャであることを示した.

議論,展望

We hypothesize that increasing the number of channels in the latent space would reduce any patch artifacting and hope to obtain computing resources to evaluate this in the future.

Comment

date

May 31th, 2021

Rethinking Performance Gains in Image Dehazing Networks

INFO

author

Yuda Song† Yang Zhou† Hui Qian Xin Du

affiliation

Zhejiang University, Hangzhou, China

conference or year

2022

link

arXiv
実装

概要

スクリーンショット 2023-02-04 12 03 28

dehazingタスクに既存の研究で提案されたネットワークやパイプラインは問題なく動作するが,キーとなるメカニズムが依然として不明瞭である.この研究では複雑なモジュール等を用いることなく最小限の修正をUNetに加えることで,コンパクトなdehazingネットワークを提案.複数のdehazingデータセットにおいて他のSoTA手法に勝ることをを示した.

提案手法

スクリーンショット 2023-02-04 12 05 21

gConv: ゲート機構の畳み込み.Depth-wiseとPoint-wiseを用いている.NAFNetに近い構造だが,オリジナルのGLUに則って非線形活性化関数にシグモイドを用いている.
SK Fusion:局所と大域の特徴マップをチャンネルアテンション(SE-Layer)を通した後に加算してるだけ.

検証

スクリーンショット 2023-02-04 12 05 30

スクリーンショット 2023-02-04 12 05 34

ablation study

スクリーンショット 2023-02-04 12 06 07

新規性

議論,展望

Comment

Ablation Studyからわかるように最適な学習方法やレイヤーの選択を行なっている.それによって軽くてシンプルなネットワークを実現している.
単純に精度の観点から言えば,先行研究も同様に最適なハイパラの選択を行えば,この研究を超えるような精度もでる気がする.

PixelShuffleとUpsamplingのablationも見たかった.
LayerNormは空間相関を破壊するとDehazeFormerで述べられているが,InstanceNormがBatchNormより大幅に下がる理由はなんだろう.

date

Feb. 4th 2023

Removing Shadows from Images of Documents

INFO

author

Steve Bako1, Soheil Darabi2 , Eli Shechtman2 , Jue Wang2, Kalyan Sunkavalli2, Pradeep Sen1

affiliation

1University of California, Santa Barbara, 2Adobe

conference or year

Proceedings of ACCV 2016

link

arXiv
実装

概要

提案手法

検証

新規性

議論,展望

Comment

date

Layered Depth Refinement with Mask Guidance

INFO

author

Soo Ye Kim1 Jianming Zhang2 Simon Niklaus2 Yifei Fan2 Simon Chen2 Zhe Lin2 Munchurl Kim1

affiliation

1KAIST, Republic of Korea 2Adobe Inc., USA

conference or year

CVPR2022

link

Paper
arXiv
ProjectPage

概要

デプスマップは、3DレンダリングからBokehなどの2D画像効果まで、幅広い用途で利用されている。しかし、単一画像深度推定(SIDE)モデルによって予測される深度マップは、オブジェクトの孤立した穴や/不正確な境界領域を捉えることができないことが多い。一方、高品質なマスクは、市販のオートマスキングツールや市販のセグメンテーションやマッティングの手法、あるいは手動編集によって容易に入手することが可能である。そこで、本論文では、SIDEモデルの深度予測を洗練させるために、汎用マスクを利用したマスクガイド深度洗練という新しい問題を定式化する。本論文では、深度マップをマスクと逆マスクの2つのレイヤーに分解し、レイヤーリファインメントとインペイント・アウトペインティングを行うフレームワークを提案する。深度とマスクの両方を持つデータセットが少ないため、任意のマスクとRGB-Dデータセットを用いた自己教師あり学習方式を提案する。本手法は、異なる種類のマスクや初期深度予測に対して頑健であり、マスクの内側と外側の境界領域において正確に深度値を精緻化できることを経験的に示す。さらに、アブレーションの研究で我々のモデルを分析し、実際のアプリケーションで結果を実証する。 (by DeepL)

提案手法

スクリーンショット 2022-07-04 15 28 41

スクリーンショット 2022-07-04 15 26 53

Model Architecture

スクリーンショット 2022-07-04 15 57 37
入力のdepthマップの低レベル特徴をエンコードするために,軽量の低レベルエンコーダを使用.メインのデコーダブランチからの特徴とconcatされてヘッドに入力され,ネットワークが初期のdepthを忘れないようにする.

検証

評価データセットはHypersimとTartanAir.これらはdenseとdepth, インスタンスセグメンテーションのマスクを含む.

evaluation metrics

  • RMSE
  • Wheighted Human Disagreement Rate (WHDR)
    • 10K randomly sampled point pairs
  • depth boundary error on accuracy ($ \varepsilon_{acc}$)
  • depth boundary error on completeness ($ \varepsilon_{comp} $)
  • Mask Boundary Error (MBE)
  • relative refinement ratio (R3)

スクリーンショット 2022-07-04 16 13 14
Nインスタンスの平均RMSE.$M_{i}^{b}$ はdilateしたMからerodeしたMを引いたもの.kernel sizeは5x5.

R3(relative refinement ratio): the ratio of the number of pixels improved by more than a threshold t to the number of pixels worsened by more than t, in terms of absolute error. (t = 0.05)

スクリーンショット 2022-07-04 16 30 53

スクリーンショット 2022-07-04 16 30 43

新規性

・We propose a novel mask-guided depth refinement framework that refines the depth estimations of SIDE models guided by a generic high-quality mask.

• We propose a novel layered refinement approach, generating sharp and accurate results in challenging areas without additional input or heuristics.

• We devise a self-supervised learning scheme that uses RGB-D training data without paired mask annotations.

議論,展望

本手法は高品質なマスクに依存している.自動マスキングツールは数多く存在するが,非常に細かいディテールを表現するためには,手作業が必要となる場合がある.また,本手法はマスクの境界に沿ってリファインするため,オブジェクト内部の誤ったdepthをそのままにしておく可能性がある.

Comment

データセットに元からマスクがある前提なのが微妙な気がする.出力をマスクに従ってcompositeしているのでInstance Segmentationの性能に影響されるような...

date

4th July, 2022

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

INFO

author

Enze Xie1∗, Wenhai Wang2, Zhiding Yu3, Anima Anandkumar3, 4, Jose M. Alvarez3, Ping Luo1

affiliation

1The University of Hong Kong, 2Nanjing University, 3NVIDIA, 4Caltech

conference or year

2021

link

arXiv
実装

概要

SegFormerは, トランスフォーマーと軽量な多層パーセプトロン(MLP)デコーダを統合した, シンプルで効率的かつ強力なセマンティックセグメンテーションフレームワークである.
SegFormerには2つの特徴があり,

  1. SegFormerは、マルチスケールの特徴を出力する新しい階層構造のTransformerエンコーダで構成されている. positional encodingを必要としないため, テストの解像度がトレーニングと異なる場合に性能低下につながるpositional codesの補間を避けることができる.

  2. SegFormerは複雑なデコーダを避ける. 提案されたMLPデコーダは, 異なる層からの情報を集約することで、ローカルな注意とグローバルな注意の両方を組み合わせ、強力な表現を実現します。このシンプルで軽量な設計が, Transformerでの効率的なセグメンテーションの鍵であることを示す.

アプローチをスケールアップして, SegFormer-B0からSegFormer-B5までの一連のモデルを取得し, 先行研究よりも大幅に優れた性能と効率を達成した.
SegFormer-B4はADE20Kで64Mのパラメータを用いて50.3%のmIoUを達成し, 以前の最良の手法よりも5倍小さく, 2.2%良い結果となった.最良のモデルであるSegFormer-B5は, Cityscapes検証セットで84.0%mIoUを達成し, Cityscapes-Cでは優れたゼロショットのロバスト性を示した.

スクリーンショット 2021-10-12 15 56 43
semantic segmentationでは, Zheng et al. がSETRを提案し, segmentationタスクでTransformerを使用することの実現可能性を示した. SETRはバックボーンとしてViTを採用し, 特徴の解像度を高めるために複数のCNNデコーダを組み込んでいる. 性能は良いが, ViTにはいくつかの制限がある.

  1. ViTはマルチスケールではなく, シングルスケールの低解像度特徴を出力する.
  2. 大きな画像では計算コストが高くなる.

これらの限界を解決するために, Wang et al. は, Pyramid Vison Transformer(PVT)を提案した. PVTは, ViTを自然に拡張し, 高密度な予測のためのピラミッド構造を持つ. PVTは, 物体の検出と意味的なセグメンテーションにおいて, ResNet対応のものよりもかなりの改善を示している. しかし, Swin TransformerやTwinsなどの他の新しい手法とともに, これらの手法は主にTransformerエンコーダの設計を考慮しており, さらなる改善のためのデコーダの貢献を無視している. 本論文では, 効率, 精度, 堅牢性を共同で考慮した, semantic segmentationのための最先端のTransformerフレームワークであるSegFormerを導入する. 従来の手法とは対照的に, 本フレームワークはエンコーダとデコーダの両方を再設計している.

  • 位置エンコードを必要としない, 階層的なTransformerエンコーダ
  • 複雑で計算負荷の高いモジュールを使用せずに強力な表現を可能にする, 軽量なAll-MLPデコーダの設計.
  • Figure 1に示すように, SegFormerは、一般に公開されている3つのsemantic segmentation datasetsにおいて, 効率, 精度, ロバスト性の点でSoTAを確立した.

提案手法

スクリーンショット 2021-10-12 15 56 56

SegFormerは2つの主要モジュールから構成されている.

  1. 高解像度の粗い特徴と低解像度の細かい特徴を生成する階層型Transformer encoder
  2. これらの複数レベルの特徴を融合して最終的なsemantic segmentation maskを生成する軽量のAll-MLP decoder

HxWx3の画像を, 4x4のパッチに分割する. ViTは16x16のパッチに分割するが, より小さいパッチを使うことで, 高密度な予測タスクに有利になる. これらのパッチを hierachical transformer encoderに入力しmulti-level features {1/4, 1/8, 1/16, 1/32} を得る. それらをAll-MLP decoder に私, H/4xW/4xNclsの解像度でセグメンテーションマスクを予測する.

Hierarchical Feature Representation

単一解像度の特徴マップしか生成できないViTとは異なり, このモジュールの目的は, 入力画像に対して, CNNのような多階層の特徴を生成する. これらの特徴は, 高解像度の粗い特徴と低解像度の細かい特徴を提供し, セマンティックセグメンテーションの性能を向上させる。

より正確には, H × W × 3の解像度を持つ入力画像が与えられたとき, パッチのマージを実行して、H/(2i+1) × W/(2i+1) × Ci の解像度を持つ階層的特徴マップFiを得る, ここでi∈{1, 2, 3, 4}で, Ci+1はCiより大きい.

Overlapped Patch Merging

画像パッチが与えられたとき,ViTのパッチマージ処理では,N×N×3個のパッチを1×1×C個のベクトルに統一する.これを拡張すると, 2 × 2 × Ci 個の特徴パスを 1 × 1 × Ci+1 個のベクトルに統一し, 階層的な特徴マップを容易に得ることができる, これを利用して, F1 ( H/4 × W/4 × C1 ) から F2 ( H/8 × W/8 × C2 ) へと階層化された特徴量を縮小し, 階層内の他の特徴量マップを反復することができる.

この処理はパッチ周辺の局所的な連続性を保つことができていないのでm オーバーラップしているパッチを結合する処理を行う.オーバーラップしたパッチのマージを行うことで, オーバーラップしていない場合と同じサイズの特徴量を生成する.

Efficient Self-Attention

PVTのようにシーケンスのリダクション処理を行う.
KをN/R x (CR) にreshapeし, Linear(in=CR, out=C).
O(N2) -> O(N2/R)

Mix-FFN

ViTでは, 位置情報の導入にPE(Positional Encoding)を用いている. しかし, PEの解像度は固定されている. そのため, テストの解像度がトレーニングの解像度と異なる場合, 位置コードを補間する必要があり, これがしばしば精度の低下につながる. この問題を軽減するために, CPVTでは, 3×3のConvをPEと共に使用し, データ駆動型のPEを実現している. この研究では, セマンティックセグメンテーションには, 位置のエンコードは実際には必要ないと主張する. その代わりに, フィードフォワードネットワーク(FFN)に3×3 Convを直接使用することで, 位置情報をリークするゼロパディングの効果[How much position information do convolutional neural networks encode?]を考慮したMix-FFNを導入する. Mix-FFNは以下のように定式化.
xout = MLP(GELU(Conv3x3(MLP(xin)))) + xin,
ここで、xinはself-attentionモジュールからの特徴量. Mix-FFNは、各FFNに3×3ConvとMLPを混在させる.実験では, トランスフォーマーの位置情報を提供するには, 3×3畳み込みで十分であることを示した. 特に, 深さ方向の畳み込みを使うことで, パラメータ数を減らし, 効率を向上させている.

Lightweight All-MLP Decoder

SegFormerはMLP層のみで構成された軽量のデコーダを搭載しており, 他の手法で一般的に使用されている, 手作業で計算負荷の高いコンポーネントを回避している. このようなシンプルなデコーダーを可能にする鍵は, 階層型Transformerエンコーダーが, 従来のCNNエンコーダーよりも大きなeffective receptive field(ERF)を持っていることである. 提案するAll-MLPデコーダは, 主に4つのステップで構成されている.

  1. MiTエンコーダーからのmulti-levelの特徴Fiは、MLP層を経てチャネル次元を統一する.
  2. 第2段階として, 特徴量を1/4 thの大きさにアップサンプリングし, 連結する.
  3. 最後に, 別のMLP層で、融合された特徴量を用いて, H/4 × W/4 × Nclsの解像度でセグメンテーションマスクMを予測する.
    スクリーンショット 2021-10-12 17 58 17

Effective Receptive Field (ERF)

スクリーンショット 2021-10-12 15 57 21

  • The ERF of DeepLabv3+ is relatively small even at Stage-4, the deepest stage.

  • SegFormer’s encoder naturally produces local attentions which resemble convolutions at lower stages, while able to output highly non-local attentions that effectively capture contexts at Stage-4.

  • As shown with the zoom-in patches in Figure 3, the ERF of the MLP head (blue box) differs from Stage-4 (red box) with a significant stronger local attention besides the non-local attention.

CNNでは受容野が限られているため, ASPPのような受容野を広げるコンテキストモジュールに頼らざるを得ないが, どうしてもheavyになってしまう. 本研究のdecoderは, Transformersの非局所的な注意から恩恵を受け, 複雑にならずに大きな受容野を得ることができる.

しかし, 同じdecoderデザインはCNNバックボーンではうまく機能しない. なぜなら, 全体の受容野はステージ4での限定されたものによって上限されるからである. さらに重要なのは, 高度に局所的な注意と非局所的な注意の両方を同時に生成するというTransformerに起因する特徴を本質的に利用していることである.

これらを統一することで, 私たちのMLPデコーダは, わずかなパラメータを追加するだけで, 補完的で強力な表現をレンダリングする.

検証

スクリーンショット 2021-10-12 22 26 51

スクリーンショット 2021-10-12 22 27 22

新規性

議論,展望

Comment

date

Oct. 12nd, 2021

EDVR: Video Restoration with Enhanced Deformable Convolutional Networks

INFO

author

Xintao Wang1, Kelvin C.K. Chan2, Ke Yu1, Chao Dong3, Chen Change Loy2

affiliation

1CUHK - SenseTime Joint Lab, The Chinese University of Hong Kong, 2Nanyang Technological University, Singapore, 3 SIAT-SenseTime Joint Lab, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences

conference or year

Winning Solution in NTIRE19 Challenges on Video Restoration and Enhancement (CVPR19 Workshops)

link

arXiv
実装

概要

NTIRE19チャレンジで公開されたREDSというチャレンジングなベンチマークに2つの側面から挑戦した研究.
(1)大きな動きを持つ複数のフレームのアライメント (alignment)
(2)多様な動きやブレを持つフレームをどう効果的に融合させるか (fusion)
この研究ではEnhanced Deformable convolutionsを用いたEDVRというフレームワークを提案.

  • 大きな動きに対応するためにPCD(Pyramid, Cascading, Deformable)アライメントモジュールの提案
  • 時空間的に注目し重要な特徴を強調して復元する TSA(Temporal and Spatial Attention)モジュールを提案

NTIRE19のタスクの全てで1位に位置し, 2位と大差をつけた. ほかにも,deblurring, Super ResolutionのSoTAモデルと比較しても優れた性能が示された.

REDSについて

既存のデータセットと比較して, より大きく複雑なモーションが含まれている.

課題

最近の研究ではfeature extraction, alignment , fusion, reconstructionの4つの側面から構成されるパイプラインでアプローチされる. ここで, オクルージョンや大きな動きや激しいブラーが含まれる場合, alignmentとfusionの設計に課題があると言える.

alignment

ほとんどの既存のアプローチは, 2つのフレームの間のoptical flowを明示的に推定することでアライメントを行っている. また, 別の研究では, dynamic filteringやdeformable convolutionによって暗黙の動き補償を実現. REDSのようなオクルージョン, 大きく複雑な動きを含む動画において, 特にflow baseの手法では, flow推定とwarpingが難しく, 時間がかかる.(大きなモーションだと明示的, 暗黙的にモーションの補正を行うのが難しい)

fusion

整列したフレームからの特徴を融合することはビデオ復元タスクにおいて重要なステップである. 既存手法での多くは畳み込みを全てのフレームに対して行うか, RNNを用いて複数フレームを段階的に融合するかのいずれかである.これらの既存の手法は各フレームの基本的な視覚情報を考慮できていない. いくつかのフレームや領域が不完全なalignmentやブラーの影響を受けているので, 異なるフレームや場所が同じように情報を持っているわけでも, reconstructionにも有益でない.

提案手法

image

PDC Module

PDCモジュールは, TDANを元に考案された. deformable convolutionを用いて, 特徴レベルで各隣接フレームをreferenceフレームにアライメントする. TDANと異なる点は大きく複雑な動きに対応するためにcoarse to fineでアライメントを行う.
具体的にはOptical flowと同様な考え方で, 低スケールの特徴を大雑把に推定して、アライメントを行い, 次にオフセットとアライメントされた特徴をより大きいスケールで伝播し, 正確な動きの補正を行うといったピラミッド構造を採用.
さらにアライメントの後にdeformable convolutionをcascadeすることでアライメントをより頑健にしている.
image
image

TSA

TSAは複数のアライメントされた特徴の情報を集約する. referenceフレームと各隣接フレームの特徴の要素ごとの相関を計算して, 時間的なAttentionを導入. 相関係数は, referenceフレームを再構成するときにどれだけ情報量が多いかを示す, 各1における各隣接特徴の重み付けを行う. その後空間的なAttentionを適用して, 各チャンネルの各位置に重みを割り当てることで, チャンネル間, 空間的情報を有効的に活用.
image
image

検証

定量評価

image

定性評価

image

新規性

  • PCD alignment, TSA fusion moduleの導入
  • NTIRE19 challengeの4つのトラック全てで優勝
  • video super resolution, video deblurringで既存のSoTAモデルより優れた性能を示した.

議論,展望

Comment

date

May 18th, 2021

Robust Object Detection Under Occlusion With Context-Aware CompositonalNets

INFO

author

Angtian Wang, Yihong Sun, Adam Kortylewski, Alan Yuille

affiliation

Johns Hopkins University

conference or year

CVPR 2020

link

arXiv
実装

関連研究paper
関連研究github
著者ページ

概要

スクリーンショット 2021-11-25 15 09 41

部分的に隠蔽された物体を検出することは難しい課題である. 実験結果によると, Faster R-CNNのような深層学習アプローチは, オクルージョン下での物体検出においてロバストではない. Compositional convolutional neural networks (CompositionalNets)は, 物体をパーツの組み合わせとして明示的に表現することで, オクルージョン下の物体の分類に頑健であることが示されています. 本研究では, 合成ニューラルネットワークの2つの限界を克服することで, 部分的に隠された物体の検出を可能にすることを提案する.

  1. CompositionalNetsは, 他のDCNNアーキテクチャと同様に, コンテクストの表現をオブジェクト自体から明示的に分離しません. そのため, 物体が強く遮蔽されている場合, 文脈の影響が大きくなり, テスト時の検出に重大な悪影響を及ぼす可能性があります. この問題を解決するために, 我々は学習時にバウンディングボックスのアノテーションを用いて文脈を分割することを提案する. そして, このセグメンテーションを利用して, コンテキストとオブジェクトの表現を分離したコンテキスト認識型のコンポジションネットを学習する.
  2. コンポジションネットのパーツベースの投票スキームを拡張し, オブジェクトのバウンディングボックスのコーナーに投票することで, 部分的に隠蔽されたオブジェクトのバウンディングボックスを確実に推定することを可能にする.

実験の結果, 提案モデルはロバストに物体を検出することができ, Faster R-CNNと比較して, PASCAL3D+およびMS-COCOの強いオクルージョンを持つ車両の検出性能をそれぞれ41%、35%向上させることができた.

提案手法

検証

新規性

議論,展望

Comment

date

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

INFO

author

Zhigang Dai1,2,3*, Bolun Cai2, Yugeng Lin2, Junying Chen1,3†

affiliation

1School of Software Engineering, South China University of Technology
2Tencent Wechat AI
3Key Laboratory of Big Data and Intelligent Robot
(South China University of Technology), Ministry of Education

conference or year

CVPR 2021

link

arXiv
実装

概要

Transformersを用いた物体検出モデルDEtection with TRnsformers (DETR)はtransformerのencorder-decorderを介して物体検出を直接予測問題として捉えるフレームワークである. hand-designed sample selection と non-maximum suppressionを用いずFaster R-CNNに匹敵する性能に達する. しかしながらDETRには訓練と最適化において課題があり, 大量のデータと長い時間の訓練を要する. そのため, PASCAL VOCではCOCOよりもインスタンスとデータが少ないがために, パフォーマンスが低い.

DETRにおいて, CNN backboneは事前学習されているが, transformer moduleは事前学習されていない. また, 最新の研究ではcontrastive learningなどが注目されているが, DETRは画像インスタンスベースやクラスターベースのcontrastive learningではなく, 主にspatial localization learningに焦点を当てているため, DETRのtransformerに直接適用することができない.

この研究では自然言語処理学習における教師なし事前学習にヒントを得て, 大規模なデータセット(e.g. ImageNet)上でDETRのtransformerを教師なしで事前学習し, 物体検出を下流のタスクとして扱うことを目的とする. 既存のpretext taskはDETRのtransformerを事前学習するのには実用的ではないため、"random query patch detection"という新しい教示なしのpretext taskを提案し, 人間のアノテーションなしでmodelを事前学習する. 具体的には与えられた画像から複数のクエリパッチをランダムに切り出し, 与えられた画像内のこれらのクエリパッチのbboxを予測するように検出用のtransformerを事前学習させる.
事前学習の際に, 以下の重要な問題に取り組んだ:

  • Multi-task learning: 物体検出は, オブジェクトの分類とローカライズの複合である. クエリによるパッチ検出が分類特徴を破壊することを避けるために凍結した事前学習済back boneとパッチ特徴再構成を導入し, transformerの特徴識別を保持する.

  • Multi-query localization: 異なるオブジェクトのクエリは異なる位置エリアとボックスサイズにフォーカスする. この特性を説明するために, シンプルなsingle-queryの事前学習を提案し, それをmulti-queryバージョンに拡張する. multi-query パッチに対しては, クエリパッチとオブジェクトクエリ間の割り当て問題を解決するために, object query shuffleとattention maskを設計する.

この研究では, 提案手法をUnsupervised Pre-training DETR (UP-DETR)と名づけた. また, VOCとCOCOを用いてFaster R-CNN, DETRベースラインに対するUP-DETERの性能を評価した. VOCにおいてUP-DETRは終息が早くDETRの精度を大幅に上回り, COCOにおいても収束速度と精度の両方でDETRを上回った.

スクリーンショット 2021-06-23 0 00 45

提案手法

スクリーンショット 2021-06-23 0 00 32

検証

PASCAL VOC Object Detection

スクリーンショット 2021-06-23 14 24 24

AP, AP50, AP75 で比較. 事前学習モデルの有効性を強調するために, DETRとUP-DETRの両方について, 150と300のエポックの結果を報告.

PASCAL VOCではDETRのパフォーマンスが低いことがわかる. VOCのデータは比較的小規模であるため, UP-DETRの事前学習モデルは, 短いスケジュールと長いスケジュールの両方でDETRのパフォーマンスを大幅に向上させる: 最大+6.2(+3.1) AP, + 5.2(+2.1) AP50および+7.5(+3.7)AP75 それぞれ150(300)epoch. さらに, UP-DETR(R50)は, Faster R-CNN(R50-C4)と同等の結果を実現. UP-DETRとDETRの両方が, Faster R-CNNよりもパフォーマンスが少し悪いことがわかる. これは, 特徴マップの比率が異なり(C4 for Faster R-CNN)、NMSがないことに起因する可能性がある.

Figure 2. において, UP-DETRは150epochで56.1AP, DETRは300epochで54.1APこれは, 不十分なトレーニングデータには事前学習されたトランスフォーマーが不可欠であることを示唆している.

COCO Object Detection

スクリーンショット 2021-06-23 14 23 52
スクリーンショット 2021-06-23 14 24 07

COCOデータセットには, DETRのパフォーマンスが低い小さなオブジェクトがたくさんあるため, AP, AP50, AP75, APS, APM, APLで比較.

Table 2. において, 150epochでUP-DETRはDETRを0.8AP上回り, Faster R-CNN-FPNと比較して同等のパフォーマンスを実現.
Figure 2 (b)において, 150, 300 epochのスケジュールの両方でDETRを上回り, 収束が早くなる.

Ablation Study

スクリーンショット 2021-06-23 15 48 44

新規性

  • DETRの変換器を教師なしで事前学習するために, ランダムクエリパッチ検出と呼ばれる新しいプレテキストタスクを提案.
  • UP-DETRは, 教師なしの事前学習を行うことで, PASCAL VOCにおいて高い精度と高速な収束を実現し, DETRを大差で凌駕.
  • 十分なトレーニングデータを持つ難易度の高いCOCOデータセットでは, 長時間のトレーニングスケジュールを組んでもUP-DETRがDETRを上回った. これは物体検出において, 訓練データの規模が異なる場合には, 事前に変換器を訓練することが不可欠であることを示している.

議論,展望

CNNとtransformerの事前学習をend-to-endの統一されたフレームワークに統合し, UP-DETRをより下流のタスク(例えば、few-shotの物体検出や物体追跡)に適用できることが期待される.

Comment

date

Jun 23rd, 2021

Auto-Exposure Fusion for Single-Image Shadow Removal

INFO

author

Lan Fu1*, Changqing Zhou2∗, Qing Guo2†, Felix Juefei-Xu3, Hongkai Yu4, Wei Feng5, Yang Liu2, Song Wang1

affiliation

1University of South Carolina, USA, 2Nanyang Technological University, Singapore 3Alibaba Group, USA, 4Cleveland State University, USA, 5Tianjin University, China

conference or year

CVPR2021

link

arXiv
実装

概要

スクリーンショット 2021-10-21 21 56 35

Abstract

Shadow Removalは固有の背景依存と空間的に変化する特性があり, 未知の多様な影のパターンに繋がるため, 依然として困難なタスクである. 強力なDNNを用いたとしても, trace-lessな影が除去された背景を修復することは難しい.
本研究では, これらの課題をexposure fusion problemとして定式化し, 新しい手法を提案. 直感的には, まず複数のover-exposure画像を入力画像に対して推定し, これらの画像の影の領域が入力画像の影のない領域と同じ色になるようにする. そこから元の入力画像とfusionして最終的なshadow-free imageを生成する. しかし, 影のspartial-variantな性質はfusionがより"smart"であることを要求する. そのため, 最終的な出力をナチュラルにするために自動的にそれぞれの画像から適切なover-exposure pixelを選択する. その問題に対応するために, この研究ではshadow imageを入力として,全てのover-exposure imageに渡ってfusion weight mapを生成するためのshadow-aware FusionNetを提案した. さらに, 残った影の痕跡をさらに除去するために, boundary-aware RefineNetを導入する. ISTD, ISTD+, SRDデータセットにおいて, 大規模な実験を行い有効性を検証したところ, shadow regionではSoTA, non-shadow reagionでは同等の性能を示した.

Introduction

影は光源が遮断されたほとんどの自然画像に存在する.影の領域に現れるspatial-variantな色やillumination distortionはobject detection, object tracking, object recognition, semantic segmentationなど,他のCVタスクのパフォーマンスを妨げる可能性がある.Shadow Removalの先行研究では,ペアのshadow, shadow-free imageに対して物理的なshadow modelに基づいてこのタスクをモデル化するか,unpairedなshadow, shadow-free imageに対してGANに基づいたI2Iタスクとしてモデル化するかであった. しかし,GANに基づく手法,例えばMaskShadowGANによる学習されたShadow Removal transformationは,artifactやblurを発生させる傾向がある. また, これらの手法は,unpairedなデータがstatistical similarityを共有することを仮定していて(expected), データの分布のrequirementsに悩まされている. これはデータ取得が不安定な場合には満たすのが難しい. 一方, SRD, ISTD, ISTD+のような, pairedな大規模データセットが公開されており, Shadow Removalタスクが物理的に妥当な変換を教師付きで学習することができる.

この研究では, Shadow Removalタスクを実行するために, ペアの学習データに注目する. shadow castingは, 色や照明の劣化とともに画質を低下させるが,画質を向上させるためには,shadow imageのover-exposrureが有効である.直感的には, over-exposureされたものとoriginal shadow imageを融合することで,望ましいshadow-free imageを得ることができる.物理的なshadow modelに基づいた最近のshadow decompositionでは,主にshadow imageをlitバージョンにre-lightすることを学習し, シャドウマットを介して目的のshadow-free imageを得るためにそれらを融合する.しかし, shadow castingは, 背景に依存し, かつ空間的に変化する(spatial variant)ので,空間領域全体の色と照明を劣化させる(すなわち,背景画像上にキャストされた連続した影は,original shadow-free background regionがどのように見えるか,また背景画像上のシャドウが空間的にどこにキャストされているかに応じて,shadow regionが異なって見える可能性がある). (簡潔に説明すると, どのような背景に影が落ちているか(場所とか)で影の領域が異なって見えるよねって話.)
この研究では, multiple over-exposure fusionがはるかに高いレベルの柔軟性を可能にし,shadow regionをそのnon-shadow regionと同じ色と照明を持つように補償し,shadow regionのunderlyingなコンテンツをよりよくrecoverためのより良い手法を提供できると主張.

Shadow Removalは強力なDNNにとっても, いまだに困難なタスクである. 未知で多様な影のパターンは, 既存のDNNベースの手法に2つの課題がある.

  1. 影の除去は背景に依存するタスクであり, DNNは影のない領域の照明と色の一貫性を回復するだけでなく, 影の下にあるコンテンツを保存することが必要である. shadow regionの空間的に変化する特性から, 最終的にshadow-free imageを得るために, 様々な画像から所望のover-exposure pixelをadaptiveに選択するような"smart"な融合が必要となる.
  2. 境界とshadow region内のshadow patternが一致しないため, tracelessな背景を得ることは困難である.

Contributions

  • (To the best of our knowledge), 本論文はauto-exposure fusionの観点からShadow Removalに取り組んだ最初の研究である.
  • 影を正確に除去するために, 新しい学習ベースの影を考慮したFusionNetと,それに続く境界を考慮したRefineNetを提案し,複数のover-exposure mapsを正確に推定し, "smart"に融合し, maticulously refineする。
  • ISTD, ISTD+, SRDの各データセットを用いたcomprifensigeな実験結果により,提案手法はshadow regionでは既存のSoTAよりも優れた性能, NS領域では同等の性能を達成したことを示した.

提案手法

Related Works (Exposure fusion)

一般的なimaging sensorでは撮影範囲が限られているため, 現実世界ではunder/over exposedな画像になってしまいがちである. Multi-exposure image fusion (MEF)は複数のmulti-exposure imageを一つにfusingすることで画像のクオリティをrefineすることを助ける. MEFアルゴリズムはそれぞれの画像に対してfusion weight mapを計算し, weighted sumによって入力画像のシーケンスをfusingすることを目的とする. 従来の古典MEF手法では一般的にhand-craftedな特徴を用いてpixel-wiseまたは局所的にfusingする. Goshtasby et al. は, 各画像から選択された最良の露光画像をもつ一様なブロックをfusingすることで, patch-wiseなMEFを提案した. Mertens et al. はコントラストや彩度(saturation)などのperceptual factorを利用して, 効率的なpixel-wise MEFを設計した. Li et al. は,二つのスケールのdecompositionとともに, 空間的な一貫性(spatial consistency)を利用して, guided filterベースのfusion approachを提案した. Ma et al. は勾配降下法を用いて, SSIM(MEF-SSIM)を最適化することで画像をfusingした.
最近の深層学習に基づく技術は,高い表現能力により融合性能を向上させている.DeepFuseネットワークは, 画質を参照せずに損失関数を採用することで, 教師なしで多露出の融合を行った.Ma et al. よって提案されたMEF-Netは,知覚的に較正されたMEF-SSIMを最適化して,fusion weight mapを予測, refineした. これらの標準的なMEF法によるimage enhancementに加えて,最近の研究では, kernel predictionを用いてadversarial fusion weightを推定することにより,敵対的攻撃(adversarial attack)の観点から画像分類に対するMEFの効果についても議論されている.

スクリーンショット 2021-10-21 21 58 15

シャドウ領域は背景に依存し,空間的に変化する性質を持っている. つまり,シャドウ領域全体の色や照明の歪みは変化するため,"単一の"過剰露光では空間的な劣化を適応的に反映することはできない.
DNNを用いて, over-exposed shadow imageのシーケンスを生成します.次に, shadow-aware FusionNetを用いて, 入力画像の各ピクセルに渡るfusion weight mapsを生成することで,exposed imageのbracketを"smart"にfusingし,色と照明をadaptiveに回復させる. しかし, 部分的な影の領域では, 境界に沿った影のパターンと影の領域内の影のパターンが一致しないため, tracelessな背景を得ることは困難である. さらに, 境界を考慮したRefineNetを提案し, boundary maskを用いてresidual shadow traceを除去する.

Over-exposure Sequence Generation

スクリーンショット 2021-10-23 17 48 44
スクリーンショット 2021-10-23 17 59 39

ψ: DNN,
αi∈R3x1, 露光度の制御
βi∈R3x1, 強度のシフト
を用いてチャンネルごとの重み付けを行い, multiple exposure imageを得る.
ステップとしては2段階であり, まず露光画像を得るための重み付けの係数を得るために, DNN(ResNeXt)を用いてαとβの**値, αN/2, βN/2, を推定する. その推定値を用い, over-exposure imageのシーケンスが類似した色であり, かつ僅かな差があるという仮定のもと, 単純な補完を行うことで, 全ての露光画像を生成する. γは補完係数(interpolation coefficients). αN/2, βN/2のground truthはshadow imageとshadow-free imageの影領域に対して最小二乗法を実行し, 得る. DNNはそのGTと出力のMSEを取る. 露光のパラメータは, 影やカメラセンサに起因する歪みを調整するので, 色チャンネル間で独立して推定する.
スクリーンショット 2021-10-23 18 19 47

Shadow-aware FusionNet

スクリーンショット 2021-10-21 21 58 26
FusionNetはU-Net256.
単純に生成されたover-exposure imageを重み付けしてfusingするだけでは局所的な平滑性を無視しているので, 自然じゃなくノイズの多い結果を生む. そのため近傍の画素のpixel-wiseな畳み込みを行うことで, 潜在的なノイズを回避する.
その畳み込みのための, fusion kernelはFusionNetから得られる.
スクリーンショット 2021-10-23 18 16 24

Boundary-aware RefineNet

スクリーンショット 2021-10-21 21 58 40
FusionNetと同様にUNet256を用いている.
Penumbra: 影の境界に沿って部分的に影になっている領域.
penumbra maskImbは, penumbra領域のdlilated shadow maskとeroded shadow maskの差を計算することで抽出する(7ピクセルずつ, dilate/erode).
RefineNetはpixel-wiseなkernelを推定.
スクリーンショット 2021-10-23 18 42 19
F is also pixel-wise refine kernels that integrate the context of pixel’s k × k neighborhood region with that pixel to remove remaining trace.

Loss Functions

スクリーンショット 2021-10-23 18 28 18
スクリーンショット 2021-10-23 18 28 30
ラプラシアンフィルタをかけた後(つまり影のboundaryにそった領域を最小化したい), 影部分以外はshadow image, 影部分はshadow-free imageにおけるMSEを取る.

settings

  • FusionNetとψ(exposure estimation)は同時に学習. RefineNetも同時に学習するが, その際にFusionNetとψのweightは固定.
  • over-exposure imageの数: (N=5)
  • exposure parameters, scaling factor ∈ [0.95, 1.05]
  • 学習時はshadow mask(GT)を利用して, 推論時はMaskShadowGANと同様に, 影の領域を大津の二値化(+median filter)で得る.
  • SRDは影のマスクがないので上記の手法を使ったものも訓練に利用している(DHANが提供).
  • kernel size, 3x3

However, the standard deviations of the RMSE values in shadow region are significantly larger. This means that different methods including ours all perform well and very close on the non-shadow region, and the main difficulty of this problem comes from the shadow region. For the shadow region, our method obviously obtains the best performance.

検証

定性評価

スクリーンショット 2021-10-21 21 58 52

定量評価

スクリーンショット 2021-10-21 21 59 22
スクリーンショット 2021-10-21 21 59 27
スクリーンショット 2021-10-21 21 59 57

Ablation Study

スクリーンショット 2021-10-23 19 06 19
スクリーンショット 2021-10-23 19 05 12
N=5が一番良い. Lbdに効果あり.

新規性

  • (To the best of our knowledge), 本論文はauto-exposure fusionの観点からShadow Removalに取り組んだ最初の研究である.
  • 影を正確に除去するために, 新しい学習ベースの影を考慮したFusionNetと,それに続く境界を考慮したRefineNetを提案し,複数のover-exposure mapsを正確に推定し, "smart"に融合し, maticulously refineする。
  • ISTD, ISTD+, SRDの各データセットを用いたcomprifensigeな実験結果により,提案手法はshadow regionでは既存のSoTAよりも優れた性能, NS領域では同等の性能を達成したことを示した.

議論,展望

video shadow removal problem

Comment

Auto-Exposureでは, shadow-regionをnon-shadow regionと同じ色と照明を保つようにする柔軟性があると主張. 実際, Auto-ExposureではS領域のRMSEが最も低くなっている. これはS領域と比較して圧倒的にNS領域が多いために, NS領域のスコアを下げればトータルのスコアが上がるというタスク固有の問題(自分はいくつかの先行研究を読んでそう感じている)にも取り組んでいるように思える.

date

17th Oct., 2021

A Flexible Recurrent Residual Pyramid Network for Video Frame Interpolation

INFO

author

Haoxian Zhang1,3, Yang Zhao2,3, and Ronggang Wang∗1,3

affiliation

1 School of Electronic and Computer Engineering, Peking University Shenzhen Graduate School, 2 School of Computer and Information, Hefei University of Technology, 3 Peng Cheng Laboratory

conference or year

ECCV 2020

link

arXiv
実装

概要

TODO

提案手法

検証

新規性

議論,展望

Comment

date

April 16th, 2021

Blurry Video Frame Interpolation

INFO

author

Wang Shen Wenbo Bao Guangtao Zhai Li Chen Xiongkuo Min Zhiyong Gao

affiliation

Institute of Image Communication and Network Engineering, Shanghai Jiao Tong University

conference or year

CVPR 2020

link

arXiv
実装

概要

スクリーンショット 2021-04-16 11 45 06

既存研究において低フレームレートのぼやけた入力から高フレームレートのクリアなな結果を合成することに取り組んだものがほとんどない. また, ほとんどのSoTAなFrame Interpolation methodは, 最初にオブジェクトの動きを推定し, 次にフレームワーピングを実行して, 参照フレームを使用してピクセルを合成する. しかし, 元の参照フレームがモーションブラーによって劣化している場合, モーション推定は正確でない可能性がある. したがって, 既存のフレーム補間アプローチを介してクリアな中間フレームを復元することは困難である.

いくつかの既存手法は, フレームのブレ除去->フレーム補間を実行するカスケードモデルを使用.
しかし,補間のパフォーマンスは, ぼけのない画像の品質に大きく依存する. ほとんどのフレーム補間法は, 2つの連続するフレームを参照として使用しており, Deblurring が不完全である場合スコープが短い補間モデルでは, 隣接するフレーム間の長期的なモーションの一貫性を維持することはほとんどできない.

他に考えられる手法として, フレーム補間->フレームのブレ除去という順序で行うという手法があるが, Fig. 1に示されているように, 補間されたフレームは入力のテクスチャがぼやけているため, 全体的な品質が低下している.

この論文では, pyramid structureとpyramid recurrent moduleを含むBlurry video frame INterpolation (BIN) method を提案. ピラミッドモジュールの柔軟な構造により, 計算量と復元品質の間でトレードオフを行うことも可能.

従来の復元評価基準に加えて, 合成されたビデオシーケンスの動きの滑らかさを評価するためのオプティカルフローベースのmetricも提案. Adobe240, YouTube240において, 提案手法が良好な性能を持つことを示した.

提案手法

reccurent moduleにはConvLSTMを使用.
スクリーンショット 2021-04-16 11 45 21

スクリーンショット 2021-04-16 13 15 29

Loss Function.

スクリーンショット 2021-04-16 14 11 10

検証

スクリーンショット 2021-04-16 13 15 42

より大きいスケールのモジュールを使うほどよりクリアなフレームが生成されている. ($l$ = 2, 3, 4). もちろんruntimeとparameters数も共に増加している. トレードオフ可能.

スクリーンショット 2021-04-16 13 15 52

reccurent moduleを使わない場合と比較から, reccurent moduleの有効性が見られる. また通常のLSTMよりもConvLSTMを用いた場合のほうが高いスコアを示している.

スクリーンショット 2021-04-16 13 46 05

Frame interpolationにおいて スコアでSoTA手法を上回っている. 理由として考えられることは, 1つのぼやけたフレームには複数のsharpなフレームの情報を含まれていて, 比較対象の既存手法では2つのsharpなフレームしか使用していない. 提案手法では複数のぼやけたフレームを使用して中間フレームを合成しているため, より多くの時空間情報を活用できている.

新規性

  • カメラの持つmotion blurとframe rateに関わる内在的な性質を調査し, deblurringとframe interpolationの問題を定式化.

  • blurを低減し, フレームレートを上げるためのぼやけたビデオフレームの補間法を提案し, 生成されたフレーム全体でtemporal consistencyを強制するためのinter-pyramid recurrent moduleを提案.

  • 提案手法が時空間情報を十分に活用し,SoTAと比較して良い結果を示した.

議論,展望

Comment

提案手法で補完された中間フレーム I t=0.5 がEDVR(おそらく使用するFrame数の条件は同じ? EDVRが7FrameならBINは4Frame)に匹敵する性能が出ている. 使用しているデータが240fpsなので, Frameレートが低い場合どの程度Deblurringの性能に差が出るのか実験するべきな気がする. fpsが低いほどフレーム間の差がより大きくなってしまうので, 提案手法が不利になりそう.

追記
これがなんか似てる気がする.
A Flexible Recurrent Residual Pyramid Network for Video Frame Interpolation(ECCV 2020)
https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700477.pdf

date

April 16th, 2021

Fast Soft Color Segmentation

INFO

author

Naofumi Akimoto1*, Huachun Zhu2, Yanghua Jin2, Yoshimitsu Aoki

affiliation

Keio University, 2Prefered Networks

conference or year

CVPR 2020

link

arXiv
実装

概要

この研究では, Soft Color Segmentation(似た色を含む複数のRGBAレイヤーに分解)を行う.
従来手法では処理時間が遅く, 特定の実世界のシナリオにスケーリングできないという問題があったが, この手法は従来の手法と同等の質的・量的な結果と, 30万倍の速度向上を実現した. 特に動画編集における速度の優位性を実証した.

提案手法

スクリーンショット 2020-06-16 22 56 13

従来手法のoptimization-based, geometric approachに代わり初めてNeural Networkベースの手法を提案.提案手法は, Palette Color Selection, Alpha Layer Estimation, Color Layer Estimationの3段階から構成される.

  • Palette Color Selection
    K-meansを使用して, 入力画像のピクセルを3次元RGB空間のK個のクラスタに分割. このクラスタの中心のRGB値をパレットカラーとして選択. 手動での選択も可能.

  • Alpha Layer Estimation
    U-Netを用いてアルファ値の単色画像であるK個のアルファ層を出力.(Alpha predictor)
    出力を正規化する. また推論のために, 正規化に加えて様々な種類のアルファ層処理を加えることが可能. (alpha layer processing)

  • Color Layer Estimation
    パレットカラーとアルファ層だけでは, 元の画像を再構成するには不十分なので色のバリエーションを導入するために, パレットカラーから色の残差を推定する. (Residue predictor)
    最終的なRGBA層は, チャンネル軸に沿ってRGB層と正規化されたアルファ層を連結.
    (Residue predictor networkは, 入力チャンネルと出力チャンネルの数を除いて, アルファ予測器と同じアーキテクチャ.(U-Net))

検証

定性評価

スクリーンショット 2020-06-16 22 35 24

定量評価

  • Speed
    Neural Networkベースの手法は、最新の手法に比べて大幅な速度向上が見られることが示された.

スクリーンショット 2020-06-16 22 40 17

  • Reconstruction error
    PSNR, SSIM, Sparsity, Color Varianceを用い比較.それぞれablation studyは以下のTable.

スクリーンショット 2020-06-16 22 37 55

新規性

  • Soft Color Segmentationのための初のニューラルネットワークベースのアプローチと新しい学習目的を提案.
  • 同等の視覚品質を維持しつつ, 最新の手法と比べてかなり高速.
  • 実用的なアプリケーション, 特にビデオ編集に適用し, 前例のない効率性を実現.

議論,展望

Alation Studyにてプレーンなシングルネットワークを使用すると, 再構成の誤差が大きくなっていた. 入力としての正確なアルファ層が残差予測器の性能を向上させると考えられる. 具体的には, この研究では平滑化フィルタを適用してアルファ層からcheckerboard artifacts(格子状の模様)を除去し, 処理されたアルファ層に基づいてRGBチャンネルを予測している.
そこで, アルファチャンネルとRGBチャンネルを同時に予測するニューラルネットワークに平滑化フィルタ処理を組み込む方法がないか考えられる.

Comment

date

June 18th, 2020

GAN-Supervised Dense Visual Alignment

INFO

author

William Peebles1 Jun-Yan Zhu2 Richard Zhang3 Antonio Torralba4 Alexei A. Efros1 Eli Shechtman3

affiliation

1UC Berkeley 2Carnegie Mellon University 3Adobe Research 4MIT CSAIL

conference or year

CVPR 2022 - Oral Presentation

link

project page
arXiv
実装

概要

  • dense visual alignmentタスクにてGANで生成されたデータのみで学習.
  • Inspired by the classic Congealing method, our GANgealing algorithm trains a Spatial Transformer to map random samples from a GAN trained on unaligned data to a common, jointly-learned target mode.
  • 8つのデータセットにおいて既存のself-spervised learningを大きく上回る, supervised learningに匹敵ないし上回る性能を達成.

pair-wise alignmentではなくglobal joint alignment(データセット全体で画像のalignmentを行う)問題.joint alignmentされたデータセットで学習するとアライメントされていないデータで学習するよりも高品質の生成モデルを生成できるという報告もある(FFHQ, AFHQ, CelebA等)

提案手法

スクリーンショット 2022-05-30 15 03 06

$G$: StyleGANv2
$T$: Spatial Transformer Networks
$w$: latent vector $w$~$W$
$c$: fixed latent vector

$G$はunaligned dataで学習.Gは入力に関してdifferentialbleなので,$c$を最適化可能.
Tが変換するのが容易になるようなfixed latent vector $c$になるように調整.より多くの画像から到達可能な別のベクトルに最適化.

スクリーンショット 2022-05-30 15 14 15

このままでは同じようなターゲットイメージを得るのには適していない.$G(c)$が$G(w)$の外観を維持しながら,姿勢と方向が同じターゲットを構築できることが理想なので,$w$を$c$の一部に一致するようにして学習.
実際,$mix(c, w)$はstyle mixingを行っている.$c$でラフにpose等をコントロール.$w$を後半のレイヤーに与えて,texture等をコントロール.

スクリーンショット 2022-05-30 15 14 20

$c$は$W$空間のtop-N主成分方向$d$の線型結合で表される.実際に$c$は直接最適化されておらず,主成分係数$\alpha$を最適化している.

スクリーンショット 2022-05-30 15 24 57

$ \bar{w} $はmean $w$ vector. これはStyleGANの$W$空間はかなり表現が豊かなので,制約がない場合($c$をそのまま最適化)すると,自然画像のmanifoldから遠いpoorな画像が生成される.Nを小さくし,$c$をmanifold上に維持する.

LSUN Horsesは非常に多様な姿勢を持つデータセットであるため,クラスタリングを施して,それぞれのクラスタごとに$T$を学習させている.実画像でテストを行う際には,対応するクラスタを見つける必要がある.そこで,GAN Inversionなどの方法が考えられるが,ここでは単純な分類を行って該当するクラスタを判定している.分類機には$T$の重みを用いる (warpのためのheadをランダムに初期化したclassificationのheadに置き換えている).
スクリーンショット 2022-05-30 15 24 57

検証  

スクリーンショット 2022-05-30 15 04 52

スクリーンショット 2022-05-30 15 04 12

ablation study

スクリーンショット 2022-05-30 15 04 29

新規性

In this paper, we showed that GANs can be used to train highly competitive dense correspondence algorithms from scratch with our proposed GAN-Supervised Learning framework.

議論,展望

Comment

date

30th May., 2022

TuiGAN: Learning Versatile Image-to-Image Translation with Two Unpaired Images

INFO

author

Jianxin Lin1*, Yingxue Pang1*, Yingce Xia2, Xhibo Chen1†, and Jiebo Luo3

affiliation

CAS Key Laboratory of Technology in Geo-spatial Information Processing and Application System, University of Science and Technology of China, 2 Microsoft Research Asia, 3 University of Rochester

conference or year

ECCV 2020

link

arXiv
実装

概要

image

  • 2枚のunpairedな画像のみで学習するTuiGANを提案.
  • cGANをピラミッド構造に並べ, 画像を粗いレベルから詳細レベルに段階的に翻訳する.
  • 十分な量のデータで学習する既存のunsupervised image-to-image translation(UI2I) SoTAモデルと同等の性能を達成. 様々なUI2Iタスクに対応できることを実証した.

提案手法

既存の ones-shot cross-domain変換問題において逆方向の変換は難しかった. 提案手法では2枚のunpairedなイメージにおいて両方向の変換を実現することに着目をした.
SinGANにおいて, ピラミッド構造のGANをpatch distributionを異なるスケールにおいて学習させている. しかし1枚の画像のみしか考慮していないのでペア間の関係を捉えてはいない. 対照的に提案手法においてソースとドメインの分布の関係を学習し, 構造的を保ったまま変換を行うことを可能にした.

network architecture

image
image
image

データが非常に限られているので, マルチスケール(scale factor (1/s)n)なGANを用いて段階的に画像を洗練していく. (低解像度->高解像度, ↑はbicubicによるupsampling)

Attention maskとpixel-wiseに掛けることで, generatorが現在のスケールの詳細部と, 一つ前のスケールの大域的な構造をうまく保つように合成する.

Loss Functions

  • Adversarial Loss(WGAN-GP)
  • cycle-consistency loss
  • identity loss
    image
  • total variation loss

検証

定性的評価

image

定量的評価

image

ablation study

image
image

新規性

  • 2枚のunpairedな画像のみで学習するTuiGANを提案.
  • 様々なUI2Iタスクに対応できることを実証した.

議論,展望

Comment

同じ1ペアによる画像変換↓
Structural-analogy from a Single Image Pair

date

November 12th, 2020

Attention-Guided Hierarchical Structure Aggregation for Image Matting

INFO

author

Yu Qiao1,*, Yuhao Liu1,*,Xin Yang1,4,†,Dongsheng Zhou2,Mingliang Xu3,Qiang Zhang2,Xiaopeng Wei1,†

affiliation

1Dalian University of Technology, 2Dalian University, 3Zhengzhou University
4Beijing Technology and Business University

conference or year

CVPR 2020

link

Paper
実装

概要

image
 本論文では,追加入力を必要とせずに単一のRGB画像から高品質のalpha matを予測できるHierachical Attention Matting Network(HAttMatting)を提案. SIMIM(Structural SIMilarity), 平均二乗誤差(Mean Square Error: MSE), 敵対的損失(Adversarial loss: Adversarial loss)を融合させたハイブリッド損失関数を導入し, 前景の構造をさらに改善するようにネットワークを誘導.
RGB画像のみの入力でSoTAレベルの性能を達成できることを実証.

提案手法

既存手法の問題点

 既存の古典的手法では追加入力であるtrimap(FG, BG, トランジション領域(FGの境界)で構成)やscribble(これら三つの要素をユーザーが指定)によって Fore Ground のopacityを実現. 大多数の手法では, FG構造を認識するための必須の支援としてtrimapを利用. しかし, FGとBGが似たような色を共有している場合, 従来のアプローチでは通常明らかなartifactが発生する.
 既存のDeepLearningベースの手法では強くtrimapに依存していたり, segmentationを利用したものも存在するがsegmentationが適用できない場合には難しいなどの問題がある.

image
 Back BoneとしてResNeXtを使用.
 また, PatchGANを参考にした識別ネットワークを利用して, アルファマットの視覚的品質を向上.

Pyramidal features distillation

 adaptive semantic attributesの蒸留のため, pyramidal featureにおけるchannel-wise attentionを行う.
 channel-wise attentionは, image mattingに適応したpyramidal featureを選択し, FG profileとカテゴリ属性を保持.

Appearance cues filtration

 spatial attentionを導入し, BG内にあるappearance cueをフィルタリング(reduction)し, FG内appearance cueの同時に強調. 具体的には, カーネルサイズ 1 x 7 と 7 x 1 を用いて, 水平方向と垂直方向のattentionをそれぞれ実行.
 BGに属するテクスチャやディテールを除去し, 初期のappearance cueを処理するためのattentionとして機能.

Loss Function

image
image
 I は入力画像, A は予測されるalpha mat
image
 Ωは設定されたピクセルを表し, |Ω|はピクセル数(入力画像のサイズ).αpiとαgiは,ピクセルiにおける予測alpha値とGT.
image
 μとσは平均と標準偏差

検証

Evaluation on the Composition-1k test set.

定性評価

image

定量評価

image
 ほとんどの手法より優れていることがわかる.
 Context-Aware と IndexNetにはやや劣っているが, 両者と違い提案手法はtrimapを必要としない.

Evaluation on our Distinctions-646.

定性評価

image

定量評価

image
 ほとんどの手法より優れていることがわかる.DIMと比較しSADが劣っているが, これも同様にtrimapを必要としないという点で優れている. またFigure5 からDIMがtrimapに強く依存していることがわかる.

新規性

  • end-to-endのHierachical Attention Matting Networkを提案. HAttMattingは, RGB以外の入力を必要としないため, 初心者にとって非常に便利であり,様々な種類のオブジェクトに効果的に適用することができる.

  • appearance cuesとadvanced pyramidalな特徴を集約し, より細かい境界とadaptive semanticsを生成することができる階層的なattention mechanismを設計.

  • alpha perceptionを改善するために, 平均二乗誤差(MSE), Structual SIMilarity(SSIM), 敵対的損失(Adversarial Loss)のハイブリッド損失を利用し, HAttMatting訓練のための効率的なガイダンスを提案.

  • 59,600枚のトレーニング画像と1000枚のテスト画像からなる大規模なマットデータセットを作成し, 合計646枚の異なる前景alpha mattesを作成. 多様な前景オブジェクトを持つ最大のmat datasetであり, HAttMattingの堅牢性をさらに向上.

議論,展望

In the future, we will explore more effective strategies to improve our attention mechanism, which we believe can more effectively aggregate advanced semantics and appearance cues, thus further improve the versatility and robustness of our network.

Comment

date

July 9th, 2020

Compositional Convolutional Neural Networks: A Deep Architecture with Innate Robustness to Partial Occlusion

INFO

author

Adam Kortylewski Ju He Qing Liu Alan Yuille

affiliation

Johns Hopkins University

conference or year

CVPR2020

link

arXiv
実装

概要

スクリーンショット 2021-11-25 14 11 22

近年, 深層畳み込みニューラルネットワーク(DCNN)は, 部分的なオクルージョンの下ではうまく一般化できないことがわかっている. 本研究では, 部分的に隠された物体の分類に成功した構成モデルにヒントを得て, 構成モデルとDCNNを統合し, 部分的なオクルージョンに対して生来のロバスト性を持つ統一された深層モデルを提案する. このモデルを「Compositional Convolutional Neural Network」と呼ぶ. 特に, DCNNの完全連結された分類ヘッドを, 微分可能な構成モデルに置き換えることを提案. Compositonalモデルは生成的な性質を持っているため, オクルーダーを特定し, その後, オブジェクトの非オクルーダー部分に焦点を合わせることができる. 本研究では,人工的にocclude化した画像と, MS-COCOデータセットに含まれる部分的にocclude化した物体の実画像を用いて分類実験を行った.その結果,DCNNは,部分的なオクルージョンが強く付加されたデータで学習しても,オクルージョンされたオブジェクトをロバストに分類できないことがわかった.提案モデルは、部分的に隠された物体を分類する際に, 学習時に隠された物体を見ていない場合でも, 標準的なDCNNよりも大きなマージンで優れている. さらに, クラスラベルのみを用いて学習したにもかかわらず, コンポジショナルネットはオクルーダーを正確に特定できることを実験で示した.

提案手法

検証

新規性

議論,展望

Comment

date

Block-wise Scrambled Image Recognition Using Adaptation Network

INFO

author

Koki Madono1,2, Masayuki Tanaka2, Masaki Onishi2, Tetsuji Ogawa1,2

affiliation

1Department of Communications and Computer Engineering, Waseda University
2The National Institute of Advanced Industrial Science and Technology

conference or year

2020

link

arXiv
実装

概要

セキュリティのため,ブロック単位で画像をスクランブルにすることによって,第三者に対して知覚情報を隠す.
さらに,そのスクランブルされた画像を認識するためのネットワークを提案.
CIFARを用いて実験を行ない,DNNのみによる単純な画像分類より提案ネットワークを導入した方が良い性能を示すことを実証.

提案手法

スクリーンショット 2022-09-06 16 41 04
スクリーンショット 2022-09-06 16 41 13

検証

スクリーンショット 2022-09-06 16 42 48

新規性

議論,展望

Comment

ネットワークの比較に関して,比較手法である

  • Image Scramblingされた画像をそのまま入力
  • Blockに分割したものをsub-networkに入力して,特徴量をintegration&rehape
    の二つはこの論文で提案したELEがブロックの位置の入れ替えをしていることを考えると,性能が出ないのは直感的にあたりまえな気がする.

じゃあなぜ提案手法が良い結果を残したのか.
ブロックの入れ替え方はkeyによって操作されており暗号化されているため,パッチの位置は意味を持っていない.なので,提案ネットワーク含めどのネットワークもそもそもブロック単位での位置(元の画像の位置)は学習できていないと思われる.

ではなぜ提案手法が良い結果を出したのか?
->特徴的に意味があるブロック単位で特徴を圧縮し,それを全結合層で位置関係を考慮せず混ぜ混ぜにしてるから?
ある意味globalな情報を使っていると考えられるのでは?

通常のDNNベースもある程度全体の画像を低次元に圧縮しているので,位置的不変性はあると思うが(なのでLE-AdaptNetよりはかなりいい精度を出している).一度ちゃんと区切られている領域で圧縮し学習した方が精度がいいのだろう.

date

Sep. 6th, 2022

High-Resolution Daytime Translation Without Domain Labels

INFO

author

I.Anokhin1*, P.Solovev1*, D.Korzhenkov1*, A.Kharlamov1*, T.Khakhulin1,3, A.Silvestrov1, S.Nikolenko2,1, V.Lempisky1,3, G.Sterkin1

affiliation

1Samsung AI Center, Moscow
2National Research University Higher School of Economics, St.-Petersburg
3Skolkovo Institute of Science and Technology, Moscow

conference or year

CVPR 2020

link

arXiv
実装

概要

image
この研究では学習中も推論中もドメインラベルに依存しない, 高解像度で同じシーンにおける異なるイルミネーション下の変換(HiDT)モデルを提案. HiDTは, generativeなI2Iモデルと, 高解像度での画像変換を可能にする新しいアップサンプリングスキームを組み合わせたものである. 昼間のラベルが利用できない静止風景画像のデータセットでトレーニングを行った結果として優れた性能が得られた. 1枚の画像からタイムラプスを生成することが可能である.
以下この研究の貢献を示す.

  • ドメインラベルのない無調整画像の大規模なデータセットに対して, マルチドメインI2Iモデルを学習する方法を示した.
  • 詳細予測を確実に行うために, skip connectionとadaptive instance normalizations (AdaIN)を組み合わせたI2Iのためのアーキテクチャを提案.
  • 高解像度での画像から画像への変換という課題に取り組む.

提案手法

従来のimage translationモデルは, cGANを利用して, 対象の属性やドメインに関する情報を入力.
この研究では, タイムスタンプも空間的な整列(i.e.タイムラプスフレームのような)も必要としない.
最近の生成モデルは, メモリの制約のために高解像度の入力画像にスケールするのが難しい場合が多く, ほとんどのモデルはトリミングされた部分や縮小された画像で学習される. 従来のアプローチでは画像のエッジ付近でハロータイプのartifactが発生することがよくあり, 高解像度でもっともらしい画像を生成するためには, 翻訳出力をアップスケールしてartifactを除去するための追加のenhancement ステップが必要になる.
提案手法はpix2pixHDのアプローチに似ているが,特徴量を学習するのではなく,古典的なマルチフレーム超解像アプローチに触発された方法で,低解像度の変換を直接利用.

image
コンテンツエンコーダEcは,いくつかの畳み込みダウンサンプリング層と残差ブロックを使用して,初期画像を3Dテンソルcにマッピング.スタイルエンコーダEsは完全畳み込みネットワークであり,グローバルプーリングと圧縮1×1畳み込み層で終了する.生成器Gは, AdaINモジュールを内部に含む複数の残差ブロックでcを処理し, アップサンプリング.

昼間の風景画像を作成するためには, モデルは元の画像から細かいディテールを保存しなければならない.この要件を満たすために, エンコーダEcのダウンサンプリング部とジェネレータGのアップサンプリング部の間にスキップ接続を設けて, エンコーダとデコーダのアーキテクチャを強化.通常のスキップ接続では, 初期入力のスタイルが出力にleakしてしまうのでAdaINを用いた畳み込みブロックを追加導入し, スキップ接続に適用.

image
副産物として最先端のセグメンテーションを達成することを目指しているわけではないが, セグメンテーション損失を持つことはスタイルの伝達を制御し, 意味的なレイアウトを維持するのに役立つ. セグメンテーションマスクはネットワークへの入力として与えられないため, 推論時には不要.

Notation
HiDTでは2つのエンコーダーを使用. Ec : X → C は入力画像 x の内容表現 c を抽出し, Es: X → S は入力画像 x のスタイル表現 s を抽出.コンテンツコードc∈Cとスタイルコードs∈Sが与えられると, デコーダ(生成器)G : C × S → X × Mは, 新しい画像x^とそれに対応するセグメンテーションマスク m^を生成.具体的には,(xˆ, mˆ ) = G (Ec(x), Es(x′)) のように,xの内容と別の画像x′のスタイルを組み合わせることができる.
また, 学習時には, S上の事前分布p∗からサンプリングしたランダムスタイルコードsrを考慮し, コンテンツコードcとランダムスタイルsrにそれぞれデコーダを適用することで, ランダムスタイル画像(ランダムスタイルマスク)を得る.

loss function

  • Adversarial loss
  • Image reconstruction loss
    image
    image
    image
    image
  • Segmentation loss
    image
    image
    image
  • Latent reconstruction losses
    結果として得られるスタイル(コンテンツ)と,それぞれの翻訳されたスタイル画像またはランダムなスタイル画像が得たスタイル(コンテンツ)との間の損失.
    Lc, Lrc, Ls, Lrs
  • Style distribution loss
    image

Namely, for a given pool size T we collect the styles {s(1) , . . . , s(T ) } from past minibatches with the stop gradient operation applied. We then add styles s and s′ (which are part of the current computational graph) to this pool, and calculate the mean vector μˆsand covariance matrix Σs using the updated pool. Then the style distribution loss matches empirical moments of the resulting distribution to the moments of the prior distribution N (0, I)

  • Total loss function
    image
    λ1 =5,λ2 =2,λ3 =3,λ4 =1,λ5 = 0.1, λ6 = 4, λ7 = 1

image
中解像度で複数回のtranslationを適用し, その結果を高解像度のimage translationに結合するために別個のマージネットワークGenhを使用することを提案.
具体的には, 高解像度画像xhi(実験では1024×1024)を考える.xhiの16個のシフトされたバージョン{x(i)hi}i それぞれがxhiと同じサイズを持ち, xとyの範囲[0; 4]にまたがる整数の変位で得られる(欠損ピクセルはゼロで埋められる). 次に, シフトされた画像をバイリニアにダウンサンプリングし, 16枚の中解像度画像{x(i)med}iを生成.

次に, 中解像度画像のそれぞれに個別にHiDTを適用し, 変換された中解像度画像{xˆ(i)med}i, xˆ(i) = G(Ec(x(i)med ),Es(x(i) med))を得る. これらのフレームは, 一定の順序で一つのテンソルに積み上げられ, 変換された高解像度画像を出力するマージネットワークGenhに供給される.マージネットワークの出力は, スタイルs′に翻訳された高解像度の入力画像xhiに対応.
アプローチがpix2pixHDと類似していることに注意しなければならないが,違いは特徴マップの代わりにいくつかのRGB画像を入力として使用していることである.学習の際には, pix2pixHDと同じ損失, すなわちperceptual, feature matching, and adversarial loss functionsを用いる. ここでは, 不対になっていないデータに対しては, adversarial lossのみを適用.

検証

image
ベースラインよりもこのモデルのユーザーの嗜好性を報告し, 「ユーザースコアが0.5に等しい」という仮説と「ユーザースコアが0.5未満」という仮説に片側二項検定を適用して統計的有意性を評価.多重仮説検定のため, Holm-Sidak調整も適用し, 調整したp値を示す.
すべてのモデルは基本的には互いに同等であり, 異なるメトリクスによって勝者が異なる.
image

  • DIPD: 原画像の正規化されたConv5特徴とtranslate版との間のL2距離である.コンテンツの保存性を測定するために使用.
  • Inception score (IS): 生成された画像の写実性を評価.
  • 条件付きインセプションスコア(CIS)
    image
    image

新規性

  • 学習中も推論中もドメインラベルに依存しない, I2Iモデルを提案.
  • この新しいenhancement scheme, 出力の解像度を向上させるために有望な結果を示した.
  • モデルが高解像度の風景画像に対してdaytime translationを学習できることを示し, アプローチが他の領域にも適用可能であることを定性的に証明.
  • 結果は, この手法が少なくとも学習時にラベルを必要とする最新のベースラインと同等であることを示している.
  • 画像から抽出されたスタイルを用いて画像を生成することができ, また事前分布からサンプリングされたスタイルを用いて画像を生成することも可能.

議論,展望

今後の研究の方向性としては, translation ネットワークとenhancementネットワークを統合して, end-to-endで訓練された単一のモデルにすることが考えられる.

Comment

date

June 24th, 2020

TSIT: A Simple and Versatile Framework for Image-to-Image Translation

INFO

author

Liming Jiang1, Changxu Zhang2, Mingyang Huang3, Jianping Shi3, and Chen Change Loy1

affiliation

Nanyang Technological University, 2 University of California, 3 SenseTime Research

conference or year

ECCV 2020

link

arXiv
実装

概要

スクリーンショット 2020-10-27 16 19 10

  • 画像変換のためのシンプルで汎用性の高いフレームワークを提案.
  • マルチスケールな特徴正規化手法FADEとFAdaINを提案.
  • いくつかのタスク固有のSoTAモデルと比較し, perceptual qualityと定量的評価の両方において有効性を示した.

提案手法

network architecture

スクリーンショット 2020-10-27 16 36 12

スクリーンショット 2020-10-27 16 36 35

従来手法ではcontentかstyleの情報どちらかを考慮しがちであったが, この研究ではそれらをバランスよく追求し適応的に融合させている. contentとstyleの特徴を抽出する対称的な2ストリームのネットワークを設計.

FADE

スクリーンショット 2020-10-27 16 50 58

SPADE(Spatially adaptive denormalization)をベースにFADE(Feature adaptive denormalization)を提案. SPADEと違い単純にresizeしたsemantic maskを使うのではなく, xcのマルチスケールな特徴としてfci を用いている.
γとμは一つの畳み込み層で学習される.

FAdaIN

スクリーンショット 2020-10-27 16 57 45

AdaIN(adaptive instance normalization)をベースにFAdaIN(Feature adaptive instance normalization)を提案.
特徴レベルのスタイルをより効果的に学習することを可能にした.

Loss functions

スクリーンショット 2020-10-27 17 01 10

g = G (z0, xc, xs)

損失関数は以下の組み合わせ.

  • Hinge loss
  • perceptual loss
  • feature matching loss

検証

Arbitrary style transfer

スクリーンショット 2020-10-27 17 07 54

スクリーンショット 2020-10-27 17 05 58

定性評価

MUNIT, DMITでは全体に強く色が反映されたり, アーティファクトなどが見られる.
Fig6. ではややDMITに一部分で劣るが, それ以外のシーンにおいては比較してよりphotorealisticな結果が得られている.

定量評価

他のベースラインより全てのタスクにおいて 優れた結果が得られた.

Semantic image synthesis

スクリーンショット 2020-10-27 17 06 15

定性評価

ベースラインと比較して, 概ね同じレベルの結果が得られた. 提案手法の方がやや草の歪みなど少ない.

定量評価

cityscapesとADKのFIDにおいて比較してより優れた結果が得られた.

Multi-modal image synthesis

スクリーンショット 2020-10-27 17 07 35

ablation study

image

新規性

  • シンプルで汎用性の高いフレームワークである対称的な2ストリームネットワークTSITを提案.
  • マルチスケールの特徴レベルの意味構造情報と特徴変換によるスタイル表現を効果的に条件付けして画像生成.
  • 提案手法が多様なタスクにおいて有効であることを示した.

議論,展望

Incorporating unconditional image synthesis tasks and introducing more variability into the two streams/latent space can be interesting future works.

Comment

date

October 27th, 2020

Reconstructing Training Data from Trained Neural Networks

INFO

author

Niv Haim, Gal Vardi, Gilad Yehudai, Ohad Shamir, Michal Irani

affiliation

Weizmann Institute of Science

conference or year

2022

link

arXiv
Project Page

概要

学習済みNN分類器のパラメータから学習データを再構成できることを示した.勾配に基づく手法で,NNの訓練のバイアスに関する理論的結果に由来する再構成スキームを提案.既存研究と異なり,学習データを仮定する必要がない.

スクリーンショット 2022-09-09 11 37 52

提案手法

BCEでニューラルネットワークを訓練した場合,そのパラメータがあるマージン最大化問題の定常点に収束することが立証されている.
その結果は学習されたネットワークのパラメータが,学習データセットに対して1組の方程式を満たすことを示す.

この研究ではそれらに基づき,学習済みパラメータと等式を解くデータセットを求めることで学習データを再構成する.

前提

Implicit Bias of Neural Networks

  • 今回は2値分類としてデータセットを分割.labelが{-1, 1}なのでlogistic lossは $l(q)=log(1 + e^{-q})$ となる.(定理の元論文では $l(q)=e^{-q}$ となっていた)
  • $q = y_{i} Φ(\boldsymbol{θ};\boldsymbol{x}_{i})$ で, $L(\boldsymbol{θ})$ はそれのsummation.

この研究は勾配流(i.e. gradient descent with an infinitesimally small step size)に対して成立する定理(Lyu and Li, 2019)に基づいている.

まず定理を述べる前に以下の定義を行う.

(1) $lim_{t \rightarrow \infty}\frac{\boldsymbol{θ}(t)}{||\boldsymbol{θ}||}=\frac{\tilde{\boldsymbol{θ}}}{||\tilde{\boldsymbol{θ}||}}$ の時,勾配流は方向 $\tilde{\boldsymbol{\theta}}$ に収束するという.

(2) すべての $α>0$$\boldsymbol{θ}, \boldsymbol{x}$ に対して, $Φ(α\boldsymbol{θ}; \boldsymbol{x} = α^{L}Φ(\boldsymbol{θ}; \boldsymbol{x})$ を持つような $L>0$ が存在するときhomogeneousなネットワークと呼ぶ. (要はパラメータθを任意の係数 $α>0$ でスケーリングを行うと出力が $α^L$ でスケーリングされるということ.)

ReLUを持つFCまたはCNNはskip-connectionまたはbias項を持たない場合,本質的にパラメータ $\boldsymbol{θ}$ に対してhomogeneousである.

定理3.1 (Lyu and Li, 2019)

$Φ(\boldsymbol{θ}; \cdot)$ をhomogeneousなネットワークとし,勾配流を用いて2値分類においてlogistic lossを最小化する.

$L(\boldsymbol{θ}(t_{0}))&lt;1$ となるような時間 $t_{0}$ が存在すると仮定. (つまり全てのiに対して $l(y_{i} \Phi(\boldsymbol{\theta}; \boldsymbol{x}_{i}) &lt; 1$, すなわちある時刻に $\Phi$ が全てのサンプルを正しく分類できている *).

さらに $t \rightarrow \infty$ として $L(\boldsymbol{θ}(t_{0})) \rightarrow 0$ となる(lossが限りなく0に近づく). その時,勾配流はKTT point方向に収束する:

スクリーンショット 2022-09-16 12 55 35

* (My comment)元論文は $l(q)=e^{-q}$ , この研究では$l(q)=log(1 + e^{-q})$ なことに注意.

この定理は最適化問題(1)の一次定常点への方向性収束を保証しており(Karush-Kuhn-Tucker point (KTT point)と呼ばれる),不等式制約を許している.(等式制約のみを許容するラグランジュの未定乗数法の一般化)

これはhomogeneousなネットワークに対する,暗黙的な勾配流の偏りを特徴づけている.データセットを正しく分類する方向 $\frac{\boldsymbol{\theta}}{||\boldsymbol{\theta}||}$ が無数に存在するのにも関わらず,勾配流はKTT pointである方向にのみ収束する.特に定理3.1の下で勾配流の軌跡 $\boldsymbol{\theta}(t)$ がKTT point $\tilde{\boldsymbol{\theta}}$ に方向が収束するなら以下の(2)~(5)がなりたつような, $\lambda_{1}, ..., \lambda_{n}$ が存在する.

スクリーンショット 2022-09-16 13 11 26

この研究は主に式(2)に基づいており,これはパラメータ $\tilde{\boldsymbol{\theta}}$ が学習データ点におけるネットワークの導関数の線型結合であることを意味している.

またここで,ネットワークの出力がラベルと一致している時(-1か1), データxiはマージン上にあるという. また(5)はマージン上にないサンプルに対して係数 λiを持つので,マージン上のサンプルのみが式(2)に影響を与える.

Dataset Reconstruction

定理3.1は $t \rightarrow \infty$ の時有限回の学習でも,ネットワークのパラメータは式(2),係数λiは式(4)を近似的に見たす可能性を示唆している.nは未知でマージンのサンプル数も未知のため,再構成したいサンプルをm>=2nとし,それぞれのラベルを1, -1とする.
損失を以下のように定義:

スクリーンショット 2022-09-16 15 11 35

データセットを再構成するためにSGDを使って,xとλを求め,損失関数を最小化する.

式(5)によって,マージン上に存在しないすべてのxiについて λi = 0となるので,式(2)は, $\tilde{\boldsymbol{\theta}}$ はマージン上にあるデータ点に対する勾配のみによって決定されることを意味する. したがって, マージン上にある学習サンプルの再構成のみが期待できる.

検証

2次元データの例

スクリーンショット 2022-09-16 15 11 55

(c) m = 100個の点をランダムに初期化し, 各クラスに 50 個の点を割り当てる.
(d) 提案の手法は,一部のノイズを除いてすべての入力サンプルを再構成している.
(e) さらに再構成結果を改善するために,学習サンプルに収束しなかった余分な点のいくつかを削除.(対応するλi < 5の点xiを削除. ) 式(2)からλi = 0の点はパラメータに影響しないので,対応するxiは任意の値をとることができる.実際には,対応するλiが十分に小さい点を削除する.
(f) 最後に,重複を除去するために,他の点と非常に近い点をgreedilyに除去. (点をランダムに並べ, 他の点から距離<0.03の点を繰り返し削除.)

CIFAR10 & MNIST

スクリーンショット 2022-09-16 15 27 06

Practice vs. Theory

スクリーンショット 2022-09-16 15 28 01

SSIMとモデルの出力値のプロットを各データセットのサイズ,モデル構造で比較.

  • マージン上のサンプルに対して高いSSIM(良好な再構成)が得られている.
  • 学習サイズが大きい場合再構成が難しい.
  • non-homogeneous * なモデルから高品質な再構成が得られた.これは定理3.1の理論的な限界を超える可能性を示唆している.

* 全てのhidden-layerにバイアス項を付与

新規性

比較手法のModel Inversionだと高次元なMNISTやCIFARのデータにおいてノイズが多くぼやけた代表的なクラスに収束してしまう.20サンプルで学習した場合,Model Inversionでは7の個のサンプルのみ再構成できなかったが,提案手法では20個の学習サンプルが全て再構成できている.

議論,展望

Comment

date

Sep. 9th, 2022

TransGAN: Two Transformers Can Make One Strong GAN

INFO

author

Yifan Jiang1 Shiyu Chang2 Zhangyang Wang1

affiliation

1Department of Electronic and Computer Engineering, University of Texas at Austin, Texas, USA
2MIT-IBM Watson AI Lab, Massachusetts, USA

conference or year

2021

link

arXiv
実装

概要

近年のComputerVision分野においてもtransformerが強力な'universal'モデルとなる可能性が示唆されている. しかし敵対的生成ネットワークのような難しいvisionタスクを扱うことができるのか, この研究では完全にCNNを用いないTransformerベースのGANを構築するpilot studyを行った. TransGANはData Augmentation, multi-task co-training strategy, 画像の近傍平滑性を強調するloccally initialized self-attentionにおいて効果が顕著であることを実証し, CNNベースのbackboneに基づくSoTAモデルに匹敵する性能を達成.

GANは(Goodfellow+, 2014)は全結合層のみで構築されており, 小さな画像しか生成できなかった. その後DCGAN(Radford+, 2015)がCNNを用いてより高画質で深い生成モデルの安定した訓練を可能にした. そこからほとんどのGANは CNN-basedなGeneratorとDiscriminatorに依存していおり, 確かに畳み込みは多様で魅力的なvisual結果に貢献している.

基本的に畳み込みは局所的な受容野を持つので, CNNは十分な数のレイヤーを通過しないとlong-rangeな依存性を処理できない. それだけだと最適化が難しくなるだけではなく, 特徴の解像度や細かいdetailが失われる可能性がある. 従来手法でSelf-Attentionやnon-local operationなど導入することによる利点から実証されているようにCNNはglobalな統計を捉えることに本質的には適していない.

Computer VisionタスクにおいてTransfromer の利点は2つ挙げられる.

  • 強力な表現力を持ち, 人間が定義したinducive biasがない. CNNは特徴の局所性に強いバイアスを持ち, フィルタの重みを全ての場所で共有することで空間的な不変性を持つ.
  • transformerのアーキテクチャは一般的で, 概念もシンプルで, タスクやドメインを超えた強力な'universal'モデルになる可能性を秘めている. (CNN-basedでみられるad-hoc building blocks (Res-Netなどを参照)を取り除くことができる.)

課題

image patcheのシーケンスに直接適用されるpure transformer architectureは, 画像分類タスクで非常に良い性能を発揮することができるが, 構造, 色, テクスチャの空間的な一貫性に対する高い要求がある画像生成の場合, 同じ方法が有効であるかは不明である. 画像を出力する既存のtransformerモデルは一様にCNN-basedなエンコーダーやCNNでの特徴抽出を用いている. しかし, よく設計されたCNNベースのアーキテクチャだとしても, GANの訓練は不安定で, モード崩壊を起こしやすい. 他にもtedious, heavy, data-hungryであることが知られている. これらの2つをminglingすることで訓練時の課題が増幅されることは疑いようがない.

単純に考えれば, そのままピクセルの入力から複数のtransformerブロックを積み重ねることができるが, メモリや計算量が膨大になる. その代わりに, 各ステージでembedding次元をを各ステージで減らしながら, 徐々に特徴マップの解像度を上げていく. このTransGANはself-Attentionのグローバルな需要やの恩恵を受けているが, 実際は生成能力の低下や視覚的な滑らかさの崩壊が起きる. CNN-based GANとの性能差を縮めるために, Data Augmentation, multi-task co-training with self-supervised auxiliary loss, localized initialization for self-attentionから顕著な恩恵を受けることを実証する.

既存研究

Taming TransformerではCNNGANを用いて, 文脈に富んだvisual partsのコードブックを学習し, その合成はその後, autoregressive transformer architecturでモデル化される. しかし, しかし全体的なCNNアーキテクチャはそのままで, codebookや量子化なども, モデルの汎用性を制限している. To our best knowlede, CNNを完全に除去した既存研究はない.

提案手法

image
encoderとしてViTを選び, 変更は最小に抑える(もしくは, 最小限の変更を加える?とあるが相違点はどこ?). encoder はmulti-head self-attention moduleとfeed-forward MLP with GELU non-linearityからなる.
低解像度の画像(例えば32×32)であっても, 長いシーケンス(1024)になり, 爆発的なself-attentionのコスト(シーケンス長の2次関数)が発生する. このコストを回避するために, 複数の段階で解像度を反復的にup scaleする.(入力シーケンスを徐々に増やし、埋め込み次元を減らす). UpScaling層ではPixel Shuffleを行っている.

(32x32x3)の画像を生成する場合:

(Noize) --MLP-> (64x64) --encxM-> (64x64) --reshape-> (8x8x64) --Pixel Shuffle-> (16x16x16) --reshape-> (256x16) -
-encxL-> (256x16) --reshape-> (16x16x16) --Pixel Shuffle -> (32x32x4) --reshape-> (1024x4) --encxL-> (1024x4) -
-Linear Unflatten-> (32 x 32 x 3)

DiscriminatorはViTと同じ構造で(8x8)のパッチに分割Layerは7層. [0]が[cls]トークンに該当. ((N+1)xC)

Multi-task co-training with self-supervised auxiliary task

image
BERTが自己教師あり学習によって性能向上が得られていることにインスパイアされている.
Stage 2に低解像度の画像を入力し, 高解像度の画像を得るタスクを同時に学習させる. Loss FunctionはMSE loss.

Locality-Aware Initialization for Self-Attention

ViTが画像からCNNと同じような特徴量を学習することが報告されている.
ここではSelf-Attentionに局所性を意識させた初期化を導入する. 実際にはマスクを訓練中に徐々に減らし, みれる範囲を広げ, 最終的には完全なSelf-Attentionになる.これはSelf-Attentionは初期の訓練段階で役立つが, 後半の訓練段階では最終的に達成可能なパフォーマンスを損なう可能性があるという観察に基づいて作成されている.
image

検証

Transformer vs CNN

TransformerベースのGeneratorとDiscriminatorの性能を比較するため, CNN-basedでSoTAなAutoGANと組み合わせ検証.
AutoGAN: Neural Architecture Search(NAS)で作られたGAN.
NAS: AutoMLとかで使われてるやつ.
image

  • (TG+AD)TransformerベースのGeneratorは, AutoGANのDiscriminatorでトレーニングした場合, その性能はすでにオリジナルのAutoGANと同等になるという強い能力を持ってる. これは, GeneratorにTransformersを入れるとうまくいくというTaming Transformer(Esser et al., 2020)とも一致している.

  • (AG+TD)しかし, TransformerベースのDiscriminatorは競争相手としては劣っており, AutoGANのGeneratorを良い生成結果に導くことはできないようである.

  • (TG+TD)AutoGANのGeneratorをTransformerベースのGeneratorに置き換えると, GとDの構造がより対称的になったことが功を奏したのか, 結果が若干改善. しかし, 畳み込みDを使用した場合には, まだ大きな遅れをとっている.

Data Augmentation

image

MT-CT, LOCAL INIT.

image

Scaling up

xM, xLの部分に該当 {xM, xL, xL}
スケールアップさせることで性能が向上. Discriminatorのスケールアップによるゲインはあまりなかった.
image

定性評価

image

定量評価

image
image

新規性

Model Architecture:

純粋にTransformerのみを使い, 畳み込みを行わないGANを構築した. メモリのオーベーヘッドを避けるために, メモ入りに優しいGenerator と Discriminatorを作成し, より大きなモデルに効果的にスケールアップが可能.

Training Technique:

TransGANをうまく訓練するためにData Augmentation, multi-task co-training with self-supervised auxiliary loss, localized initialization for self-attentionを研究.

Performance:

TransGANはCNNベースのものと匹敵する性能を達成.

議論,展望

We point out a few specific items that call for continuing efforts:

  • More sophisticated tokenizing for both G and D, e.g. using some semantic grouping (Wu et al., 2020).
  • Pre-training transformers using pretext tasks (Dai et al., 2020), which may improve over our current MT-CT.
  • Stronger attention forms, e.g., (Zhu et al., 2020).
  • More efficient self-attention forms (Wang et al., 2020; Choromanski et al., 2020), which not only help improve the model efficiency, but also save memory costs and hence help higher-resolution generation.
  • Conditional image generation (Lin et al., 2019).

Comment

date

May 20th, 2021

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.