sosuke115 / paper-reading Goto Github PK

View Code? Open in Web Editor NEW

4.0 4.0 1.0 25 KB

paper-reading's Introduction

📈 GitHub Stats

🌱 Skills

paper-reading's People

Contributors

Stargazers

Watchers

Forkers

futakw

paper-reading's Issues

MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices [ACL, 2020]

ひとことで言うと

BERTの軽量化・高速化

論文リンク

https://www.aclweb.org/anthology/2020.acl-main.195

作成した紹介スライド

https://www.slideshare.net/SosukeNishikawa/mobilebert-a-compact-taskagnostic-bert-for-resourcelimited-devices

概要

BERT largeから知識蒸留を行い、GLUEやSQuADでBERT baseと同等の性能でパラメータが少なく速いモデルを作成

先行研究との差異

task-agnosticであること（普通のBERTみたいに下流タスクにfine-tuneできる）
teacherはpre-training時のみ利用
層の深さではなく次元を縮小するような学習

手法のキモ

次元を揃えたlinear transformationの導入（bottleneck）を行い特徴マップの次元を揃える。
Feature Map Transfer: 特徴マップ（各層のtransformerの出力）の二乗誤差から知識蒸留
Attention Transfer: 注意マップのKD divergenceから知識蒸留

Progressive Knowledge Transferにより下層から順に一層ずつ蒸留する。

Pre-training Distillation: MLM + NSP + KD-MLMによる学習

評価方法

GLUE, SQuADでBERT_baseと同等の性能

論文リンク

https://arxiv.org/abs/1702.01802

概要

NMTで知識蒸留を行った論文

手法のキモ

*初期値のみ異なる複数の教師NMTモデルの出力確率分布の平均を用いて知識蒸留を行う
教師NMTモデルのビームサーチによる候補文から正解文にBLEUスコアが近い文を教師文とする知識蒸留を行う
学習の高速化のために、教師NMTモデルの翻訳結果にてTERスコア（エラー率の指標）が高いものを学習データから抜いて知識蒸留を行う

知見メモ

元の翻訳データと教師モデルによる翻訳データは両方使った方が良い

(MMC loss) Rethinking Softmax Cross-Entropy Loss for Adversarial Robustness [ICLR2020 poster]

論文リンク

https://arxiv.org/abs/1905.10626

概要

・adversarial exampleに対する脆弱性に関して、Softmax Cross Entropy Lossの限界を示し、MMC Lossを提案した。
・よりきれいに、しっかりとfeatureの分布が分かれるようにモデルに学習させることで、AEに対する脆弱性を改善した。
↓featureを二次元マッピングした図

先行研究との差異

・ロス関数に注目した論文は珍しい。

手法のキモ

・あらかじめ、n次元（クラス数）空間においてそれぞれの点の距離が最大となるような座標の位置を計算しておき、その座標に、対応する番号のラベルのfeatureが近づくように、学習させる。
・つまりクラス数が決まっている分類問題にしか適応できない。

評価方法

議論

・しっかりと離れるようにfeature embedding することの重要性を示唆した。
・教師あり学習ではなく、教師なしで学習した場合、生成モデルで学習した場合のfeature embeddingはどうだろうか？
・また距離学習によって得たfeature embeddingはどうだろうか？
->Metric Learning for Adversarial Robustness 2019
-> Adversarial Learning with Margin-based Triplet Embedding Regularization [ICCV2019]

ひとことで表すと

人間のshape-biasに注目し、edge画像を利用したadversarial trainingを提案。
（自分と似た発想なので読んだ。論文のクオリティーはかなり低い）

論文リンク

https://arxiv.org/pdf/2008.13336.pdf

投稿日付

2020/9/1

概要

RGB画像とedge画像をconcatしてinputとする。
推論時にはAEからedge画像を作成する。

結果

論文参照。
防御なしのモデルより、わずかにマシになった。

MnistにはATよりも効果あり。当然、白黒の超シンプルなデータセットなので、edgeはほぼ元画像。
Cifar10以上の複雑さのデータセットには、ほぼ意味なし。

先行研究との差異

手法のキモ

評価方法

議論

論文リンク

https://arxiv.org/abs/1811.12231

概要

・非常に高精度である深層学習による画像認識が、人間とどのように異なるのか分析した。
・ImageNetで学習したCNNモデルにとって画像のテクスチャが重要であるという仮説を検証するために、形状とテクスチャが矛盾した画像（例：画像右）によるStylized-ImageNetというデータセットを構築し、形状に対応するクラスとテクスチャに対応するクラスのどちらであると認識するかを、人間・CNNモデルで比較。

・結果、以下の画像のように人間は形状に偏った認識を行うのに対し、ImageNetで学習したCNNモデルはテクスチャに偏った認識を行うことがわかった。

・また、Stylized-ImageNetで学習させたCNNモデルは形状に偏った認識を行うようになり、perturbationに対して一定のロバスト性を持つようになった。

先行研究との差異

過去の研究でも、CNNにおけるshapeとtextureの重要性の比較は行われてきた。本研究は、中でも非常に直感的に分かりやすい実験によって、人間による評価も加えたうえで比較しているため、評価できる。

手法のキモ

shape, textureで異なるクラスとなっているStylized-ImageNetを構築したところ。

議論

ある程度のノイズにはロバストになったものの、Adversarial Examples には効果がなかったらしいので、さらなる研究が必要である。

Self-Knowledge Distillation in Natural Language Processing [2020]

0. 論文リンク

https://arxiv.org/pdf/1908.01851.pdf

概要

word embeddingを用いて正解分布を予測し知識蒸留するself-knowledge distillation (SKD)を提案
言語モデルと機械翻訳タスクにてパフォーマンスの向上を確認

先行研究との差異

手法のキモ

知識蒸留で典型的に用いるような、教師モデルの出力分布の代わりに、正解単語と予測単語の分散表現のユークリッド距離を考慮した以下のような式を正解分布と定義。以下の式が大きいほど、正解文に近いという仮定をおいている。

上記正解分布に関して損失を取る際は全ての語彙に対して取るのではなく、モデルが予測した単語と正解単語に関してのみ取ることで計算コストを減らしている。

全体の損失関数は上記のようになる。

Robust Neural Machine Translation with Doubly Adversarial Inputs [2019]

論文リンク

https://arxiv.org/pdf/1906.02443.pdf

概要

NMTにおいて損失を利用したwhite-boxでの敵対的サンプル作成法を提案

作成した敵対的サンプルを用いた学習によるロバストなNMTモデルを提案

EMNLP2020まとめ

リンク

https://www.aclweb.org/anthology/events/emnlp-2020/#2020emnlp-main

概要

興味ありそうなEMNLP2020の論文をテーマ別にまとめていく

Adversarial Attack

Adversarial Attack and Defense of Structured Prediction Models
seq2seqで構文が正しいadversarial exampleを生成。依存関係認識、POS-tag. で効果を示した。
TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP
nlpにおけるAdversarial attack系の攻撃のpython実装

Data Augmentation

Local Additivity Based Data Augmentation for Semi-supervised NER
BERTの隠れ層でmixup を行う。NERで優位性

Domain Adaptation

Knowledge Base

Knowledge Distillation

Multilinguality

Cross-lingual Alignment Methods for Multilingual BERT:
A Comparative Study
多言語文脈ベクトルをアラインする方法を比較（１）対訳文（２）教師辞書つき線形写像（３）ファインチューニング
Entity Linking in 100 Languages
多言語Entity Linking

Learning Distributed Representations of Texts and Entities from Knowledge Base

ひとことで言うと

テキスト情報とその文章に紐づくエンティティアノテーションから分散表現を学習

論文リンク

https://www.aclweb.org/anthology/Q17-1028.pdf

概要

Wikipediaから作成されたテキスト情報とその文章に紐づくエンティティアノテーションから分散表現を学習

文章とKBエンティティを一緒に用いて表現学習を行うNeural Text-Entity Encoder (NTEE)を提案
テキストに対して、近いエンティティを推測させるようなタスクを解くことで
テキストと関連するエンティティがベクトル空間上で近くなるように学習。
（WIkipedia2Vecと似ている）

以下のような人間によってアノテーションされたテキスト-エンティティデータを利用

コチラの目的関数を最適化

これだと計算量が大きいので、
Ekbをpositiveエンティティ一つk個のnegativeエンティティで成り立つE*に変更
（ネガティブサンプリング）
�
Vw、Veはword2Vec表現で初期化。（エンティティはテキスト中のメンションを固有の識別子に変更することでワードと同時にskip-gramモデルで学習）

評価方法

教師なし設定のSTSと教師あり設定の
EL 、factoid QA で評価

STSの結果

議論

論文リンク

https://www.aclweb.org/anthology/2020.emnlp-main.40.pdf

概要

cross-lingual transfer learningにおいて原言語の検証データでエポック数の調整を行うのが普通だが、
原言語の検証データでの性能と目的言語での性能には相関があまりなく、再現性のない結果になりやすい。（性能がブレる）

以上の問題を解決するために、完全にzero-shotでの性能に加えて、目的言語の検証データを用いてエポック数を言語ごとに選択したモデルの性能をzero-shot cross-lingual transfer learningの上限スコアとして提示することを提案。

手法のキモ・評価方法

MLDoc and XNLIにてdevでの性能の改善・改悪とtestでの改善・改悪の一致度を検証。0.5未満だとランダムにエポック数を決めるより悪い結果と言える

Generalizing Word Embeddings using Bag of Subwords[EMNLP, 2018]

ひとことで言うと

未知語彙の分散表現を学習済み分散表現の語彙のサブワード集合から推測するモデルの提案

論文リンク

https://arxiv.org/pdf/1809.04259.pdf

背景

単語分散表現の語彙は限られている
テストデータにて訓練データにない単語や頻度低い単語に対応できない（Out of Vocablary問題）
twitterコーパスなど逐次新語が変わっていくので事前学習をやり直すのは得策ではない
→本研究では追加で巨大なコーパスを用いず、事前学習済み分散表現のみを用いてOOV分散表現を推定

手法のキモ

全ての学習済み分散表現の語彙のサブワードに対応するembedding層を作成し、各語彙ごとにサブワードに分けそれらのbag of embeddingsを入力、正解をその語彙の学習済みembeddingとして学習する。

例えばinfixで学習する場合、以下のようなサブワードに分け
(<infix>) = {<in, <inf, inf, infi, nfi, nfix, fix, fix>, ix>}
その平均ベクトルBag of Strings (BoS)をとる。

BoSと学習済みinfix分散表現の二乗誤差をとり最適化する。

先行研究との差異

BoSを使っている。

評価方法

既存手法である[1]よりWord Similarity、POS tagging、Morphosyntactic attributesで良い性能を発揮した。
生コーパスからサブワード情報を用いて学習するFasttextよりメモリはとらない

所感

文字、単語レベルでの敵対的サンプル対策に使えそう

ひとことで言うと

ロバスト性を理論的に保証する。
予測するときに、gaussian noiseを加えて予測するのをN回繰り返し、トップ２クラスCa, Cbについて
二項検定を行い、棄却orCaを返す。
また、上の予測結果をもとに、モデルのロバスト性を評価する。

理論ありなので良い。CNN自体がロバストになるわけではない。

論文リンク

https://arxiv.org/abs/1902.02918

概要

・イメージ、決定境界付近を探索する。

・予測アルゴリズム

先行研究との差異

ロバスト性を保証しているところが素晴らしい。

手法のキモ

評価方法

議論

論文リンク

https://arxiv.org/pdf/2009.10195.pdf

概要

MLM学習過程を利用したData Augmentation手法を提案

手法のキモ

学習データ分布域内のサンプルが生成されるように、学習データをcorruptして事前学習済み言語モデルで復元することでdata augmentationするSelf-Supervised Manifold Based Data Augmentation (SSMBA)を提案
（MLM学習過程を行うだけ？）

ドメイン知識やdatasetに依らず適用できる

評価方法

SA、NLI、MTで、通常テストデータやout-of-domain (OOD)に関しての精度の向上を確認

訓練データサイズの影響
サイズに依らず効果を出す
復元モデルの違いによる影響
復元モデルの精度が良いほほど良いが、そこまで変わらない
corrputの割合による影響
corrputしすぎたものを使うと悪くなった
復元時のトークン候補についてtop-kの影響
top-kの制限つけない場合が一番良い
拡張データのラベルをどうするか
- 元のデータのラベルを保存
- 元のデータで学習したモデルで予測したラベルにする
- 元のデータで学習したモデルで予測した分布にする（蒸留）

当然だが、教師モデルの精度によって精度は変動
ある閾値を越えた性能を持つ教師モデルではラベルを保存するより精度はよくなり、さらにhard labelよりsoft labelの方がよかった。

感想

MLM系でのデータ拡張周辺の技術はAEの作成・対策としてかなり使えそう

論文リンク

https://arxiv.org/abs/1706.06083

概要

Adversarial Training （AT）の分析論文（引用2000件以上の超重要論文）

理論的に、AEへに対する脆弱性を分析した。
理論をもとに、ATを提案した。
実験をもとにいくつかの示唆を出した。

AEに脆弱であるという問題の本質は、鞍点問題だとし、内部最大化問題と外部最小化問題の合わせ技で解決するのが良いと主張。内部最大化問題は有効なAEを見つけることを指し、外部最小化問題はAEに対するadversarial lossを最小化することを指す。

結論

ニューラルネットの大きさは、それだけでロバスト性を増加させる。
FGSMは1stepであるがゆえ、ATとして使えない。
弱いモデルはnatural 画像を学習するのに精一杯で、ATの意味がない。
ニューラルネットの大きさが大きいほど、ATの効果が高い。
ニューラルネットの大きいほど、またAEが強くなるほど、AEの転移性は低くなる（精度が下がらなくなる）。

先行研究との差異

手法のキモ

評価方法

議論

AEに対する脆弱性は、改善されたが、解決には至っていない。
学習コストが高いという問題もある。

ひとことで表すと

人間の視覚にはshape-biasがあることに着目し、モデルにShape-biasをかける手法を提案。これにより、画像のスタイル変換・ノイズ・AEに対するモデルのロバスト性の向上を目的とした。Robustnessの観点で、Shape-biasに着目した初の論文。
手法としては、新たなDropOutレイヤーを提案した。"InfoDrop"とよぶ。

論文リンク

https://arxiv.org/pdf/2008.04254.pdf

投稿日付

2020/8/10

概要

・self-informationを定義し、self-informativeな情報以外の部分を確率的にdropoutする。
・以下の画像は、input画像に対して試したもの。実際にはレイヤーとして複数、モデルに組み込まれる。

・レイヤーの出力マップに対して、形に関する情報を集約したような"Information guided"なedgeマップを生成し、そのedge以外の部分を確率的にDropOutする。
・self-informativeなマップは、カーネル密度推定を行うことで近似的に得ている。定義は論文参照。

結果

・ドメイン変換（art -> sketchなど）で、精度が向上。
・few-shot classificationで、精度が向上。
・Adversarial Robustnessに関しては、微増。ほとんど効果がない。

先行研究との差異

・全く新しい観点によるDropOutの手法。
・ロバスト性向上のためにShape-biasに注目した初の論文。

手法のキモ

評価方法

議論

カーネル密度推定によるマップは、edge画像より形を表している。使えそう

論文リンク

https://arxiv.org/pdf/1904.02405.pdf

概要

HotFlip等の言語処理におけるWhite-Boxで敵対的サンプルを作成するモデルに関して、入力と出力サンプルを学習データとして知識蒸留を行うことで同様な質を持つ敵対的サンプルを高速に生成できるモデルを提案

論文リンク

https://arxiv.org/abs/1704.01155

概要

・AEのdetectionの手法。
・発想はシンプルで、画像をbit-depth reductionすることを考える。その画像と、もと画像を入力したときのfeatureの違いを比較することで、もと画像がAEであるかどうか検出ができる。

・また、bit-depth reductionを防御手法として用いることもできる（input transformationの1つとして捉えられる）。この場合、一定のロバスト性はあるが、normal accuracyは落ちてしまう。

・↓bit-depth reduction

先行研究との差異

防御手法ではなく、detectionに焦点を当てた！

手法のキモ

評価方法

議論

detectionするという意味ではある程度有用。そして簡単。
防御手法としては、そこそこ。normal acc とadv accのトレードオフが課題。
→white box settingでは効果なし。

論文リンク

https://arxiv.org/pdf/1711.02173.pdf

ひとことで言うと

文字ベースNMTにおいて人工ノイズの影響を調べた論文

概要

人間は例えば以下のような文字レベルのノイズがあっても文を解釈できる

しかし単語レベルのNMTはそのような文字レベルのノイズに対応できない（全てunseenになってしまうため）
→文字レベル・サブワードレベルでのNMTが登場
stem and 形態学的情報により、未知語や活用後を予測できる
しかしこれらの綺麗なデータで学習したモデルは広範囲なノイズには対応できない

En-De翻訳にて（１）ランダムシャッフル rand（２）隣り合う文字の入れ替え swap（３）人間がよく間違えるミス Natural
を割合を変えて入れてみた結果が以下のグラフである。

多少のノイズであっても精度がかなり下がっていることがわかる

本論文ではこれらの問題に対応するため、structure-invariant representationとノイズデータ学習する手法を提案した。
いろいろなノイズで学習したCNN表現は全てのノイズにロバストであることを示した。

実験モデル

以下の3つのモデルで実験
char2char: a sequence-to-sequence model with attention that is trained on characters to characters
Nematus: seqtoseq (subword)
charCNN: attentional sequence-to-sequence model with a word representation based on a character convolutional neural network

ノイズの種類

Natural ノイズ
コーパス内のすべての単語を、データセット内にエラーが存在する場合にエラーで置き換えることで、対訳で０たのソース側にこれらのエラーを挿入する。選択する可能性のある置換が複数ある場合は，一様に標本化する．誤りのない単語はそのまま保存される．

Syntheticノイズ
Swap 4文字以上の単語に対して最初と最後以外の文字で隣合う文字を入れ替える
Middle Random 4文字以上の単語に対して最初と最後以外全てシャッフル
Fully Random 全ての単語に対して全てシャッフル
Keyboard Typo ランダムに１文字選びキーボードで近い文字と置換

ノイズへの対応

STRUCTURE INVARIANT REPRESENTATIONS
文字表現の平均を単語ベクトルとして扱って単語レベルでのseq2seqモデルを利用する
（文字の入れ替えにロバストになる）
�NatやKeyにはあまり効かなかった

BLACK-BOX ADVERSARIAL TRAINING

ノイズデータを学習データとして学習する。
完全にクリーンデータをそのノイズデータに置き換えて学習
学習したノイズに対応するテストデータで良い精度を出す
複数ノイズで学習したモデルは、単種ノイズで学習したモデルの精度より個々のノイズに対する精度は弱い
が全体の平均としてはよくなる

ノイズ学習に関する分析

CNNのフィルターごとに異なるノイズを学習していることを検証

Future work

natural ノイズに強いMT
ノイズを知らないでもノイズに頑健なモデル

知見メモ

Nematus（seq2seqサブワードモデル）ではマルチノイズ学習での効果が示されていない
→うまく行ってないのではないか。
→CNNがあるからうまくいってる説
Moses tokenizerでトークナイズしている
ノイズ生成コードは公開されている（https://github.com/ybisk/charNMT- noise）
関連研究等参考になる
スペルチェッカー等によるチェックでも精度はそんなに変わらない
どの程度の置換で精度を下げた→ルールに従って罹患できるものは置換している

http://hihan.hatenablog.com/entry/2018/05/15/124528

ひとことで言うと

NMTに関するドメイン適応のサーベイ論文

論文リンク

https://www.aclweb.org/anthology/C18-1111.pdf

モノリンガルコーパスの必要

言語モデルにターゲットドメインデータをうまく組み込む系

擬似対訳コーパスの利用

ソース側、ターゲット側の両側で実験されている
（forward、back translation)
Domain, Translationese and Noise in Synthetic Data for Neural Machine Translation

マルチドメイン設定

Neural machine translation training in a multi-domain scenario
マルチドメイン適応について
単に連結して学習、それぞれのドメインコーパスで順番に学習、ドメインが近いデータを選別、独立に学習してアンサンブルを試している
→単に連結して学習し、欲しいドメインでfine-tuneするのが一番よかった

Mixed Fine Tuning
ドメイン外のデータで学習→ドメイン外＋ドメイン内のデータでfine-tune

その他
Multilingual Multi-Domain Adaptation Approaches for Neural Machine Translation

ドメイン識別器を使う手法

Effective domain mixing for neural machine translation

ドメインベクトルをword embeddingに連結

論文リンク

https://arxiv.org/pdf/1903.10586.pdf

概要

・RandMixと呼ばれるAEに対するdenfence手法。
・Input transformationによる手法の1つ。
・情報理論の観点から理論的に考察された手法であり、理論値保証がある。（割と緩くは見える）

先行研究との差異

・単純なbit-depth reductionとは違って、理論的な考察に基づく。

手法のキモ

評価方法

議論

・white-boxのPGDに対しては効果が高い。しかし、black-boxになると他と比較して精度低くなる。
・normal accとのトレードオフがあるからだと考えられる。
（つまり、特徴をロバストなものに極端に絞っている感じ）

論文リンク

https://arxiv.org/pdf/1911.03109.pdf

概要

未知のドメインでのテストデータに対して最新のNMTはhallucination（自然な文章だが翻訳にはなってない）ものを出す。

上記の問題を解決するようなドメインにロバストなNMTを探求するため

Reconstruction
Subword Regularization
Defensive Distillation

におけるロバスト性の変化を検証している

ひとことで言うと

文生成におけるデコーダーでのサンプリング手法に関する論文

論文リンク

https://openreview.net/forum?id=rygGQyrFvH

背景

文生成におけるデコーダーでのサンプリング手法に関する論文。
各タイムステップにおいて確率の大きい複数個の保持するようなBeam Searchは一貫性が強い一方で実際の人間の文章と比べると多様性が少ない。それに対し、Top-k sampling は確率の大きい上位k個を抽出し、それを正規化した確率分布からランダムサンプリングを行うのでより多様性が高い文章が生成可能だが、確率分布には偏りがあり、抽出する個数を固定してしまうと確率の高い候補を取り逃がしてしまったり、確率の小さい候補を抽出してしまうことがある。

手法のキモ

上記の問題を解決するため、本論文では確率の累積和が$p$を超えるまで抽出し、そこからランダムサンプリングを行うようなNucleus Samplingを提案した。具体的にはある確率pに対して以下の式(1)を満たすような最小のトークンの集合を$V_p$として式(2)で表されるような確率分布$P'$からランダムにサンプリングする。

Adversarial Examples are not Bugs, they are Features [2019]

論文リンク

https://papers.nips.cc/paper/8307-adversarial-examples-are-not-bugs-they-are-features.pdf

概要

・Adversarial Examplesになぜ脆弱なのか、という問いに対する分析論文。
・非常に重要な示唆を行った面白い論文。

手法

説明が難しいので詳しくは論文参照。
まず特徴量を以下の3種類に分類する。①有効な特徴量、②ロバストかつ有効な特徴量、③有効だがロバストではない特徴量。
（有効＝正解ラベルのco-relationが大きいfeature）
（ロバスト＝inputに摂動を加えても変化しないfeature）
＜実験１＞
ロバストな特徴だけをもつRobust Datasetと、ノンロバストな特徴だけをもつNon-robust datasetを構築。それぞれで学習させ、normal, adversarialそれぞれに対する精度を見る。
＜実験２＞
robust featureは「犬」でありnon-robust featureは「猫」であるようなAEに対し、正解ラベルを「猫」としたデータセットを構築し、学習させる。

結果

＜実験１＞
・non-robust featureは、高いnormal accuracyを得るのに十分な特徴だった！

＜実験２＞
・学習データには、人間の目に猫に見える画像は「猫」ラベルがついておらずnon-robust featureだけ猫である画像があった。しかし、実際に猫の画像を与えると「猫」と判定することができた。
→猫のnon-robust featureをしっかり学んでいた。
・モデルは、non-robust featureに汎化することができる！

主張

・AEに対する脆弱性はバグではない！ただ、non-robustな特徴量にしっかり汎化しているだけである。
・AEがnon-robustなfeatureに依存している限り、根本的にXAI（説明可能なAI）を作ることは不可能。
・non-robust featureを無視するようにモデルを仕向けるためには、何らかの方法でhuman prior、つまり人間に特有な特徴量の選択（重み付け）を行う必要がある。

議論

・非常に面白い観点からの指摘であり、AEをノイズとして除去しようとするのではなく、featureに対するhuman likeな priorを作る、という方向性が新たに指摘された気がする。
・「ロバストな特徴量だけをもつ画像」の生成方法がなかなか特殊であり、本当に「ロバストな特徴量だけをもつ」のかは少し怪しいところはある。

論文リンク

https://arxiv.org/pdf/2105.04339.pdf

言語処理学会にも論文あり
https://www.anlp.jp/proceedings/annual_meeting/2021/pdf_dir/C4-2.pdf

概要

S-BERTの学習後に得た文表現uをさらに洗練させる。
具体的には単語の定義文から対応する単語を予測するタスクでさらにBERTを学習させる。
単語予測層は事前学習時のMLMで用いた層をそのまま用いる。

「事前学習時の単語予測層をそのまま使っているため，提案手法で得られる文埋め込みは，
その文が表す意味内容に近い意味で使用されている単語が存在した場合，その文脈化単語埋め込みと類似する
という性質が期待できる」
↑
類義語とか似た単語を説明する定義文sentence embeddingは近くなり、
その逆もまた然りなことを期待している？

評価方法

教師なし設定のSTSで評価
S-BERTより明らかに少ない学習データで良い性能

SentEval（分類タスクなど色々含むデータセット）でも良い性能を発揮

機械翻訳に関するAdversarial exampleとKnowledge distillationまとめ

機械翻訳に関するAEとKDに関する論文の自分なりのまとめをここに書きます
とりあえずたてておきます
随時更新していきます

機械翻訳に対するAdversarial example

基本的には文字・単語の改変を行う

Black box

synthetic noize

replace、swap、delete等、ルールベースに文字・単語を改変

natural noize

人間が間違えそうなミス

White box

勾配ベースに敵対的サンプルを作成

Robust Neural Machine Translation with Doubly Adversarial Inputs

防御手段

Adversarial training

ノイズを含んだ翻訳文で学習

Knowlege distillation

防御手段として利用している論文は見当たらず

Sequence-Level Knowledge Distillation [2016]

論文リンク

https://arxiv.org/pdf/1606.07947.pdf

概要

知識蒸留をトークンレベル、文レベルでNMTに適用
パラメータを少なくして学習の高速化やBLEUスコアの向上を確認している。

先行研究との差異

手法のキモ

NMTに知識蒸留を適用

毎トークンごとの語彙数次元の分類タスクに適用されることになる（トークンレベル）に加えて文レベルでの知識蒸留を考案。

文レベルでの知識蒸留では、教師モデルにおいてbeam searchで生成された文を教師文として、それとのクロスエントロピーロスをsoft lossとする。

上図一番右の例では、beam searchで生成された候補文に対して、実際の正解文との類似度（BLEU等）が高い候補を教師文とする。

Proper Network Interpretability Helps Adversarial Robustness in Classification [ICML2020]

一言で表すと

Adversarial Robustnessを向上するために、モデルの解釈性という観点からアプローチし、SOTAを達成。
「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

論文リンク

https://arxiv.org/abs/2006.14748

概要

・CNNモデルの解釈性と、AEに対するロバスト性の関係に注目。
・CNNモデルを解釈する方法としてpixelの重要度をマッピングする手法が複数存在するが、元画像の解釈マップとAE画像の解釈マップは異なることが知られている。
↓

・この事実に注目し、逆に「AEにロバストなモデルは、元画像とAEに対して同じような解釈性をもつはずである。すなわち同じ解釈マップが生成されるはずである」と仮定し、Interpretability-Aware Robust Trainingを提案。

手法

・Adversarial Trainingをする中で、AE画像とNormal画像の解釈マップの不一致を小さくするようにロス関数を定義する。

結果

・特にperturbationが大きい時、非常にいい精度！！SOTA！！

先行研究との差異

・解釈性とAEロバスト性という異なる分野を結びつけ、新たな手法を提案した。

手法のキモ

評価方法

議論

SOTA！
やはり、解釈性good＝人間にとって分かりやすい判断基準、であり、従って人間と似た特徴を利用するということか？

ひとことで言うと

エンティティベクトルをメンションを含むテキスト文から学習するRELICを提案

論文リンク

https://arxiv.org/abs/2001.03765

手法のキモ

エンティティとそれがメンションされているコンテキストをマッチさせる.

上記例のようにメンション部分をマスクし、
エンティティ表現に汎用的な知識を埋め込め、エンティティ系のタスクに利用できる汎用的なエンティティベクトルを学習

BERTベースのコンテキストエンコーダーgとエンティティ表現用のエンティティエンコーダーfを用意し、
そのコサイン類似度を向上させるように学習.　（実際はcross-entropy objective with in-batch negatives を用いる）

評価

entity linking、entity typing、category completion、QAで評価

entity linkingはDomain tuning（entity linkingのデータセットでRELICのフレームワークで再学習）して
SOTAに近い性能.

QAは推論時に根拠文にアクセスすることなく高速に実行可能。（性能はイマイチ？）

RELIC学習時にメンションのマスク率を上げるとentity typingでは性能が上がり（マスクがあるとよりコンテキスト情報がエンティティに詰め込まれるため）、entity linkingでは性能が下がる（mentionトークンがエンティティ推定に重要になるから）.

Defending Against Universal Attacks Through Selective Feature Regeneration [CVPR 2020]

ひとことで言うと

Trainableなfeature regeneration layerを導入することで、featureを綺麗にする手法を提案。
Universal attackを対象にしていて、効果あり。

論文リンク

https://arxiv.org/abs/1906.03444

概要

・まず、フィルターの安定度は、重みの大きさによって上界が与えられる。
・AEのノイズは、フィルターを通るごとに増幅していく。そのずれが小さいほど、「安定」と定義した。

・モデル全体はpretrainして、freezeさせる。
・regeneration layerだけ学習する。
・regeneration layerは、susceptable なfeatureの上位50%だけをregenerationする。

・Universal Attackに対してSOTA

先行研究との差異

手法のキモ

評価方法

議論

論文リンク

https://arxiv.org/pdf/2004.14974.pdf

紹介用に作成したスライド

https://www.slideshare.net/secret/v320nINv0KSgEQ

概要

入力されたClaimが、正しいかどうか自動判定し、根拠も取得するタスク

アノテーション

SCIFACT（1400のclaimとそこに紐づけられた根拠となるアブスト・根拠文・ラベル（support ・refute・無関係））

S2ORCにて、10引用以上され、テキストが全て無料で公開されているものをseed setとしてそれらに引用で紐づいている論文を取得し、アブストコーパスとする

アノテーターはそのアブスト群を引用している箇所からclaimを考えてアノテーション（アブストをみていないので変に考えが入ったりしない）

claimをrefuteするようなアブストはNLPエキスパートによって構築

アノテーたーはあるclaimとアブストのpairを見てsupports、refutes、noinfoに分類

手法のキモ

VERISCI（claimを入力すると、その根拠となるアブスト群とそこにある根拠文を提示するモデル）

論文アブスト群からclaimとTF-IDF similarityが高いk個のアブスト群を取得
RATIONALESELECTIONで根拠文をそれぞれのアブスト群から取得
�アブストの一文一文に対して、wi = [ai, SEP, c] uをとり、z˜i = σ[f(CLS(wi))]でzi（0or1)とのクロスエントロピー
LABELPREDICTIONで肯定・否定・無関係を推定
根拠文とclaimを連結してu = [sb1(c, a), . . . sb`(c, a), SEP, c]をとってy˜(c, a) = φ[f(CLS(u))],

評価方法

BERT系モデルは色々試している（sciBERT、RoBERTa等）

abstract-level
選択したアブストがgoldに入っているかつラベルが正しいか
予測した根拠文がgold根拠文を含んでいるか
micro-F1で評価
sentence-level
予測した根拠文がgold根拠文群内にあるかつ、その他のgold根拠文が全て予測根拠文群にある
ラベルが一致しているか
COVID-19での評価
36のcovid-19に関する主張をVERISCIを利用して根拠アブスト・文を抽出して医学生が評価
→23/36が合理的なものだった

議論

先行研究との差異

Distill, Adapt, Distill: Training Small, In-Domain Models for Neural Machine Translation [2020]

論文リンク

https://arxiv.org/pdf/2003.02877.pdf

概要

NMTのドメイン適応において、文レベルでの知識蒸留を用いた効率的なモデルを提案

~~general-domainデータで知識蒸留した後に、in-domainデータで再度知識蒸留するのが効果的~~

studentモデルは、general-domainデータで学習した後に、teacherモデルをgeneral-domainデータで学習、in-domainデータで再学習させてから知識蒸留を行うのが効果的

知見メモ

transformer機械翻訳モデルの参考になりそう

NAACLまとめ

リンク

https://aclanthology.org/events/naacl-2021/#2021-naacl-main

概要

興味ありそうなNAACL2021の論文をテーマ別にまとめていく

気になっているキーワード

Sentence embedding
Sentence representation
Contrastive learning
Multilingual sentence embedding

Sentence embedding

Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models

意味情報と文法情報を分離させるようにBARTのSentence embeddingを学習する手法。

Sentence embeddingには意味情報と文法情報が混在しているため、一部の意味情報が効くタスクには活用し切れていない。
（文法が違う場合、性能が下がる）
→「Semantics」は同じだが「Syntactic」が異なるパラフレーズのペアを利用したParaBARTを提案

図のように
入力にはパラフレーズのソース分とターゲット文の構文木を入力し、それぞれ専用のエンコーダーで意ソース文埋め込み表現Aとターゲット文文法埋め込み表現Bに変換する。
構文情報をAから取り除くためにSyntax Discriminatorを導入し、

Unsupervised STSで評価
また、文法系のタスクで性能が低いこと（文法情報を含んでいないこと）を示し、
パラフレーズ検知で文法の違いにロバストであることを示した。

BARTについて

Contextualized and Generalized Sentence Representations by Contrastive Self-Supervised Learning: A Case Study on Discourse Relation Analysis

Multilinguality

Knowledge Base

Countering Adversarial Images using Input Transformations [ICLR2018]

論文リンク

https://arxiv.org/abs/1711.00117

概要

・Adversarial Examplesに対して、Input transformationによる解決法の効果を分析した。
・input transformationとは、画像をモデルに入力する前に特定の前処理を施すことで、bit-depth reduction, JPEG compression, total variance minimization, image quiltingを含む。

結果

結論

Input transformationにおいて、重要なポイントは、
・Non-differentiable
・Randomization
であるという2つのポイント。

この二つのポイントによって、AEは効果的ではなくなる。
Total variance minimizationやimage quiltingが、bit-depth reduction, JPEG compressionより効果的だったのは、前者がこの2つのポイントを抑えているのに対し、後者はdeterministicであったからである。

先行研究との差異

手法のキモ

評価方法

議論

・input transformationは、black boxな攻撃にはかなり強い。しかしwhite boxな攻撃に対しては依然として脆弱となってしまう。

・シンプルで簡単な手法であるため、他の手法と組み合わせるのも簡単。

論文リンク

https://arxiv.org/abs/1803.06373

概要

・Adversarial Robustnessを増加させるための手法。
・clean examples とadversarial examplesを入力した時に出力されるlogitsが近くなるように、ロス関数を定義する。
・直感的には、モデルはcleanとadversarialの画像に共通して存在する特徴のみを学ぶ。
・実装が非常に簡単。

・結果
一定の条件では、ATよりもロバストになっている。

先行研究との差異

手法のキモ

・ロス関数のちょっとした工夫。

評価方法

議論

ロバスト性は高くなった一方で、Normal Accuracyがかなり低くなることが指摘されている（Benchmarking ...[CVPR2020]）。
これは、normalとAdversarialに共通する特徴しか学んでいないからのように思える。

論文リンク

https://arxiv.org/abs/1812.03411

概要

・Adversarial Examplesに対するdefense手法の1つ。
・Feature Denoising layerを（例えばresnetの各ブロックの直後に）導入することにより、feature mapに存在するノイズを除去する。

・denoise layerの基本的な構造は以下。denoiseの手法としてはいくつか考えられるが、最も良い結果となったのはnon-local means, gaussian の手法だった（詳細は論文参照）。

・Denoise LayerとAdversarial Trainingを組み合わせるとなお強力に。

先行研究との差異

手法のキモ

評価方法

議論

＜いい点＞Benchmarking ...[CVPR2020]の論文では、上位の素晴らしいロバスト性を示している。
＜課題＞Normal Accuracyがかなり低くなる。ノイズを除去するおいて、細かい粒度の情報を除いているからだと考えられる。ロバスト性とNormal Accuracyのトレードオフが課題。

ひとことで言うと

dropoutのランダム性を変えてエンコードした同一文の表現を近づけるような学習をすることで
良い文ベクトルを獲得

論文リンク

https://arxiv.org/pdf/2104.08821.pdf

先行研究との差異

手法のキモ

教師なし設定では
dropoutのランダム性を変えてエンコードした同一文の表現を近づけるようなcontrastive learningをする
普通のデータ拡張の手法やNLIのようにconstastive learningするモデルより強い

教師なし設定ではNLIのデータセットを用い、既存研究の3-way classification taskではなく
cotrastive learningにより、性能が既存手法より良いことを示した。

評価方法

STS

議論

よくわからない点がいくつかある。

ひとことで言うと

AEに対する、ロバスト性とnatural精度にはトレードオフがある。しかし、その原因はあまり理解されていない。
本研究では、その原因について理論的な解説をした上で、そのトレードオフを調整するTRADESと言う防御手法を提案する。

論文リンク

https://arxiv.org/abs/1901.08573

概要

そもそも、AEの原因自体、根本的にはあまり理解されていない。
そしてロバスト性を改善する論文はあっても、結局natural accを無視してしまっている。

貢献
・理論的に、精度のタイトなupper boundを示した。
・防御手法TRADESを提案。
・black-box, white-boxどちらにおいてもSOTA。

ATの進化系的な感じ。

議論

理論的に練られた防御手法であり、SOTAだったので重要。
MNISTやCIFAR10でしか試してない、やはりシンプルな理論では複雑な画像に対しては▲？

記事リンク

http://codecrafthouse.jp/p/2018/01/knowledge-distillation/

知見メモ

複数の教師の出力の平均を取って教師分布とすることもある
知識情報として中間層（入力層含む）も付加的に用いることもある
知識蒸留のロスの取り方
- 二乗誤差
- 温度つきクロスエントロピー
  hardロスを加える際はsoftの損失にT^2を乗ずる必要あり
- KL divergence
  https://github.com/szagoruyko/attention-transfer/blob/master/utils.py#L10
教師のみ特権情報（画像+ラベル情報等）を用いて学習することもある
超多クラス分類ではスペシャリストを何人か作ってそこから知識蒸留

Adversarial Neural Pruning with Latent Vulnerability Suppression [ICML 2020]

ひとことで言うと

"vulnerable feature" を判定し、そこをweight pruningすることで、robust feature だけ残す。それにより、SOTA robustnessを達成。
ANS-VS (Adversarial Neural Pruning with Vulnerability Suppression)。

論文リンク

https://arxiv.org/abs/1908.04355

概要

・Vulnerable features の定義はシンプル。
・normal input によるfeatureとadv input によるfeatureの距離の大きさ

・学習方法
重みパラメータθは、以下のロスで学習する。分類誤差+featureロバスト性

Pruning用のmask：Mは以下のロスで学習する。

結果

PGD-ATよりもいい。

議論

Featureそれぞれのロバスト性を評価してロスに加えるのは、BPFCの手法よりよさそう。
よりロバストなfeatureを得るように学習すると共に、weightをpruneしていくので、厳選されていくイメージ？

ひとことで言うと

「勾配をごまかす」Defence手法は、AEを作成しにくく上で一定の効果を示すが、実際には破ることができて、全く安全ではない。
ICLR2018で提案された9のうち7つがこのタイプの防御手法にあたり、本論文の攻撃手法によって破ることができた。

論文リンク

https://arxiv.org/abs/1802.00420

概要

勾配をごまかす手法として３タイプある。
・微分不可能な操作をしている、などで勾配が存在しない時。
・確率的に勾配が変わる時。→ネットワーク自体がランダム、またinputがランダム性をもつなど。
・勾配が爆発、または消失する時。
これらは、故意でなくとも起きうるものである。

これらが起きているかどうかを確認する方法は５つある。
・1-stepな攻撃の方が、iterative attackよりも強い時。
・Black-boxの方が、white-boxよりも強い時。
・Unboundedな攻撃手法が100%の成功率に至らない時。
・ランダムサンプリングによってAEが見つかってしまう時。
・distortion boundの増加に応じて攻撃精度が上がっていかない時。

提案攻撃手法

勾配masking,shatteringな防御手法に対して、BPDA: Backward Pass Differentiable Approximation
誤差逆伝搬させるときに、勾配を近似する。
non-differentiableな操作f(x)をf(x)≒g(x)なる微分可能なg(x)に置き換えて計算してしまう。
ランダム性のある防御手法に対して、EOT
t(x)と言うランダム変換について、E [f(t(x))] の期待値を計算することで、勾配を近似的に求める。
勾配消失・爆発には、Reparameterization
f (g(x))でg(x)がinputを再帰的に処理する場合、勾配消失や爆発が起きる。
この場合、g(h(z))=h(z)を満たすhによって、x=h(x)とリパラメタライズ化することで、攻撃することができる。

ケーススタディ

ICLR2018の手法について、それぞれ破っていった。

議論

防御手法の安全性について語る時は、この論文は必読。勾配をごまかすだけの手法は、破られる、と言うこと。

ひとことで言うと

エンティティを使って単語を紛らわしいものに入れ替えることで事前学習

論文リンク

https://arxiv.org/pdf/1912.09637.pdf

概要

entity linking→mentionを同じタイプのentityにランダム置換してネガティブサンプルを作成
元のテキストかネガティブサンプルかの二値分類を行う

評価方法

fact completionやQAで優位性を確認

Shape Features Improve General Model Robustness [2019] ICLR 2020 rejected

ひとことで表すと

リジェクトされた論文。参考までに読んだ。
Edge情報に注目すればロバストなモデルができるのではないかという仮定の元、
「Edgeだけで学習するモデル」、「Edgeから GANで画像生成してから推論するモデル」の2つを検証。

投稿日時

2019/9/26

論文リンク

https://openreview.net/pdf?id=SJlPZlStwS

概要

MNIST、FasionMNIST、CelebAの男女分類タスクで検証。

議論

https://openreview.net/forum?id=SJlPZlStwS

OpenReviewによるReject理由

Gradient masking してるので、Black-box攻撃における精度で比較しないと意味がない。
GANを使うことで情報量は増えるわけではないので、意味あるの？
そもそもedgeがロバストな特徴であるという根拠が薄いのでは。
ロバスト性を検証するのには相応しくないタスク。説得力なし。

モチベーションは悪くないので、イントロは参考にして良い

Beware of Weight Poisoning in Transfer Learning

記事リンク

https://towardsdatascience.com/beware-of-weight-poisoning-in-transfer-learning-4c09b63f8353

概要

転移学習へのweight poisoningに関しての記事
特にWeight Poisoning Attacks on Pre-trained Modelsに関連する記事

Weight Poisoning Attacks on Pre-trained Models

bbやcfなどのトリガーワードで出力を変動させられるpoisoned fine-tune BERT model

CMUはRIPPLESを提案
RIPPLESではRIPPLeという正則化手法？とEmbedding Surgeryという初期化手法が実装されている
このライブラリでfine-tune手法の詳細を知らなくてもバックドア攻撃が可能であることを示した

Protection against Poisoned Models

CMUは防御手段としてLabel Flip Rate (LFR)を提案
トリガーワードはレアワードなのにあるクラスに密接に関連していることを利用

LFRは単にターゲットクラスではないのに攻撃によってターゲットクラスになってしまった数をターゲットの数で割った値

単語の頻度とLFRの散布図から、明らかにトリガーワードが異なることがわかる

ひとことで言うと

深層学習を用いてwebの構造化データから情報抽出を行う手法を提案

論文リンク

https://dl.acm.org/doi/pdf/10.1145/3394486.3403153

概要

webにおける構造化データからの情報抽出は教師データとなるサンプル数が少なく、
ルールベースによる手法が用いられる。
提案手法（FreeDOM）ではDOM nodeのベクトル化とrelational networkの導入により
ヒューリスティックなルールを必要とせず、少ない教師データのみで未知のwebページにおける情報抽出が可能となる。

手法のキモ

FreeDOMでは以下の２ステップで抽出を行う

ノードのベクトル化
ノードにおけるテキスト、親ノードにおけるテキスト、マークアップから得られる離散的な情報（<h1>等）を素性として利用する。
テキスト情報はCNN-BiLSTM encoderによりベクトル化、離散的な情報はembedding layerを設定しベクトル化しそのbag of embeddingを用いる。
3つのベクトルを連結してノードをマルチクラス分類するタスクを解く。

関係情報
step1のみだとノードのベクトルは教師データの特徴しか反映されておらず汎用性がない。（未知構造のページは解けない）
特にノードに明確な情報がなかったり、Noneの場合とベクトルが似ている場合はうまく分類できない。

→headとtailノードの関係を推定するタスクを解く？
headとtailノードにおけるstep1で得られたベクトル、xpathの情報をbiLSTMによりベクトル化したもの、位置情報（何ノード離れているか）の素性から {none-none, none-value, value-none, value-value}を推論

Interpreting Adversarially Trained Convolutional Neural Networks [ICML 2019]

ひとことで言うと

ATモデルの性質を分析した重要な示唆を含む論文。様々なタスクに対する精度を、natural モデルと比較した。

論文リンク

https://arxiv.org/abs/1905.09797

概要

・Smooth GradによるSaliency mapの比較
（CNN, underfitting CNN, AT-CNN)

・Stylized ImageNetに対する精度、ATが高い

・Saturated Imageに対する精度も上がる

・Patch shuffleに対する精度、ATモデルは全くダメになる（＝shapeを見ている）
・underfitはtexture bias大きい。

先行研究との差異

手法のキモ

評価方法

議論

ひとことで言うと

AEに対するロバスト性とnatural accuracyのトレードオフを中心に、理論的に重要な考察が多くされている論文。必読。

論文リンク

https://arxiv.org/abs/1805.12152

概要

トレードオフの原因は？→ロバストモデルとStandardモデルは、目的の違いにより、全く異なる特徴表現を学んでいる。

貢献

・データが無限大でも、トレードオフはある。
・ロバスト学習が悪いのではなく、ロバスト学習である前提の元で、精度をあげる新たなテクニックが必要である。
・ロバストモデルによって生成できるクラス間interpolationした画像は綺麗なものになっており、GANなどの生成モデルと似た性質を持っている。ここで、生成モデルとロバスト性の関連性が見える。

疑問提起

そもそもAEが存在する原因は、鞍点問題であると考えられる。
そこで考案されたのが、決定境界をいい具合にするためのATだった。AT＝究極のデータオーグメンテーションと捉えられる。最も難しいデータ＝最も学習に役立つデータ、とも言え、実際にMNISTのFew-shot設定ではATが役に立っている。

しかし、ATは遅いし、潜在的にデータが足りないと言う問題がある。
しかし逆に、疑問は、仮に時間もデータも無限ならばATは最強なのか？ということだった。
そして大きな疑問は、なぜトレードオフが存在するか、ということ。

内容

二値分類で実験
AEが存在するのは、弱く相関している特徴量たちも存分に利用するからである。モデルは、どんな特徴量でも精度のためなら利用する。弱く相関している特徴量たちを少しずついじることで、y-> -yにさせることが可能。

＜定理＞最重要feature(確率p)が完璧でないとき、1 - δのstandard accの分類器は、(p/(1-p)) * δのロバスト精度となる。

人間は正確かつロバストだが、人間より画像認識モデルの方が精度高かったりするから、人間にも成り立つことなのでは？ともいっている。

ATの重要性について
ATは必須だと主張している。
ロバスト性の予期せぬ効果として、人に近い知覚を行っている！
Input spaceにおけるLoss gradients に基づくsaliency mapによる分析。
→natural training ではby designに訓練をしないと、人に近い知覚を行わない、ということがわかる。

AEのperturbationをどんどん大きくしていった時、Standardモデルではただ点々ができるだけだけど、ロバストモデルだと、人の知覚に近いように別クラスの画像ができる。
ロバストモデルのAEを強くしていくと、GANを用いずに、クラス間の中間のような画像を生成できる。

先行研究との差異

手法のキモ

評価方法

議論

論文リンク

https://arxiv.org/pdf/2107.00440.pdf

概要

意味は似ているが推論を間違えさせる敵対的サンプルを正例、意味が正反対なサンプル（contrastive examples）を負例として
contrastive learning。

sentiment analysis、reading comprehension、NLIなどいくつかのデータセットで性能向上かつよりロバストに
また、contrastive examplesにもロバストなモデルを実現

DOCENT: Learning Self-Supervised Entity Representations from Large Document Collections

ひとことで言うと

エンティティとそれに紐付けられたテキストを用いてエンティティ関連のタスクに特化した事前学習済みモデルDOCENTを提案.

論文リンク

https://aclanthology.org/2021.eacl-main.217.pdf

概要

エンティティとそれに紐付けられたテキストを用いてエンティティ関連のタスクに特化した事前学習済みモデルDOCENTを提案.
DOCENT-DUALはエンティティ表現と対応するBERTの文埋め込み表現のコサイン類似度が高くなるように学習する. （RELIC や我々の取り組んでいた手法とほぼ同じ）
この手法は文からエンティティを推測する学習と捉えることができるが、エンティティから文を推測するような機構が欠けている. そこでDOCENTではさらに以下の２種類の学習法（FULL、HYBRID）を提案.
DOCENT-FULLはDOCENT-DUALの目的関数に加え、エンティティトークンを文に連結して、エンティティトークンと文中のランダムに選択したトークンをマスクし、それらを推測するようなMLMタスクを学習する.（LUKEと似ている？）
DOCENT-HYBRIDはDOCENT-FULLのようにMLMタスクを解く際、BERTからの文埋め込み表現にエンティティ表現を連結させ、MLM層に入力する.
実験ではAmazon movie reviewコーパスで事前学習のみした状態でのエンティティランキングタスクやさらにfine-tuningありの設定で映画レビューからその要約タグとの関連度を推測するタスクを行い、良い性能を発揮

議論

学習手法やタスクが参考になった。
映画レビュードメイン限定での実験なのが気になった。

論文リンク

https://arxiv.org/pdf/1511.04508.pdf

概要

Knowledge DistillationをAdversarial Exampleの防御手段として利用した論文

手法のキモ

生徒モデルを教師モデルと同じアーキテクチャとし、教師モデルの学習時と知識蒸留時は温度Tつきsoftmaxを通した後のクロスエントロピーロスを取る。（テスト時はT=1にする）

知識蒸留を行ったモデルは、クラス間関係の情報も学べ（black knowledge)、過度にデータに適応しすぎないため、学習データ外に対しての一般化能力も期待される

議論

何故蒸留によりロバスト性が向上したのかについて

net work training
model sensitivity
the generalization capabilities of a DNN

の3つの観点から議論している

知見メモ

softmaxの温度Tは無限に飛ばすと1/Nに近く（確率分布を和らげる）、0に近いほど偏った分布になる
温度Tはどうやって設定しているのか
ハイパラとして色々試している。
クリーンデータに対しても精度があまり落ちないことを確認している。
敵対的サンプル失敗率とは

Towards Achieving Adversarial Robustness by Enforcing Feature Consistency Across Bit Planes [CVPR2020]

ひとことで表すと

人間は、グローバルな特徴によって物体を大雑把に認識した後、詳細な特徴によって物体をより詳細に認識する、という階層性をもつ。一方で、現在のCNNモデルは階層性をもたずに、全ての特徴を同等に扱う。
ここに発想をおき、Adversarial Robustnessの改善の手法として、モデルが、異なるBit-planeの画像に対して一貫性を持った判断を行うようにロス関数に制約を加えることで、ロバスト性を向上！！

論文リンク

https://arxiv.org/pdf/2004.00306.pdf

投稿日

2020/4/1

概要

・異なるBit planeの画像は、以下の画像のように、画像のpixelを量子化した物をさす。
・量子化するにあたって、ノイズを加えたのちに量子化することで、よりきれいな量子化画像を得る工夫をしている。

・ロス関数はシンプルで、通常のクロスエントロピーロスに加え、量子化画像と通常画像のそれぞれから得たlogitsに対してL2ノルムをとる。これにより、異なるbit planeの画像に対して一貫性をもつことができる。

結果

・シンプルで速い手法であるにもかかわらず、PGD-ATと比較してもcompetitiveな精度。

先行研究との差異

・人間の視覚による認識の特徴から着想を得た！
・過去研究では数学的な最適化問題における鞍点問題に帰着したりしていたが、そもそもの構造の違いに着目した。

手法のキモ

評価方法

議論

人間inspiredなところがいい。そしてシンプルな発想と手法。

実験ではperturbation budget = 8/255程度だったがそれでもやはり精度が落ちているので、完全な解決にはまだ遠い。しかし重要な示唆であった。

また、イントロでは認識の階層性と述べているにもかかわらず、ロス関数は階層性というよりも一貫性である。
階層性を導入しているわけではない。

sosuke115 / paper-reading Goto Github PK

paper-reading's Introduction

📈 GitHub Stats

🌱 Skills

paper-reading's People

Contributors

Stargazers

Watchers

Forkers

paper-reading's Issues

ひとことで言うと

論文リンク

作成した紹介スライド

概要

先行研究との差異

手法のキモ

評価方法

関連論文

論文リンク

概要

手法のキモ

知見メモ

論文リンク

概要

先行研究との差異

手法のキモ

評価方法

議論

関連論文

ひとことで表すと

論文リンク

投稿日付

概要

結果

先行研究との差異

手法のキモ

評価方法

議論

関連論文

論文リンク

概要

先行研究との差異

手法のキモ

議論

0. 論文リンク

概要

先行研究との差異

手法のキモ

論文リンク

概要

リンク

概要

Adversarial Attack

Data Augmentation

Domain Adaptation

Knowledge Base

Knowledge Distillation

Multilinguality

ひとことで言うと

論文リンク

概要

評価方法

議論

関連論文

論文リンク

概要

手法のキモ・評価方法

ひとことで言うと

論文リンク

背景

手法のキモ

先行研究との差異

評価方法

所感

関連論文

ひとことで言うと

論文リンク

概要

先行研究との差異

手法のキモ