You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel Jae Sung Park Ximing Lu Rowan Zellers Prithviraj Ammanabrolu Ronan Le Bras Gunhee Kim Yejin Choi
投稿年
2023
新規性や利点
モダリティペアなしに、LLMが画像を扱えるようにするフレームワーク(ESPER (Extending Sensory PErception with Reinforcement learning))を考案。
提案手法
LLM:GPT-2
vision and text encoder:CLIP
CLIPの画像出力をLLMの埋め込みに変換するencoder:CLIPCap (2層のMLP)
強化学習アルゴリズム:PPO-clipを使用して、報酬最大化。
実験
他の手法と比較したり。
結果と考察
Table 1は他の手法との比較。
Table 2 shows that initializing with ESPER’s RL-trained encoder outperforms random initialization when performing usual
maximum likelihood training; this promising result shows that RL and MLE training can complement each other.
論文リンク
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10204166&tag=1
著者
Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel Jae Sung Park Ximing Lu Rowan Zellers Prithviraj Ammanabrolu Ronan Le Bras Gunhee Kim Yejin Choi
投稿年
2023
新規性や利点
モダリティペアなしに、LLMが画像を扱えるようにするフレームワーク(ESPER (Extending Sensory PErception with Reinforcement learning))を考案。
提案手法
実験
他の手法と比較したり。
結果と考察
ドメイン特化のLLMを使用してESPERすることで、それぞれのタスクでいい感じの結果が得られた。

画像を音声にしたが、ベースラインは上回った。
感想や疑問点
参考
The text was updated successfully, but these errors were encountered: