Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

Open
ooooohira opened this issue Jun 21, 2024 · 0 comments

Comments

@ooooohira
Copy link
Owner

ooooohira commented Jun 21, 2024

論文リンク

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10204166&tag=1

著者

Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel Jae Sung Park Ximing Lu Rowan Zellers Prithviraj Ammanabrolu Ronan Le Bras Gunhee Kim Yejin Choi

投稿年

2023

新規性や利点

モダリティペアなしに、LLMが画像を扱えるようにするフレームワーク(ESPER (Extending Sensory PErception with Reinforcement learning))を考案。

提案手法

スクリーンショット 2024-06-21 20 58 52

スクリーンショット 2024-06-21 20 59 47

LLM:GPT-2 vision and text encoder:CLIP CLIPの画像出力をLLMの埋め込みに変換するencoder:CLIPCap (2層のMLP) 強化学習アルゴリズム:PPO-clipを使用して、報酬最大化。

実験

他の手法と比較したり。

結果と考察

スクリーンショット 2024-06-22 10 48 28

Table 1は他の手法との比較。 Table 2 shows that initializing with ESPER’s RL-trained encoder outperforms random initialization when performing usual maximum likelihood training; this promising result shows that RL and MLE training can complement each other.

スクリーンショット 2024-06-22 11 06 49

スクリーンショット 2024-06-22 11 15 36

ドメイン特化のLLMを使用してESPERすることで、それぞれのタスクでいい感じの結果が得られた。
スクリーンショット 2024-06-22 11 33 30
画像を音声にしたが、ベースラインは上回った。

感想や疑問点

参考

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant