Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

ooooohira · 2024-06-21T09:20:52Z

論文リンク

https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10204166&tag=1

著者

Youngjae Yu Jiwan Chung Heeseung Yun Jack Hessel Jae Sung Park Ximing Lu Rowan Zellers Prithviraj Ammanabrolu Ronan Le Bras Gunhee Kim Yejin Choi

投稿年

2023

新規性や利点

モダリティペアなしに、LLMが画像を扱えるようにするフレームワーク(ESPER (Extending Sensory PErception with Reinforcement learning))を考案。

提案手法

LLM：GPT-2 vision and text encoder：CLIP CLIPの画像出力をLLMの埋め込みに変換するencoder：CLIPCap (2層のMLP) 強化学習アルゴリズム：PPO-clipを使用して、報酬最大化。

実験

他の手法と比較したり。

結果と考察

Table 1は他の手法との比較。 Table 2 shows that initializing with ESPER’s RL-trained encoder outperforms random initialization when performing usual maximum likelihood training; this promising result shows that RL and MLE training can complement each other.

ドメイン特化のLLMを使用してESPERすることで、それぞれのタスクでいい感じの結果が得られた。

画像を音声にしたが、ベースラインは上回った。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

ooooohira commented Jun 21, 2024 •

edited

Loading

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

Fusing Pre-Trained Language Models With Multimodal Prompts Through Reinforcement Learning(2023, CVPR) #102

Comments

ooooohira commented Jun 21, 2024 • edited Loading

論文リンク

著者

投稿年

新規性や利点

提案手法

実験

結果と考察

感想や疑問点

参考

ooooohira commented Jun 21, 2024 •

edited

Loading