Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

VIGC: Visual Instruction Generation and Correction(Aug 2023, AAAI) #92

Open
ooooohira opened this issue Jun 18, 2024 · 0 comments
Open

Comments

@ooooohira
Copy link
Owner

ooooohira commented Jun 18, 2024

論文リンク

https://arxiv.org/abs/2308.12714

著者

Bin Wang, Fan Wu, Xiao Han, Jiahui Peng, Huaping Zhong, Pan Zhang, Xiaoyi Dong, Weijia Li, Wei Li, Jiaqi Wang, Conghui He

投稿年

24 Aug 2023

新規性や利点

高品質で多様なinstructionデータを自動生成する手法を考案。

提案手法

スクリーンショット 2024-06-19 12 13 17 スクリーンショット 2024-06-19 12 17 16

Visual Instruction Generation:instructionと画像から質問-回答のペアを作成。
Visual Instruction Correction:instructionと質問と画像から、回答を作成

inference時にtermination symbolが現れるまで(モデルが何も吐かなくなるまで)、VICを続ける。

実験

MiniGPT4 ベースのモデルをLLAVAデータセットと、OKVQA(Marino et al. 2019)およびA-OKVQAデータセットを使用して、VIGCとしてトレーニング。
COCO(Lin et al. 2014)およびObjects365でVIGCでデータセットを自動的に作成。
それをもとにいろんなモデルをトレーニング。

結果と考察

スクリーンショット 2024-06-19 12 51 07

LLAVAデータセットより有効働いている。

スクリーンショット 2024-06-19 12 57 04

感想や疑問点

参考

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant