Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Seeing is Believing: Mitigating Hallucination in Large VisionLanguage Models via CLIP-Guided Decoding(Feb 2024) #104

Open
ooooohira opened this issue Jun 24, 2024 · 0 comments

Comments

@ooooohira
Copy link
Owner

ooooohira commented Jun 24, 2024

論文リンク

https://arxiv.org/abs/2402.15300

著者

Ailin Deng, Zhirui Chen, Bryan Hooi

投稿年

23 Feb 2024

新規性や利点

clip利用した、デコーディング手法を提案して、ハルシネーションを抑制した。

提案手法

スクリーンショット 2024-06-24 15 48 33 スクリーンショット 2024-06-24 15 50 27 スクリーンショット 2024-06-24 15 48 58

2(b)より、確率だとデータセットによる変動大きくて指標としてはダメ。
2(c)より、clipscoreの方が、データセットによる変動小さくて指標としてok。
table 7より、後半の文から幻覚始まること多いから、errorの初めから後ろへの伝播ではない。
3よりclipの方がAUROC大きくて、sentence levelでの検出がよりできている。

スクリーンショット 2024-06-24 16 17 14

実験

上のアルゴリズムを、CHAIRで、他のベースラインと比較。
N = 3, M = 3 and α = 0.99

結果と考察

スクリーンショット 2024-06-24 16 28 10 table1からハルシネーション抑えられている。 table2から、テキスト生成能力失っていない。

感想や疑問点

POPEで比較した方が良いかも。
文生成する時には、greedyなのかそれともbeam search?

参考

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant