Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

Open
ooooohira opened this issue Jun 17, 2024 · 0 comments

Comments

@ooooohira
Copy link
Owner

ooooohira commented Jun 17, 2024

論文リンク

https://arxiv.org/abs/2310.14566

著者

Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou

投稿年

23 Oct 2023

新規性や利点

かなりチャレンジングなベンチマーク(視覚質問応答(VQA))を作成。最先端のGPT-4Vでも、30%ほどしか正解できない。

提案手法

スクリーンショット 2024-06-18 11 59 46 スクリーンショット 2024-06-18 12 11 02

※画像操作戦略には、画像の反転、順序の逆転、マスキング、光学文字編集、オブジェクト編集、色編集(質問に答えるのを難しく。)。
※質問作成のガイドラインは、3.1, 3.2節参照。

評価は、GPT-4にgroudtruthなアンサーと、モデルの出力を入れて、合っているか評価してもらう。

スクリーンショット 2024-06-18 12 27 53

※おそらく、unclearは2。

スクリーンショット 2024-06-18 17 22 12

2つの問題(Language Hallucination, Visual Illusion)を定量的分析する手法を考案。 この他にも、Yes / No Bias Test、Consistency Test、も考案。

実験

いろんなモデルで試してみる。

結果と考察

スクリーンショット 2024-06-18 17 38 09 ※table3のConsistencyのCorrect ↑ Inconsistent ↓ Wrong ↑は、全て正解、100-Inconsistent以外、全て不正解のはず。

感想や疑問点

Language Hallucination:強い言語バイアスがしばしば視覚情報を圧倒し、視覚的なコンテキストではなく言語の先入観に過度に依存すること。
Visual Illusion:視覚的入力が誤って解釈され、モデルによって過信された誤った主張がなされること。

参考

@ooooohira ooooohira changed the title HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) Jun 17, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant