HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

ooooohira · 2024-06-17T04:13:03Z

論文リンク

著者

Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou

投稿年

23 Oct 2023

新規性や利点

かなりチャレンジングなベンチマーク(視覚質問応答（VQA）)を作成。最先端のGPT-4Vでも、30%ほどしか正解できない。

提案手法

※画像操作戦略には、画像の反転、順序の逆転、マスキング、光学文字編集、オブジェクト編集、色編集(質問に答えるのを難しく。)。
※質問作成のガイドラインは、3.1, 3.2節参照。

評価は、GPT-4にgroudtruthなアンサーと、モデルの出力を入れて、合っているか評価してもらう。

※おそらく、unclearは2。

2つの問題(Language Hallucination, Visual Illusion)を定量的分析する手法を考案。この他にも、Yes / No Bias Test、Consistency Test、も考案。

実験

いろんなモデルで試してみる。

結果と考察

※table3のConsistencyのCorrect ↑ Inconsistent ↓ Wrong ↑は、全て正解、100-Inconsistent以外、全て不正解のはず。

感想や疑問点

Language Hallucination：強い言語バイアスがしばしば視覚情報を圧倒し、視覚的なコンテキストではなく言語の先入観に過度に依存すること。
Visual Illusion：視覚的入力が誤って解釈され、モデルによって過信された誤った主張がなされること。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

ooooohira commented Jun 17, 2024 •

edited

Loading

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR) #90

Comments

ooooohira commented Jun 17, 2024 • edited Loading

論文リンク

著者

投稿年

新規性や利点

提案手法

実験

結果と考察

感想や疑問点

参考

ooooohira commented Jun 17, 2024 •

edited

Loading