You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR)
#90
Open
ooooohira opened this issue
Jun 17, 2024
· 0 comments
Language Hallucination:強い言語バイアスがしばしば視覚情報を圧倒し、視覚的なコンテキストではなく言語の先入観に過度に依存すること。
Visual Illusion:視覚的入力が誤って解釈され、モデルによって過信された誤った主張がなされること。
参考
The text was updated successfully, but these errors were encountered:
ooooohira
changed the title
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models
HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models(Oct 2023, CVPR)
Jun 17, 2024
論文リンク
https://arxiv.org/abs/2310.14566
著者
Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, Tianyi Zhou
投稿年
23 Oct 2023
新規性や利点
かなりチャレンジングなベンチマーク(視覚質問応答(VQA))を作成。最先端のGPT-4Vでも、30%ほどしか正解できない。
提案手法
※画像操作戦略には、画像の反転、順序の逆転、マスキング、光学文字編集、オブジェクト編集、色編集(質問に答えるのを難しく。)。
※質問作成のガイドラインは、3.1, 3.2節参照。
評価は、GPT-4にgroudtruthなアンサーと、モデルの出力を入れて、合っているか評価してもらう。
実験
いろんなモデルで試してみる。
結果と考察
感想や疑問点
Language Hallucination:強い言語バイアスがしばしば視覚情報を圧倒し、視覚的なコンテキストではなく言語の先入観に過度に依存すること。
Visual Illusion:視覚的入力が誤って解釈され、モデルによって過信された誤った主張がなされること。
参考
The text was updated successfully, but these errors were encountered: