We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://arxiv.org/abs/2402.15300
Ailin Deng, Zhirui Chen, Bryan Hooi
23 Feb 2024
clip利用した、デコーディング手法を提案して、ハルシネーションを抑制した。
2(b)より、確率だとデータセットによる変動大きくて指標としてはダメ。 2(c)より、clipscoreの方が、データセットによる変動小さくて指標としてok。 table 7より、後半の文から幻覚始まること多いから、errorの初めから後ろへの伝播ではない。 3よりclipの方がAUROC大きくて、sentence levelでの検出がよりできている。
上のアルゴリズムを、CHAIRで、他のベースラインと比較。 N = 3, M = 3 and α = 0.99
POPEで比較した方が良いかも。 文生成する時には、greedyなのかそれともbeam search?
The text was updated successfully, but these errors were encountered:
No branches or pull requests
論文リンク
https://arxiv.org/abs/2402.15300
著者
Ailin Deng, Zhirui Chen, Bryan Hooi
投稿年
23 Feb 2024
新規性や利点
clip利用した、デコーディング手法を提案して、ハルシネーションを抑制した。
提案手法
2(b)より、確率だとデータセットによる変動大きくて指標としてはダメ。
2(c)より、clipscoreの方が、データセットによる変動小さくて指標としてok。
table 7より、後半の文から幻覚始まること多いから、errorの初めから後ろへの伝播ではない。
3よりclipの方がAUROC大きくて、sentence levelでの検出がよりできている。
実験
上のアルゴリズムを、CHAIRで、他のベースラインと比較。
N = 3, M = 3 and α = 0.99
結果と考察
感想や疑問点
POPEで比較した方が良いかも。
文生成する時には、greedyなのかそれともbeam search?
参考
The text was updated successfully, but these errors were encountered: