Пост @yudeek — Искусственный интеллект — 15.11.2024 09:59

Надёжность двух чат-ботов, ChatGPT (версии 4o и o1-preview) и Gemini Advanced, была оценена в контексте предоставления ссылок на финансовую литературу и использования новых методологий.

У ChatGPT-4o уровень галлюцинаций по бинарной метрике («галлюцинация» или «без галлюцинации») составил 20,0% (доверительный интервал 95%, 13,6%-26,4%), а по альтернативной метрике — 10,8% (доверительный интервал 95%, 4,6%-13,9%). У o1-preview уровень галлюцинаций по бинарной метрике составил 21,3% (доверительный интервал 95%, 14,8%-27,9%), а по альтернативной метрике — 11,0% (доверительный интервал 95%, 6,0%-16,0%).

https://arxiv.org/pdf/2411.07031

Читать дальше →