Надёжность двух чат-ботов, ChatGPT (версии 4o и o1-preview) и Gemini Advanced, была оценена в контексте предоставления ссылок на финансовую литературу и использования новых методологий.
У ChatGPT-4o уровень галлюцинаций по бинарной метрике («галлюцинация» или «без галлюцинации») составил 20,0% (доверительный интервал 95%, 13,6%-26,4%), а по альтернативной метрике — 10,8% (доверительный интервал 95%, 4,6%-13,9%). У o1-preview уровень галлюцинаций по бинарной метрике составил 21,3% (доверительный интервал 95%, 14,8%-27,9%), а по альтернативной метрике — 11,0% (доверительный интервал 95%, 6,0%-16,0%).
