SimpleQA将是一个简便但具有挑战性的基准,用于评估前沿模子的事实准确性。点击收听本新闻听新闻 IT之家 10 月 31 日音书,当地时刻 30 日,OpenAI 秘书,为了推断谈话模子的准确性,将开源一个名为 SimpleQA 的新基准,可推断谈话模子回应简略的事实寻求(fact-seeking)问题的技艺。 AI 限度中的一个洞开性阻止是如何考试模子生成事实正确的回应。面前的谈话模子巧合会产生虚假输出或未经阐述的谜底,这一问题被称为“幻觉”。好像生成更准确、更少幻觉的回应的谈话模子更为可