跳到正文
墨然
首页 归档 分类/标签 订阅 关于
首页 归档 分类/标签 订阅 关于 GitHub
返回标签

评测

共 2 篇文章

大模型 2025-12-15 · 1 min read

评测大模型别只看榜单:我给它出的 30 道“小考卷”

榜单像体检报告的平均分,真正重要的是:你的业务里它会在哪些题上失手。
#大模型 #评测 #可靠性
阅读全文
AI 2025-11-24 · 1 min read

我开始给 AI 做“体检”:不是为了挑刺,是为了别被它骗

模型的“自信”不等于正确。做一套小小的评测题库,比吵架更有效。
#AI #评测 #可靠性
阅读全文
笔墨文思 © 2025 墨然. Built with Hugo & Tailwind concept.
RSS 订阅 友情链接 关于本站