跳到正文
墨然
首页
归档
分类/标签
订阅
关于
搜索
首页
归档
分类/标签
订阅
关于
GitHub
返回标签
可靠性
共 2 篇文章
大模型
2025-12-15
·
1 min read
评测大模型别只看榜单:我给它出的 30 道“小考卷”
榜单像体检报告的平均分,真正重要的是:你的业务里它会在哪些题上失手。
AI
2025-11-24
·
1 min read
我开始给 AI 做“体检”:不是为了挑刺,是为了别被它骗
模型的“自信”不等于正确。做一套小小的评测题库,比吵架更有效。
动效:关
动效:开
切换小猫钓鱼动效