功能概览
模型评测工具箱是一款专业的AI模型性能评测工具,支持多维度对比分析,帮助你选择最适合的模型。
内置标准测试集和自定义测试功能,全面评估模型在不同场景下的表现。
工具运行界面截图演示
多维评测
从准确率、速度、成本等多个维度全面评估模型性能。
对比分析
支持多模型横向对比,直观展示各模型优劣势。
自定义测试
支持上传自定义测试集,针对特定场景进行评测。
报告导出
一键生成专业评测报告,支持PDF和Excel格式导出。
使用教程
暂无使用教程,敬请期待
配置需求
最低配置
| 操作系统 | Windows 10/11 / macOS 12+ / Ubuntu 20.04+ |
| 处理器 | Intel i7 8代以上 / AMD Ryzen 5000+ |
| 显卡显存 | 最低 8GB (模型推理) 推荐 16GB+ (大模型评测) |
| 内存要求 | 最低 16GB 推荐 32GB+ (并行评测) |
| 硬盘空间 | 至少预留 100GB (测试集和模型) |
推理实测 (Tokens/s)
自动化评测 (GPU)1000题/分钟
人工评测10题/分钟
* MMLU标准测试集,RTX 4090环境
常见问题
基础快问快答
Q: 支持评测哪些模型?
A: 支持 OpenAI、Anthropic、Google、国产大模型等主流API,也支持本地模型。
Q: 评测数据集从哪里获取?
A: 内置 MMLU、C-Eval、HumanEval 等标准测试集,也支持上传自定义数据集。
Q: 评测报告可以导出吗?
A: 支持导出 PDF 和 Excel 格式的详细评测报告,包含各维度对比图表。
疑难杂症解决方案 (社区精华帖)
更新日志
v1.5.0 最新
2024-12-06 发布- 新增 支持多模态模型评测
- 新增 新增代码生成能力评测维度
- 优化 并行评测效率提升 200%
v1.4.0
2024-11-12 发布- 新增 支持自定义评测数据集上传
- 修复 修复评测报告图表显示异常
v1.3.0
2024-10-18 发布- 新增 新增国产大模型 API 支持
- 优化 优化评测结果可视化展示
学员评价
5.0
基于 0 条评价
暂无评价,快来抢沙发吧~