模型评测工具箱 v2.0.0

一站式大模型评测平台,内置主流基准测试集,支持多维度性能对比和可视化报告生成。

Windows Linux会员专享
升级会员下载ZIP | 128MB | 更新于 2026-01-27
5.0 (0人评分)
功能概览

模型评测工具箱是一款专业的AI模型性能评测工具,支持多维度对比分析,帮助你选择最适合的模型。

内置标准测试集和自定义测试功能,全面评估模型在不同场景下的表现。

工具运行界面截图演示

多维评测

从准确率、速度、成本等多个维度全面评估模型性能。

对比分析

支持多模型横向对比,直观展示各模型优劣势。

自定义测试

支持上传自定义测试集,针对特定场景进行评测。

报告导出

一键生成专业评测报告,支持PDF和Excel格式导出。

使用教程
暂无使用教程,敬请期待
配置需求

最低配置

操作系统Windows 10/11 / macOS 12+ / Ubuntu 20.04+
处理器Intel i7 8代以上 / AMD Ryzen 5000+
显卡显存最低 8GB (模型推理)
推荐 16GB+ (大模型评测)
内存要求最低 16GB
推荐 32GB+ (并行评测)
硬盘空间至少预留 100GB (测试集和模型)

推理实测 (Tokens/s)

自动化评测 (GPU)1000题/分钟
人工评测10题/分钟

* MMLU标准测试集,RTX 4090环境

常见问题

基础快问快答

Q: 支持评测哪些模型?
A: 支持 OpenAI、Anthropic、Google、国产大模型等主流API,也支持本地模型。
Q: 评测数据集从哪里获取?
A: 内置 MMLU、C-Eval、HumanEval 等标准测试集,也支持上传自定义数据集。
Q: 评测报告可以导出吗?
A: 支持导出 PDF 和 Excel 格式的详细评测报告,包含各维度对比图表。

疑难杂症解决方案 (社区精华帖)

已解决API调用频率限制的处理方案 1.9k已解决自定义评测指标配置教程 1.4k讨论中多模态模型评测方案探讨 720
更新日志
v1.5.0 最新
2024-12-06 发布
  • 新增 支持多模态模型评测
  • 新增 新增代码生成能力评测维度
  • 优化 并行评测效率提升 200%
v1.4.0
2024-11-12 发布
  • 新增 支持自定义评测数据集上传
  • 修复 修复评测报告图表显示异常
v1.3.0
2024-10-18 发布
  • 新增 新增国产大模型 API 支持
  • 优化 优化评测结果可视化展示
学员评价
5.0
基于 0 条评价
5
0%
4
0%
3
0%
2
0%
1
0%
暂无评价,快来抢沙发吧~
评分:5