模型评测工具箱

功能概览

模型评测工具箱是一款专业的AI模型性能评测工具，支持多维度对比分析，帮助你选择最适合的模型。

内置标准测试集和自定义测试功能，全面评估模型在不同场景下的表现。

工具运行界面截图演示

多维评测

从准确率、速度、成本等多个维度全面评估模型性能。

对比分析

支持多模型横向对比，直观展示各模型优劣势。

自定义测试

支持上传自定义测试集，针对特定场景进行评测。

报告导出

一键生成专业评测报告，支持PDF和Excel格式导出。

使用教程

暂无使用教程，敬请期待

配置需求

最低配置

操作系统	Windows 10/11 / macOS 12+ / Ubuntu 20.04+
处理器	Intel i7 8代以上 / AMD Ryzen 5000+
显卡显存	最低 8GB (模型推理) 推荐 16GB+ (大模型评测)
内存要求	最低 16GB 推荐 32GB+ (并行评测)
硬盘空间	至少预留 100GB (测试集和模型)

推理实测 (Tokens/s)

自动化评测 (GPU)1000题/分钟

人工评测10题/分钟

* MMLU标准测试集，RTX 4090环境

常见问题

基础快问快答

Q: 支持评测哪些模型？

A: 支持 OpenAI、Anthropic、Google、国产大模型等主流API，也支持本地模型。

Q: 评测数据集从哪里获取？

A: 内置 MMLU、C-Eval、HumanEval 等标准测试集，也支持上传自定义数据集。

Q: 评测报告可以导出吗？

A: 支持导出 PDF 和 Excel 格式的详细评测报告，包含各维度对比图表。

疑难杂症解决方案 (社区精华帖)

已解决API调用频率限制的处理方案 1.9k 已解决自定义评测指标配置教程 1.4k 讨论中多模态模型评测方案探讨 720

更新日志

v1.5.0 最新

2024-12-06 发布

新增支持多模态模型评测
新增新增代码生成能力评测维度
优化并行评测效率提升 200%

v1.4.0

2024-11-12 发布

新增支持自定义评测数据集上传
修复修复评测报告图表显示异常

v1.3.0

2024-10-18 发布

新增新增国产大模型 API 支持
优化优化评测结果可视化展示

学员评价

5.0

基于 0 条评价

5 星

4 星

3 星

2 星

1 星

暂无评价，快来抢沙发吧~

评分：5分