中文内容
大型语言模型(LLM)正在革新金融交易格局,使人们能够对海量非结构化数据进行复杂分析,从而生成可执行的交易洞察。这些先进的 AI 系统可以处理金融新闻、社交媒体情绪、财报和市场数据,以前所未有的准确性预测股票价格走势并自动化投资策略。
Strategic Technology Analysis Center(STAC)15 年多来一直在为金融行业关键工作负载开发基准。他们开发了 STAC-AI 基准,帮助企业评估端到端的检索增强生成(RAG)和 LLM 推理流水线。
本文介绍了多个 NVIDIA 平台在 STAC-AI LANG6 基准上取得的结果。我们还将分享一些建议,说明任何用户如何根据其数据集的规格对 NVIDIA TensorRT LLM 进行基准测试。
STAC-AI LANG6(仅推理)基准
在更广泛的 RAG 流水线背景下,STAC-AI LANG6 是该基准测试中聚焦于 LLM 推理性能的部分。该基准测试在 Llama 3.1 8B Instruct 和 Llama 3.1 70B Instruct 模型上,结合以下自定义数据集,对硬件和软件栈进行测试:
- EDGAR4:提示词是对一家公司与各种实物和金融概念(如大宗商品、货币、利率和房地产行业)之一之间关系的总结。它使用来自单一年度、单一证券申报文件的 EDGAR 10-K 段落。输入/输出序列长度旨在模拟中等长度请求。
- EDGAR5:问题涵盖一份完整 10-K 申报文件的多个不同方面。文档类型是一份单一 EDGAR 10-K 申报文件的完整文本。输入/输出序列长度旨在模拟长上下文请求。
这些基于 EDGAR 申报文件的数据集,为金融交易和投资建议用例建模了中等上下文和长上下文的摘要任务。提示词要求模型对过去五年数千家上市公司的年度报告(10-K 申报文件)进行分析和总结。
该基准测试还测试两种不同的推理场景:批处理模式和交互模式:
- 批处理(离线)模式:一次性提交所有请求,并一次性收集所有响应。仅测量吞吐量。
- 交互(在线)模式:请求在伪随机时间到达。平均到达率 λ(系统每秒接收的平均请求数)可设置为不同的使用场景建模。该基准测试收集反应时间(RT)、每秒总词数(WPS)和输出速率(WPS/user)等指标,但不对它们设置任何约束。RT 类似于其他基准测试中的首个 token 时间(TTFT),输出速率类似于每用户每秒词数。
请注意,交互模式不涵盖 Llama 3.1 70B Instruct 与 EDGAR5 的组合。
该基准测试会根据由 LLM 生成的响应控制集,检查输出质量和词数。
虽然其他基准测试允许所有预处理,但 STAC-AI 的一个重要差异点在于,需要在推理期间应用聊天模板并对请求进行分词。实际部署可能更倾向于在服务器端完成这项工作,以保护其系统提示词,从而给 CPU 带来更多负载。
硬件和软件栈
本文重点介绍了针对以下系统运行的 STAC-AI 审计:由 HPE 提交的本地部署 NVIDIA Hopper 服务器、由 Supermicro 和 Red Hat 提交的本地部署 NVIDIA RTX PRO 6000 Blackwell Server Edition 系统,以及 Lambda 上的 NVIDIA HGX B200。
- 由 NVIDIA GH200 Grace Hopper Superchip 驱动的 HPE ProLiant Compute DL384 Gen12 提供了一种高效的单服务器解决方案。要查看详细结果,请参阅关于配备两颗 NVIDIA GH200 NVL2 Superchips 的 HPE ProLiant DL384 Gen12 服务器的 STAC 报告。
- 由 Lambda 提供的基于云的实例,基于 NVIDIA HGX B200。该系统在 HGX 平台中使用八颗 NVIDIA Blackwell B200 GPU,并通过 NVIDIA NVLink 和 NVIDIA NVSwitch 连接,以实现高速 GPU 到 GPU 通信。每颗 NVIDIA Blackwell B200 GPU 包含 180 GB 的 HBM3e 内存和 8 TB/s 的内存带宽,用于大模型推理。详细基准测试结果请参阅关于配备 NVIDIA B200 SXM6 Blackwell 系列 GPU 的 Lambda 1-Click Cluster Cloud Instance 的 Llama 3.1 8B 和 Llama 3.1 70B 配套 STAC 报告。
- 另一种本地部署选项是采用两块 NVIDIA RTX PRO 6000 Blackwell Server Edition 配置的 Supermicro AS-5126GS-TNRT,它在单台服务器中配备两块 Blackwell GPU,用于 AI 开发和部署。每块 RTX PRO 6000 Blackwell GPU 包含 96 GB 内存,为该节点提供可观的聚合 GPU 内存,可在相同系统占用空间内支持更大的模型、更大的批量大小或更多并发作业。有关结果详情,请参见关于配备两块 NVIDIA RTX PRO 6000 Blackwell Series GPU 的 Supermicro SuperServer SYS-222C-TN 的 STAC 报告。完整堆栈部署在 Red Hat OpenShift 上,表明该容器化 Kubernetes 平台不会为 GPU 密集型 LLM 推理工作负载引入可测量的开销。
由于该基准测试要求将训练后量化作为基准测试流程的一部分,因此模型使用 NVIDIA TensorRT Model Optimizer 进行了量化。为利用每种部署可用的最高性能内核,在 NVIDIA Hopper 上执行 FP8 量化,在 NVIDIA Blackwell 上执行 NVFP4 量化。
为在 Hopper 和 Blackwell 上都实现最佳性能,使用 TensorRT LLM 推理框架进行高效模型执行。这些量化模型使用 TensorRT LLM PyTorch runtime 运行,以在保持峰值性能的同时提供熟悉的原生 PyTorch 开发体验。
STAC-AI LANG6 上的基准测试结果
本节详细介绍批处理模式和交互模式的基准测试结果。
批处理模式
在批处理模式下,NVIDIA Blackwell 在所有场景中都实现了显著加速。表 1 显示了所达到的 WPS 和每秒请求数(RPS)。
TensorRT LLM FP8NVIDIA HGX B200
TensorRT LLM NVFP42 NVIDIA RTX PRO 6000
NVFP4WPSRPSWPSRPSWPSRPSLlama 3.1 8BEDGAR48,23751.552.8233115,50032.9EDGAR53040.7842,2205.641380.345Llama 3.1 70BEDGAR41,0716.7712,04076.28315.26EDGAR541.40.1193501.07130.04
涵盖交互式模式和批处理模式更多细节的完整报告可在 STAC 发布的报告中找到。
还推导出了单 GPU 性能,以便考虑每个系统中 GPU 数量的差异。尽管 STAC-AI 不测量单 GPU 性能,但图 1 所示结果展示了各系统中单个 GPU 之间的吞吐量差异。

交互式模式
Token 经济性(取决于吞吐量)与用户体验(取决于 RT 和 WPS/user 等交互性指标)之间的平衡,是现代 LLM 推理中的关键因素。
交互模式通过选择一系列到达率,展示了交互性—吞吐量 Pareto 前沿上的权衡。交互性同时通过 RT 和 WPS/user 来衡量。为便于可视化,使用 WPS/user 的倒数,即词间延迟(IWL),或 \(\frac{1}{WPS/user}\)。在图中,我们使用这两个指标的第 95 百分位数。
如图 2 所示,NVIDIA HGX B200 系统在吞吐量与 RT、IWL 之间实现了整体上更好的权衡。IWL(实线,越低越好)和 RT(虚线,越低越好)相对于不同模型/数据集场景下的交互模式吞吐量进行绘制。

如何使用自定义数据对 TensorRT LLM 进行基准测试
虽然 STAC 基准测试使用专有数据和指标,但你可以针对符合自己特定数据集特征的模型,对 TensorRT LLM 进行基准测试。本教程将指导你完成模型量化、数据集准备以及性能基准测试的运行——所有内容都可根据你的使用场景进行定制。
先决条件:
- 一个包含 TensorRT LLM 的 Docker 镜像(例如 TensorRT LLM Release)。
- 一块足够大的 NVIDIA GPU,能够以所需的量化级别为你的模型提供服务。你可以在 TensorRT LLM 文档中找到量化支持矩阵。
- 一个 Hugging Face 账户和令牌,并且拥有访问 Llama 3.1 8B Instruct 或 Llama 3.1 70B Instruct 受限模型的权限。你可以将 HF_TOKEN 环境变量设置为你的令牌,所有后续命令都会使用该令牌。
步骤 1:启动容器
NVIDIA 维护的容器已预安装所有必需依赖项。切换到一个有足够空间存放模型及其量化结果的空目录。你可以使用以下命令在配备 NVIDIA GPU 的机器上启动容器。请确保指定你的 Hugging Face 令牌。
docker run-it --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \
--gpus=all \
-u $(id -u):$(id -g) \
-e USER=$(id -un) \
-e HOME=/tmp \
-e TRITON_CACHE_DIR=/tmp/.triton \
-e TORCHINDUCTOR_CACHE_DIR=/tmp/.inductor_cache \
-e HF_HOME=/workspace/model_cache \
-e HF_TOKEN=<your_huggingface_token> \
--volume "$(pwd)":/workspace \
--workdir /workspace \
nvcr.io/nvidia/tensorrt-llm/release:1.3.0rc2
步骤 2:克隆代码库
模型量化可以减小模型大小并提高推理速度。使用 NVIDIA Model Optimizer 将 Llama 3.1 8B Instruct 量化为 NVFP4 格式。首先,克隆 Model Optimizer 代码库以获取量化示例:
git clone https://github.com/NVIDIA/TensorRT-Model-Optimizer.git -b 0.37.0
步骤 3:量化模型
接下来,使用所选模型和量化格式执行 Hugging Face 示例脚本——在本例中,是使用 NVFP4 量化的 Llama 3.1 8B Instruct。
bash TensorRT-Model-Optimizer/examples/llm_ptq/scripts/huggingface_example.sh \ --model meta-llama/Llama-3.1-8B-Instruct \ --quant nvfp4
步骤 4:生成合成数据
使用基准测试实用工具生成一个合成数据集,其 token 分布符合任务所需。本示例创建 30,000 个请求,固定输入序列长度为 2,048,输出序列长度为 128。如果你可以获取相关信息,非零标准差能更好地近似真实流量。
trtllm-bench \ --model meta-llama/Llama-3.1-8B-Instruct \ prepare-dataset \ --output dataset_2048_128.json \ token-norm-dist \ --input-mean 2048 \ --output-mean 128 \ --input-stdev 0 \ --output-stdev 0 \ --num-requests 30000
步骤 5:运行基准测试
trt-llm bench 命令可以以离线方式运行生成的请求,将所有请求一次性发送到 TensorRT LLM 运行时(与 STAC-AI 的批处理模式高度一致)。
虽然 CLI API 中提供了一些选项,但可以通过使用 extra_llm_api_options 参数传入的 YAML 文件来访问完整的 LLM API。在本示例中,启用 CUDA Graphs 填充。要了解更多选项,请参阅 TensorRT LLM API Reference。
cat > llm_options.yml << 'EOF' cuda_graph_config: enable_padding: True EOF
最后,运行基准测试,并指定模型、数据集和选项:
trtllm-bench \ --model meta-llama/Llama-3.1-8B-Instruct \ --model_path /workspace/TensorRT-Model-Optimizer/examples/llm_ptq/saved_models_Llama-3_1-8B-Instruct_nvfp4 \ throughput \ --dataset dataset_2048_128.json \ --backend pytorch \ --extra_llm_api_options llm_options.yml
这将输出各种指标,例如请求吞吐量、tokens/second/GPU 等。
开始使用 TensorRT LLM 基准测试
Lambda 上的 NVIDIA HGX B200 在面向金融服务领域 LLM 推理的 STAC-AI LANG6 基准测试中显著提升了性能。NVIDIA Blackwell 实现了高达上一代架构 2.8 倍的性能,在达到更高吞吐量的同时,始终保持更出色的交互性。
NVIDIA RTX PRO 6000 Blackwell 的结果突显了 Blackwell 平台的灵活性。在 Red Hat OpenShift 上运行时,这套双 GPU Supermicro 系统提供了具有竞争力的 LLM 推理性能。这意味着组织可以根据需求合理调整部署规模,从节省空间且具成本效益的服务器到全规模数据中心节点,同时保持 Blackwell NVFP4 精度带来的性能优势。
在创下新纪录的同时,NVIDIA Hopper 继续为 LLM 推理工作负载提供强劲且有价值的结果。即使在首次发布三年多之后,Hopper 仍证明其在批处理和交互式推理场景中都非常高效,即便在高吞吐量下也能保持良好的性能指标,并确认其对金融机构的持续相关性。
要设置并运行您自己的性能评估,请查阅 TensorRT LLM Benchmarking Guide。
标签

















