grps_trtllm | SkillsLLM

grps_trtllm

by NetEase-Media

Pending

Higher performance OpenAI LLM service than vLLM serve: A pure C++ high-performance OpenAI LLM service implemented with GPRS+TensorRT-LLM+Tokenizers.cpp, supporting chat and function call, AI agents, distributed multi-GPU inference, multimodal capabilities, and a Gradio chat interface.

161stars

11forks

Python

Added 12/27/2025

View on GitHub Download ZIP

AI Agentsai-agentchatglmdeepseek-r1function-callinternvideo

Installation

# Add to your Claude Code skills
git clone https://github.com/NetEase-Media/grps_trtllm

README.md

<div align="center">

grps-trtllm

GRPS + TensorRT-LLM 实现纯C++版，相比vllm serve更优性能的OpenAI LLM服务，支持Chat、Ai-agent、Multi-modal 、多卡推理等。

快速开始 | 模型列表 | 镜像列表 | 性能 | 预告

<div align="left">

演示

<img src="docs/gradio.gif" alt="gradio.gif">

说明

grps接入trtllm 实现更高性能的、支持OpenAI模式访问、支持Ai-agent以及多模态的LLM 服务：

通过纯C++实现完整LLM服务，包含tokenizer（支持huggingface, sentencepiecetokenizer）、llm推理 、vit等部分。
通过grps的自定义http功能实现OpenAI接口协议，支持chat和function call模式。
支持扩展不同LLM的prompt构建风格以及生成结果的解析风格，以实现不同的和模式，支持。

<details close> <summary>Previous News</summary>

LLM

chat

function call

ai-agent