What is Ghostrun?
将不同的 AI 模型集成到您的应用程序中,通常意味着要与多个 API 打交道,管理单独的凭据,以及处理各种不同的计费系统。而 Ghostrun 则简化了整个流程,它提供了一个统一的 AI 推理操作系统,让您可以通过一个一致的 API 接口,访问来自 OpenAI、Groq、Google Gemini、Nebius 等领先供应商的模型。您可以专注于构建创新功能,而不是管理复杂的集成。
专为您的工作流程量身定制的关键特性
🔄 无缝切换供应商:只需修改 API 调用中的一个
provider参数,即可更改底层 AI 供应商(例如,从 OpenAI 切换到 Groq)。这使得 A/B 测试、成本优化或回退策略变得轻而易举,无需重构代码。🔗 通过自动线程保持上下文:轻松构建有状态的多轮对话应用程序。Ghostrun 自动管理线程中的对话历史记录,即使在对话期间切换不同的模型或供应商,也能保留上下文。每个请求都会返回一个
thread_id,以便轻松继续。🔑 消除 API 密钥管理:只需使用您的 Ghostrun API 密钥进行一次身份验证。Ghostrun 安全地管理和轮换所有底层供应商(OpenAI、Groq 等)所需的凭据,使您摆脱管理多个密钥和供应商帐户的负担。
💰 简化计费和跟踪成本:收到一份包含所有 AI 模型使用情况的综合账单。Ghostrun 以透明的方式跟踪每个供应商和模型的使用成本,并直接传递给您,不加价,从而简化预算管理。
🧠 集成强大的 RAG 管道:通过将 AI 响应建立在您自己的数据基础上,来增强其效果。通过仪表板创建检索增强生成 (RAG) 管道,并通过 API 调用中的一个简单的
rag_pipeline_id参数来激活它们。这减少了幻觉,并提供了基于您的专有信息的上下文相关的答案。⚙️ 接收标准化响应:无论底层供应商如何,都能获得一致的 JSON 响应结构,从而简化应用程序中的数据解析和集成逻辑。诸如
content、usage、latency和thread_id等关键细节始终存在。⏱️ 最小的性能开销:Ghostrun 只会为您的请求增加极小的延迟(通常为 30-60 毫秒)。总体响应时间主要取决于所选供应商和模型的性能。
开发人员的实际用例
优化速度和成本:您正在构建一个功能,该功能需要快速响应某些用户交互,但对其他用户交互则需要更高的质量。借助 Ghostrun,您可以动态地将请求路由到 Groq 的 Llama 模型以用于对速度要求严格的任务,并将请求路由到 OpenAI 的 GPT-4o 以用于同一应用程序中的复杂生成,只需使用相同的 API 集成并简单地更改
provider和model参数。构建高级对话式代理:您需要创建一个能够准确记住整个对话历史记录的客户支持聊天机器人。Ghostrun 的自动线程处理可以无缝地处理上下文管理。您甚至可以在对话中切换模型(例如,从更快的模型开始,升级到更强大的模型以处理复杂的查询),使用
thread_id,确保流畅的用户体验,而不会丢失上下文。开发自定义知识助手:您的团队需要一个内部工具来回答基于公司广泛文档库的问题。您可以上传您的文档以在 Ghostrun 中创建一个 RAG 管道。然后,通过将
rag_pipeline_id添加到您的/generate请求,您的内部助手可以提供准确的答案,这些答案基于您的特定知识库,可以直接通过 API 访问。
结论
Ghostrun 充当您与 AI 模型交互的中心神经系统。通过统一访问、简化管理,并通过单个 API 提供线程和 RAG 等强大功能,它可以消除开发过程中的大量摩擦。这使您可以自由地进行实验,优化性能和成本,并最终更快地构建更复杂的 AI 驱动的应用程序。将您的时间花在核心产品的创新上,让 Ghostrun 处理各种 AI 格局的复杂性。
常见问题 (FAQ)
Ghostrun 目前支持哪些 AI 供应商?Ghostrun 提供对来自 OpenAI、Groq、Google Gemini、Nebius、Grok (X.ai)、Mistral AI、Together.ai、Cohere 和 Lambda Labs 的模型的统一访问。您可以使用
/api/v1/models端点检索每个提供商的可用模型的完整列表。Ghostrun 如何处理定价和计费?Ghostrun 采用转嫁定价模式。我们会跟踪来自底层 AI 供应商(例如,OpenAI、Groq)的每个请求的确切 Token 使用成本,并向您收取该金额,不收取额外加价或隐藏费用。您会收到一份单独的、逐项列出的发票,其中涵盖通过 Ghostrun 访问的所有供应商的使用情况。
Ghostrun 增加的典型延迟是多少?我们的内部测试表明,Ghostrun 通常每个 API 请求仅增加 30-60 毫秒的开销。这包括路由、身份验证、标准化和日志记录。如果使用 RAG,则预计检索步骤会增加 200-400 毫秒。确定总延迟的主要因素仍然是所选 AI 提供商和模型的性能。





