What is Weco?
构建和优化机器学习流水线通常涉及大量的、手动迭代。找到性能最佳的代码需要投入大量时间进行实验、调整和评估。Weco 引入了一种系统化的方法,利用 AI 智能体来自动化这一复杂的过程。在 AIDE (Agentic Iterative Design Engine,智能体迭代设计引擎) 的驱动下,Weco 充当您的 AI 研究工程师,将您的评估基准转化为一个自我改进的系统。它自主运行实验,根据您指定的指标改进您的代码,从而发现性能更高的解决方案。
AIDE 驱动的关键功能
🤖 自动化实验:AIDE 系统地生成和测试大量的代码变体,用于 GPU 内核优化、模型开发和提示工程等任务,通常一夜之间运行数百个实验。这使您无需手动干预即可探索广阔的解决方案空间。
📊 指标驱动的优化:您定义成功标准——准确性、速度、成本或任何自定义指标。AIDE 迭代地改进代码,完全专注于根据您的特定评估流水线提高性能,直到指标表明有更好的解决方案。正如 OpenAI 的 MLE-Bench 等基准测试所显示的那样,这种评估驱动的循环明显优于一次性代码生成,其中 AIDE 比下一个最佳的自主智能体多获得 4 倍的奖牌。
🧠 广泛的代码搜索和领域理解:与传统 AutoML 仅限于特定模型类别不同,AIDE 利用 LLM 搜索整个代码空间。它可以跨不同的领域(NLP、CV、表格数据)应用方法,并结合金融或生物医学科学等专业领域的背景知识,通常会发现人类可能错过的新方法(已在 METR 的 RE-Bench 中得到验证)。
💡 自然语言指导:虽然 AIDE 自主运行,但您可以使用自然语言提示注入您的领域专业知识或特定要求,在无需复杂超参数调整的情况下,指导智能体的搜索过程。
🛡️ 灵活且安全的执行:生成的代码在由 Weco 管理的安全、沙盒化的云环境中运行,自动配置最佳硬件(CPU、GPU)。对于数据主权需求,可以使用本地执行选项,让您拥有完全的控制权。您保留对所有生成的代码的完整 IP 权利。
⚙️ 语言和框架无关:跨各种语言和框架(包括 Python、PyTorch、TensorFlow)优化代码,并以 CPU、GPU 到 TPU 和 Apple Silicon 等各种硬件为目标。
实际用例
优化现有模型性能:您有一个用于对象检测的 PyTorch 模型,但延迟对于生产环境来说太高。您向 Weco 提供您的模型代码、评估数据集,并指定指标(例如,在保持延迟低于 50 毫秒的同时最大化 mAP)。AIDE 迭代模型架构、推理代码,并可能迭代量化技术,从而提供满足您性能目标的优化代码。
加速自定义计算内核:您的团队依赖于自定义 CUDA 或 Triton 内核来执行关键的预处理步骤,但它正成为瓶颈。使用 Weco,您提供内核代码和衡量其执行速度的基准。AIDE 探索替代实现、内存访问模式和并行化策略,旨在显着减少运行时,类似于它在 METR 的 RE-Bench 上优于人类专家对 Triton 内核的优化。
开发高性能表格模型:开始一个新项目,使用大型表格数据集预测客户流失?向 AIDE 提供数据模式描述和目标指标(例如,F1 分数)。AIDE 生成端到端流水线,包括特征工程(如果得到指导,可能会创建特定领域的指标)、模型选择、训练和评估代码,自主迭代以找到表现最佳的解决方案,通常会在几分钟内交付初始版本。
为什么选择 Weco?
Weco 通过自动化关键但通常繁琐的优化周期,为 ML 开发提供了一种独特的方法。它的优势在于:
以用户为中心的指标:优化完全由您的数据、您的评估流水线和您对成功的定义驱动。
经验证的有效性:AIDE 的能力已通过领先的基准测试(OpenAI MLE-Bench、METR RE-Bench)以及前沿 AI 实验室的采用和研究出版物(例如,Sakana AI 的 AI Scientist-v2)得到验证。它明确地用计算资源换取了卓越的代码质量。
灵活性:适用于各种编程语言、ML 框架和硬件目标。
可扩展性:旨在处理长时间的复杂优化任务,不断改进解决方案。
Weco 使您和您的团队能够专注于更高层次的战略和问题解决,而 AIDE 则处理推动您的 ML 流水线边界所需的密集、指标驱动的实验。





