PodDeck
← 全部源头

MLOps.community

生产级 AI / MLOps 访谈,偏 agents、evals、部署、延迟和工程实践

8 集已生成 · 8 集收录

已生成

Building AI Agents That Survive Production

Haytham Abuelfutuh · CTO, Union AI; co-author of Flyte

Haytham Abuelfutuh argues that the hard part of production agents is not only prompts and tools, but the operational substrate around long-running, failure-prone sessions. The talk frames production readiness around dynamic execution, durable recovery, and defended sandboxes, using the example of human travel agents to show why interruption, state, and recovery matter more than a clean demo loop.

Getting Humans Out of the Way: How to Work with Teams of Agents

Rob · Creator of Brumi (open-source multi-agent IDE)

Rob 是开源多 agent IDE Brumi 的作者. 这期他把"如何把人从 loop 里拿出来"的整套手艺摊开讲—— 从让 agent 截图自证 (feature walkthrough doc), 到自定义 lint 规则爆炸, 到 plan.md 替代 plan mode, 到并行 5 个 agent 挑赢家. 核心隐喻只有一句: 教 agent 怎么向上汇报.

Why Agents are Driving Software Development to the Cloud

Zach Lloyd · Warp Founder & CEO · ex-Google Docs/Sheets

Warp 创始人 Zach Lloyd 在 MLOps.community 解释为什么 2026 是 agents 搬家的一年—— 从笔记本搬到云端,从 solo sport 变成 team sport。Oz 是他们的编排平台,agent 不是云电脑、 是云上的同事,meta-app 正在让 SaaS 入口收敛到一个"会做事的浏览器"。

The Creator of Superpowers: Why Real Agentic Engineering Beats Vibe Coding

Jesse Vincent · Creator of Superpowers (110k stars Claude Code skill kit)

Jesse Vincent —— Perl projects lead 出身、K-9 Mail 的原作者、25 年老兵 —— 把过去九个月驯服 Claude Code 的方法摊开来讲. 110k stars 的 superpowers 不是 vibe coding, 而是一套 orchestrator 架构 + 单使命 subagent 分工 + skill 系统的 agentic engineering 方法论. 这期还覆盖 Claude 删测试事件如何用一行 prompt 修好、为什么 swarm 是 2002 年的 Facebook、 以及 2028 年 GitHub 可能不存代码只存 specs 的预言.

It's 2026, and We're Still Talking Evals

Maggie Konstanty · ML Engineer · LLM Agent Evaluation Lead

Maggie Konstanty 在 MLOps.community 谈 LLM agent 评估的真实战场——为什么团队总是先发布再补 eval、 为什么 pre-prod 和 production 是"两种动物"、以及为什么所有 vendor 工具都让她最终选择自己造。 整期访谈最反直觉的 takeaway:evals 本身不难,难的是让团队对齐"什么叫好"。

Fixing GPU Starvation in Large-Scale Distributed Training

Kashish · Uber · ML Infra · Marketplace Matching Lead

Kashish (Uber ML infra, ex-Google YouTube Ads) walks Demetrios through a Sherlock-Holmes-grade Petastorm bug—GPU cluster stuck at 15-20% utilization, six debugging steps, two layers of bottleneck, and finally a "double bottleneck" reveal: PyArrow→NumPy translation was silently eating the headroom. Plus serving's latency-vs-utilization war, the reproducibility cost of parallelism, and a live diagnosis of a friend's slow DGX Spark.

The Modern Software Engineer

Mihail Eric · ML / AI infrastructure practitioner & instructor

Mihail Eric 和 Demetrios 在 SF 录音棚里把 AI coding agent 的真实工程问题挨个摊开: junior 被 cursor 截断的训练链, Eno @ Factory 强调的 validation harness, token 计费迟早被 task 计费取代, Twitter 上 "15 个 tiled Claude Code instances" 的并行神话, 团队该变小、PM 该会提 PR, 以及 下一个 superpower 是 articulation. 全程没有 framework, 全是 day-to-day 判断, 最后一句是 "just breathe".

A New Kind of Marketplace

Pedro Chaves & Donné Stevenson · Pedro Chaves · OLX (motors / real estate / classifieds) | Donné Stevenson · Prosus AI

MLOps.community 在 Lisbon 的现场圆桌:OLX 产品方 Pedro Chaves 与 Prosus AI 团队的 Donné Stevenson 聊两个真实落地的项目(地产端"lifestyle agent"、汽车 dealer 的 chat + shortcut 助手),再延伸到 Pedro 的大愿景——为 agent-to-agent 交易搭一个 还不存在的"harness"。一个意外有料的 quick-take:trust ladder、Ctrl+Z for agents、 GEO 取代 SEO,以及一句把整场拉到哲学高度的"It's not a simulation. It is a recommendation."