以前想在BigQuery里跑点Python逻辑，比如做个复杂字符串处理或者调个SciPy算个东西，你得自己去搭容器、管理镜像、再找个外部服务跑完把结果导回来。数据团队为了一个简单的helper函数，得维护一套额外的基础设施，这谁受得了。现在BigQuery直接把Managed Python UDF放出来了，你直接在SQL里写Python代码就能调用NumPy、pandas甚至scikit-learn，彻底不用管底层的容器和集群。

核心做法很聪明，它把Python运行时直接跑在BigQuery的全托管serverless资源上，自动处理从编译、打包镜像到安全补丁和部署执行的全流程。最硬核的点是支持PyArrow的向量化处理，不再是一行一行地跑Python，而是按列批量处理，数据密集型计算能提升近10倍性能。而且每个函数还能单独配置最高16GB内存和4个vCPU，甚至可以调整单个容器内并发处理到1000个请求，这对于大模型推理前的数据清洗或特征工程来说，直接把基础设施开销省掉了。

我的判断是，这玩意儿对AI基础设施的简化是个实实在在的信号。以前做数据预处理和特征工程，经常要在数据仓库之外另起一套Python服务，导致链路长、延迟高、维护成本大。现在谷歌把Python运行时直接内嵌进BigQuery的SQL引擎，等于把数据湖仓的“最后一公里”计算能力补齐了。对于搞AI应用的团队，这意味着可以更轻松地在查询阶段直接调用外部API做实时数据增强，或者用scikit-learn做个快速的异常检测，不用再折腾复杂的数据管道编排。这才是云原生数据仓库该有的样子。

BigQuery Managed Python UDF 正式 GA

Python UDF in BigQuery, now generally available

Python UDF in BigQuery, now generally available

相关文章

统一日志与追踪：Observability Analytics 支持 SQL 查询

Google AI Studio Starter Tier 详解

Patch the Planet：OpenAI支持开源维护者的AI安全计划