
BigQuery Managed Python UDF 正式 GA

以前想在BigQuery里跑点Python逻辑,比如做个复杂字符串处理或者调个SciPy算个东西,你得自己去搭容器、管理镜像、再找个外部服务跑完把结果导回来。数据团队为了一个简单的helper函数,得维护一套额外的基础设施,这谁受得了。现在BigQuery直接把Managed Python UDF放出来了,你直接在SQL里写Python代码就能调用NumPy、pandas甚至scikit-learn,彻底不用管底层的容器和集群。
核心做法很聪明,它把Python运行时直接跑在BigQuery的全托管serverless资源上,自动处理从编译、打包镜像到安全补丁和部署执行的全流程。最硬核的点是支持PyArrow的向量化处理,不再是一行一行地跑Python,而是按列批量处理,数据密集型计算能提升近10倍性能。而且每个函数还能单独配置最高16GB内存和4个vCPU,甚至可以调整单个容器内并发处理到1000个请求,这对于大模型推理前的数据清洗或特征工程来说,直接把基础设施开销省掉了。
我的判断是,这玩意儿对AI基础设施的简化是个实实在在的信号。以前做数据预处理和特征工程,经常要在数据仓库之外另起一套Python服务,导致链路长、延迟高、维护成本大。现在谷歌把Python运行时直接内嵌进BigQuery的SQL引擎,等于把数据湖仓的“最后一公里”计算能力补齐了。对于搞AI应用的团队,这意味着可以更轻松地在查询阶段直接调用外部API做实时数据增强,或者用scikit-learn做个快速的异常检测,不用再折腾复杂的数据管道编排。这才是云原生数据仓库该有的样子。


