痛点:运维数据分析工具链太重或太弱
运维日常绑着两种数据分析路径:
路径一:awk/grep/sort 组合拳 — 处理小文件够用,但一旦面对 GB 级 CSV 导出(比如 CloudWatch 费用报表、CDN 日志聚合、Prometheus 远端存储导出),管道写到崩溃,性能也拉胯。
路径二:Python pandas — 功能强大,但 10GB 的 CSV 直接 pd.read_csv() 内存炸了。要么加 chunksize 分片处理,代码量翻倍;要么上 Spark/Dask,环境搭建比分析本身还耗时。
真正的需求很简单:在本地用 SQL 快速查询大文件(CSV/Parquet/...