最近我一直在想一个问题: 现在的 AI 时代,和当年的淘金热到底像在哪里?又有什么根本不同?

一开始,我觉得显卡很像淘金热里的铲子。

当年淘金热中,很多人冲向矿区,幻想自己能挖到黄金。但最后真正长期赚钱的,不一定是挖金子的人,而是卖铲子、卖牛仔裤、做运输、建铁路、开旅馆、做金融的人。

今天 AI 时代也很像这样。

很多人都在追逐 AI 应用、AI 创业、AI 自媒体、AI Agent、AI 产品。但如果往底层看,会发现整个 AI 世界都在围绕一些基础设施运转:GPU、算力、数据中心、云服务、模型框架、开发工具、数据管线、Agent 工作流。

其中最典型的就是 GPU。


一、为什么 GPU 像淘金热里的铲子?

淘金热里,普通人要挖金子,需要铲子、筛盘、牛仔裤、帐篷、马车、食物和运输。 AI 时代里,训练大模型、跑推理、做图像生成、做视频生成、做 3D 重建、做自动驾驶、做机器人,也都离不开 GPU。

GPU 不只是“显卡”,它在今天更像是:

  • 铲子;
  • 蒸汽机;
  • 铁路;
  • 发电站;
  • 工厂设备;
  • 甚至是新时代的战略资源。

尤其是大模型时代,GPU 的需求会自我放大。

模型越强,使用的人越多; 使用的人越多,公司越愿意投入; 公司越投入,就会训练更大的模型; 模型越大,又需要更多 GPU。

这形成了一个正反馈循环。

所以今天 NVIDIA 的地位,已经不只是“卖显卡的公司”。它更像 AI 时代的基础设施公司,甚至某种意义上是“AI 工业革命的军火商”。

但是,如果只把 GPU 看成铲子,还不够。

因为 AI 时代的“铲子”不只有硬件。


二、AI 时代的“铲子”其实有三层

第一层:硬件铲子

这包括:

  • GPU;
  • HBM 高带宽显存;
  • NVLink;
  • 数据中心;
  • 电力;
  • 液冷;
  • 云服务器。

这些是 AI 时代最底层的基础设施。没有这些,模型训练和大规模推理都无法进行。

第二层:软件铲子

这一层正在变得越来越重要。

比如:

  • AI IDE;
  • Codex;
  • Claude Code;
  • Cursor;
  • Agent 框架;
  • 自动评测系统;
  • 模型部署工具;
  • 数据处理 pipeline;
  • 实验管理系统。

这些工具不是直接训练大模型,但它们会改变人的工作方式。

以前一个人写代码、调环境、看报错、整理实验,可能要花很多时间。 现在 AI 可以帮你读代码、写脚本、分析报错、生成测试、总结结果。

这类工具,本质上也是铲子。

第三层:行业铲子

这是我觉得未来更重要的一层。

大模型最终不会只停留在聊天窗口里,而会进入具体行业,变成行业工作流的一部分。

比如:

  • AI 科研系统;
  • AI 法律系统;
  • AI 医疗辅助系统;
  • AI 设计系统;
  • AI 教育系统;
  • AI 编程系统;
  • AI 视频生产系统;
  • AI 3D 内容生成系统。

真正有长期价值的,不是简单做一个“套壳聊天机器人”,而是把 AI 接进真实问题、真实流程、真实行业里。


三、淘金热和 AI 时代最大的区别

淘金热和 AI 时代确实很像,但也有一个根本区别:

淘金热挖的是有限资源,AI 时代挖的是生产力。

黄金是有限的。 你挖走一块,别人就少一块。

但 AI 能力不是这样。

一个模型可以被很多人调用; 一个工具可以嵌入很多流程; 一个 Agent 可以帮助不同的人完成不同任务; 一个自动化系统可以不断复用、不断改进。

所以淘金热更像是抢资源,AI 时代更像是重构生产方式。

淘金热的结局是: 少数人发财,多数人陪跑,但基础设施和城市留下来了。

AI 时代的结局大概率是: 大量泡沫应用消失,少数基础设施公司和真正解决问题的系统留下来,但所有行业的工作方式都会被改变。


四、我在科研复现实验里感受到的 AI 时代痛点

我最近做科研、跑论文实验时,有一个很深的感受:

很多时候,跑通一篇论文并不是最难在算法,而是难在环境配置。

一般流程是:

下载代码
配置环境
准备数据
下载权重
编译 CUDA 扩展
运行 demo
跑训练
看结果
分析实验

但最痛苦的往往是前面几步。

比如做 3DGS、NeRF、Gaussian Avatar、FlashAvatar、GPHM、动态头部重建这些方向,经常会遇到:

  • Python 版本不匹配;
  • PyTorch 版本不匹配;
  • CUDA 版本不匹配;
  • gcc/g++ 版本问题;
  • C++/CUDA 扩展编译失败;
  • submodule 没拉下来;
  • requirements.txt 太旧;
  • 某些依赖已经失效;
  • 数据格式不符合要求;
  • COLMAP 相机模型不兼容;
  • 预训练权重找不到;
  • demo 数据缺失。

最折磨人的地方是:

花了很多时间解决环境问题,但感觉自己没有真正提升科研能力。

这个判断其实很真实。

配置环境不是完全没有价值,但它的技术增长密度很低。 真正有价值的不是“我又解决了一个 pip 报错”,而是能不能把这个过程系统化、自动化、复用化。

也就是说,我不应该把自己训练成“环境配置工人”,而应该训练成“实验系统设计者”。


五、正确方向:建立论文复现 Agent 流水线

理想流程:

论文仓库
AI 读取 README / environment.yml / requirements.txt / setup.py / Dockerfile
AI 判断 Python / PyTorch / CUDA / GCC 版本
AI 生成 REPRO_PLAN.md
AI 生成 install_env.sh
AI 生成 check_env.py
AI 生成 smoke_test.sh
执行安装
收集日志
AI 分析报错
AI 修改脚本
跑通最小 demo
冻结环境并记录 RUNBOOK.md

让 AI 负责读仓库、生成环境方案、写脚本、分析报错、迭代修复; 我负责判断论文是否值得跑、实验结果是否可信、方法是否对我的研究有价值。


六、为什么不能只靠 chat 网页?

ChatGPT 网页很适合:

  • 分析论文;
  • 总结方法;
  • 制定实验路线;
  • 比较不同技术路线;
  • 帮我理解报错;
  • 帮我写 prompt 和脚本。

但它不适合直接在服务器里操作代码。

真正要自动跑实验,需要一个能进入代码仓库、读文件、改脚本、执行命令、看日志的工具。

所以更适合的是:

  • Codex CLI;
  • Claude Code CLI;
  • Cursor Agent;
  • VS Code 里的 Agent 插件。

其中最适合我目前场景的,是 CLI

因为我经常在:

  • WSL2;
  • VS Code;
  • AutoDL;
  • Linux 服务器;
  • 远程 GPU 环境;

这些地方工作。

CLI 可以直接在项目目录里读代码、写文件、执行命令,比网页端更接近真实开发环境。


七、AGENTS.md:给 AI 写一份长期工作协议

为了避免每次都重复告诉 AI:

“不要污染 base 环境” “先读 README” “不要直接 pip install” “先跑 smoke test” “日志要保存” “用 micromamba” “缓存放到 /root/autodl-tmp”

我应该写一个 AGENTS.md

它的作用类似于给 AI 的长期规则文档。

比如规定:

不要盲目安装依赖。
先检查仓库,再生成计划。
每篇论文都必须生成:
REPRO_PLAN.md
install_env.sh
check_env.py
smoke_test.sh
RUNBOOK.md

不要跑完整训练,先跑 smoke test。
失败后必须基于日志分析,不要玄学乱试。

这件事非常重要。

因为如果没有规则,AI 很容易变成“高级乱试工具”。 但如果有了规则,它就会更像一个科研工程助手。


八、Skills、CLI、插件,到底该怎么选?

我现在的判断是:

第一阶段:用 CLI + AGENTS.md

这是最实用的起点。

CLI 负责实际操作项目目录。 AGENTS.md 负责固定行为规范。

目标是先让 AI 能稳定完成:

  • 仓库体检;
  • 环境方案;
  • 安装脚本;
  • 环境检查;
  • smoke test;
  • 日志分析。

第二阶段:沉淀成 Skill

等我跑通 1-2 篇论文之后,就可以把流程封装成一个 Skill。

Skill 本质上是可复用的工作流。

比如可以叫:

paper-reproduce-skill

里面包括:

  • 复现规则;
  • 常见环境坑;
  • 3DGS 项目检查清单;
  • AutoDL 目录规范;
  • 日志收集脚本;
  • smoke test 模板。

这样以后每次复现论文,就不用重新设计流程。

第三阶段:再考虑插件 / MCP / 自动化平台

插件、MCP、GitHub Actions、实验数据库这些东西更高级,但不是第一优先级。

它们适合后期做:

  • 自动拉 GitHub issue;
  • 自动下载 HuggingFace 权重;
  • 自动读取论文库;
  • 自动同步实验结果;
  • 自动生成报告;
  • 自动创建 dashboard。

但现在最关键的问题是:先把一篇论文稳定跑通。

所以我现在不应该一上来就开发一个巨大系统,而应该先做轻量工作台。


九、AutoDL 使用 CLI 的真正难点

我在使用这些工具,还有一个现实问题:

AutoDL 服务器上怎么流畅使用 CLI?

AutoDL 里主要有三类网络需求:

1. GitHub 代码下载
2. HuggingFace 模型权重下载
3. OpenAI / Claude / Codex CLI 通信

AutoDL 的学术加速通常对 GitHub、HuggingFace 有帮助,但不一定能解决 OpenAI / Claude 这类 AI CLI 的通信问题。

所以更稳的方案有两个。


十、方案 A:AutoDL 直接跑 CLI,通过本地 Clash 做 SSH 反向代理

这个方案的结构是:

AutoDL 上的 Codex CLI
访问 AutoDL 的 127.0.0.1:7897
SSH 反向隧道
本地 Windows / WSL2 的 Clash Verge
OpenAI / Claude / GitHub / HuggingFace

也就是说,把本地 Clash 的代理能力,通过 SSH 反向隧道转发给 AutoDL 使用。

本地执行:

ssh -N -R 7897:127.0.0.1:7897 root@你的AutoDL地址 -p 你的SSH端口

然后 AutoDL 里设置:

export http_proxy=http://127.0.0.1:7897
export https_proxy=http://127.0.0.1:7897
export HTTP_PROXY=http://127.0.0.1:7897
export HTTPS_PROXY=http://127.0.0.1:7897
export all_proxy=socks5h://127.0.0.1:7897
export ALL_PROXY=socks5h://127.0.0.1:7897
export NO_PROXY=localhost,127.0.0.1

再测试:

curl -I https://api.openai.com
curl -I https://github.com

如果能通,就可以在 AutoDL 上运行 CLI。

这个方案的优点是: AI Agent 可以直接在 AutoDL 里读仓库、改脚本、执行命令、看 GPU 环境。

缺点是: 代理链路稍微复杂,本地电脑和 Clash 不能断。


十一、方案 B:本地 WSL2 跑 CLI,AutoDL 只负责执行脚本

这个方案更稳。

结构是:

本地 WSL2 / Windows
运行 Codex / Claude Code
使用本地 Clash 网络


生成 install_env.sh / check_env.py / smoke_test.sh


rsync / scp 同步到 AutoDL


AutoDL 执行脚本并保存日志


把日志拿回本地给 AI 分析

优点是:

  • 本地网络最稳定;
  • 登录 OpenAI / Claude 更方便;
  • 不需要把 API key 放到 AutoDL;
  • 不怕 AutoDL 代理断。

缺点是:

  • AI 不能直接实时感知 AutoDL 的环境;
  • 需要通过 ssh 执行命令、同步日志。

但对我来说,初期更推荐这个方案。

因为它简单、稳定、风险小。


十二、要不要自己开发一个?

我的判断是:

不要从零开发一个完整 AI Agent。 要开发一个轻量的 paperctl 论文复现实验工作台。

也就是说,智能部分交给 Codex / Claude Code。 我自己开发的部分只负责流程标准化。

比如未来我希望有这样的命令:

paperctl init FlashAvatar
paperctl proxy-test
paperctl inspect
paperctl install
paperctl smoke
paperctl collect
paperctl freeze
paperctl pack

它背后不是复杂 AI,而是一组标准脚本:

paperctl/
├── templates/
│   ├── AGENTS.md
│   ├── install_env.sh.tpl
│   ├── check_env.py.tpl
│   ├── smoke_test.sh.tpl
│   └── RUNBOOK.md.tpl
├── scripts/
│   ├── proxy_test.sh
│   ├── collect_logs.sh
│   ├── freeze_env.sh
│   └── pack_result.sh
└── paperctl.py

这件事对我来说更有技术增长。

因为我不是在重复修 pip,而是在做:

  • 科研工程自动化;
  • 实验可复现系统;
  • 远程 GPU 任务管理;
  • AI Agent 工作流编排;
  • 论文复现标准化。

这比单纯配环境高级得多。


十三、我真正应该训练的能力

这次思考让我意识到,我不应该把时间全部消耗在“怎么修这个环境”上。

真正应该训练的是这些能力:

1. 判断一篇论文是否值得跑

不是所有论文都值得复现。

有些论文只需要读方法; 有些只需要看代码; 有些只需要跑 demo; 只有和我主线强相关的,才值得深度复现。

2. 建立实验工厂,而不是手工作坊

我应该有统一目录:

paper_factory/
├── repos/
├── data/
├── weights/
├── runs/
├── env_logs/
└── scripts/

每篇论文都进入这个体系,而不是到处乱放。

3. 先 smoke test,再完整训练

不要一开始就跑几万 iteration。

先跑最小 demo,验证:

  • 环境能不能启动;
  • GPU 能不能调用;
  • 数据能不能读取;
  • loss 是否正常;
  • 输出是否生成;
  • 结果是否明显崩坏。

4. 用日志驱动调试

失败后不要玄学乱试,而是保存日志:

bash install_env.sh 2>&1 | tee install.log
bash smoke_test.sh 2>&1 | tee smoke_test.log

然后让 AI 基于日志判断根因。

5. 成功后冻结环境

一旦跑通,立刻保存:

pip freeze > pip_freeze.txt
conda env export > environment_export.yml
git rev-parse HEAD > git_commit.txt
nvidia-smi > nvidia_smi.txt

否则过几天再回来,又要重新猜。


十四、最终结论:不要只当淘金者,要学会造铲子和组织矿场

AI 时代确实像淘金热。

GPU 是铲子,云是矿场,数据中心是铁路,Agent 是新工人,模型是新的生产力引擎。

但对我个人来说,最重要的不是冲进去盲目“挖金子”。

真正重要的是:

把 AI 变成自己的科研生产系统。

在科研里,这意味着:

  • AI 帮我读论文;
  • AI 帮我读代码;
  • AI 帮我生成环境方案;
  • AI 帮我写安装脚本;
  • AI 帮我分析报错;
  • AI 帮我跑 smoke test;
  • AI 帮我总结实验结果;
  • 我负责判断方向、设计实验、理解算法、提出改进。

这就是我理解的 AI 时代个人机会。

不是简单用 AI 聊天, 不是追热点做套壳应用, 也不是陷在低价值环境配置里消耗自己。

而是建立一个属于自己的:

AI 驱动科研工作流。

淘金热里,真正留下来的是铁路、城市、工具和组织能力。 AI 时代里,真正留下来的也会是基础设施、工作流、自动化系统和解决真实问题的能力。

所以我现在要做的,不只是跑通一篇论文。

而是从跑通一篇论文开始,逐渐搭建自己的科研实验工厂。

这才是更值得投入的方向。