Skip to content
Handbook 打好基础,擅用工具

打好基础,擅用工具

这一章的目标,是帮助新同学尽快建立一套可靠的科研底座:基础概念足够扎实,工具链足够顺手,日常工作足够可复盘。

为什么基础和工具要一起讲

AI 科研里,基础决定你能不能判断问题,工具决定你能不能持续推进问题。只会工具,容易把科研做成参数搜索;只讲基础,又容易在真实项目里推进太慢。

更好的状态是:用基础知识判断方向,用工具系统降低摩擦,用复盘机制积累经验。

基础能力清单

数学与建模

你不需要一开始就掌握所有数学细节,但必须能读懂模型假设、优化目标和评价指标。

  • 线性代数:向量空间、矩阵分解、特征值、低秩表示。
  • 概率统计:分布、估计、假设检验、置信区间、校准。
  • 优化:梯度下降、正则化、约束优化、泛化误差。
  • 机器学习:监督学习、表示学习、评估协议、数据泄漏。

编程与工程

科研代码不要求一开始像产品代码一样完整,但必须可运行、可复现、可定位问题。

  • 熟练使用 Python、PyTorch、NumPy、pandas。
  • 理解 Git 的分支、提交、回滚和协作流程。
  • 能写清晰的实验配置、日志、随机种子和结果导出。
  • 知道如何用最小脚本复现一个错误。

英文阅读与表达

AI 相关研究变化很快,英文论文、官方文档和开源仓库是一手信息源。

  • 先读摘要、图表、方法框架和实验设置。
  • 记录作者实际解决的问题,而不是只摘抄模型名字。
  • 用自己的话复述 contribution、assumption、limitation。

工具链建议

每天都会用的工具

场景推荐工具用法重点
代码开发VS Code / Cursor项目级搜索、调试、Git 集成
环境管理conda / uv / Docker固化依赖,避免环境漂移
实验跟踪W&B / MLflow / TensorBoard记录配置、指标、模型产物
文献管理Zotero分组、标签、PDF 标注
笔记系统Obsidian / Notion主题索引、论文卡片、周复盘
AI 助手ChatGPT / Claude / Copilot解释、改写、生成检查清单

AI 工具的正确位置

AI 助手适合帮你降低认知摩擦,但不应该替代你的判断。

它适合做这些事:

  • 把论文段落解释成更容易理解的版本。
  • 帮你生成实验 checklist。
  • 检查代码里的潜在 bug。
  • 帮你把粗糙想法改写成更清楚的研究问题。

它不适合直接决定这些事:

  • 你的研究问题是否重要。
  • baseline 是否公平。
  • 结论是否被实验充分支持。
  • 论文贡献是否足够成立。

入门训练路线

第一周:建立可运行环境

完成一套标准项目模板:环境安装、数据下载、训练脚本、评估脚本、结果导出、README。

第二周:复现一篇小论文

选择代码质量较好的论文,先跑通作者结果,再改动一个变量,观察结果是否符合预期。

第三周:形成实验记录习惯

每一次实验都记录:问题、假设、配置、结果、异常、下一步。不要只记录最终成功结果。

第四周:做一次组会汇报

汇报重点不是“我跑了什么”,而是“我试图验证什么,证据支持什么,还有什么不确定”。

常见误区

误区一:收藏很多工具,但没有稳定流程

工具越多,不一定效率越高。先把每天都会用的 3 到 5 个工具打磨顺手,再逐步扩展。

误区二:用大模型替代阅读

大模型可以辅助理解,但一手判断仍然来自论文原文、实验细节和你自己的推理。

误区三:实验结果没有上下文

一个数字本身没有意义。必须知道数据集、划分方式、评价指标、baseline、随机种子和训练预算。

最小可行工作流

  1. 用 Zotero 管理论文和标签。
  2. 用一个固定模板记录论文卡片。
  3. 用 Git 管理每次代码变化。
  4. 用配置文件管理实验参数。
  5. 用实验追踪工具保存指标和产物。
  6. 每周写一次复盘,明确下周最重要的问题。

下一步

读完这一章后,下一步应该进入 科研工作流总览,把基础能力放进完整的选题、实验和写作流程里。