初探

Feb 27, 2026 • By Me

本文最初发表于知乎, 欲追求更好的阅读体验请移步.

中9大二CS. 上学期终于结束了自己的ICPC 第一个可能也是最后一个认真准备的赛季, 还是以Regional Ag遗憾作结了.

在考完最后一场区域赛, 并且花了不长不短的一段时间吃喝玩乐同时恶补了之前落下的专业课后, 我终于意识到应当把进组这件事提上日程. 我其实早已想给导师发封邮件, 或者至少发条微信表达我想进组做点工作的意愿, 然而一直以来胆怯拖延的个性还是让我等到了寒假才开始.

老师比较年轻, 是做nlp方向的, 实验室的规模也不大. 我身边早有在大组干了有些时候的同学们, 他们进组后大多有个组里的博士生当小老板, 或让其参与现成项目, 成为科研流水线上一颗光荣的螺丝钉, 或提供idea兼论文指导, 让其试着自己做点东西--然而我认识的同学们,无论处于这两种中的哪一种, 对自己的科研生活都颇有微词. 要么是认为自己成了免费劳动力被狠狠压榨, 要么是做自己的东西却因为种种原因最终只能成为GPT想法的搬运机. 当时的我虽有戚戚, 但心里终究还是想着要去试试这趟浑水.

于是期末考试后某个较为空闲的日子,我给导师发了消息, 表达了自己参与科研轮转的意愿. 这个日子距今不过三十余日, 我仍然清晰记得那天的情形.

导师和我在办公室里聊了大约半小时, 然而了令我有些意外的是, 他并没有给我安排某位学长指导, 也没给我布置任何具体的项目. 导师表示, 具体的方向并不重要, 重要的是要培养科研taste. 为此要多读论文多读代码, 要掌握PyTorch和深度学习的基本知识云云, 还表示我们组和其他组风格有些不同, 最终给我了一篇音频大模型的论文, 让我回去研读, 希望开学能产出一篇Research Talk.

我心中有些惶恐. 这和我想的科研入门有些不同, 导师说的固然正确, 然而实践到具体方法论上却未免有些模糊. 所谓Taste, 对于我这个门外汉更是玄之又玄. 然而既然已经走到这一步, 接下来还是自由探索一番, Deeplearning一番广阔天地, 总有我一隅容身之所吧!

然而然而, 从读论文开始我便遇到了不少困难. 和许多主流的语音大模型一样, 此论文使用了Transformer Encoder进行Tokenizaton, 紧接着将特征向量喂入RVQ中进行量化, 然而届时别说Transformer了, 没写过一行PyTorch代码的我连个全连接线性层都写不出来. 我开始频繁地和ai交流, 以适应和熟悉这些让我有些头痛的概念.

我花了大约两周的时间, 初步熟悉了Python中的面向对象写法, PyTorch的基本语法, 以及一些相当基本的概念. 这个阶段我相对于理想状态的自己收敛的速度和后面的几周比起来很快, 毕竟此时当然还处在只要有付出必然有回报的状态 -- 学了torch.Sequential, 马上在下一行代码就能写出来, 知道调包nn.Transformer, 注意力矩阵就会自然而然地算好. 跑起来train.py, 用plt画张图, Loss自然而然就会下降. 在这个阶段结束时, 我已经能熟练地从Hugging Face下一个数据集,写个Dataset/Dataloader, 然后调两个包, 改改参数, 然后再ipynb上写几行自以为很酷的代码开始训练了. 而一些相当基础的概念-自动求导, 梯度下降, 反向传播, 卷积层, 池化层... 对我而言也终于不是天书般的词汇.

既然掌握了基本的工具, 我有些躁动的心便不满足于只写个MNIST识别之类的内容了. 虽然看起原论文还是有些吃力, 但终究有些明白代码是在做什么了. 导师说过什么来着 ?培养taste, 对, 品味. 然而什么是品味呢?

一想到这里, 刚刚迈进科研大门的我脑中便浮现出了一个拿着macbook坐在星巴克里品着拿铁, 谈笑间便想出三五个idea的帅气身影. 没错, 品味就是想得出好的idea, 能发很牛逼的paper! 我也要有品味! 然而理论基础过于薄弱的我实在不知道该做些什么来获取这虚无缥缈的taste , 我开始试着看更多的文章.

我从那个Tokenization开始一路抽丝剥茧, 遇到不懂的概念就一路钻进去, 试图找别的论文看, 于是我便在烟波浩渺的知识之海里开始了下潜之旅, 从Transformer进行的Tokenization, 找到了神经网络编解码器, clone了 Encodec(然而完全看不明白) , 找到了CNN版本的VQ-VAE, 找到了VAE, 最终一路找到了最最简单的AutoEncoder.

从这里开始, 我想我的路径就有点不对劲了. 我一早起来就在尝试做实验, 然而我压根没有大纲, 只是试着漫无目的地探索,我随便写了一个Autoencoder,尝试对cifar10进行压缩-解压, 然后开始胡乱修改. 这里加个线性层会怎样? 这里把stride调整一下会怎样? 说实话, 这样的过程实在是缺乏正反馈, 无非这里loss下降快一点, 那里慢一点, 这里图像清晰一点, 那里模糊一点, 但这对我来说并没有任何意义, 我也感受不到什么快乐.

于是我开始问AI, 是不是出什么问题了, Gemini大人表示我缺乏理论支撑, 建议我了解一下从AE到VAE, 再一路高歌猛进到今天的技术路径, 进行理论积累. 那么积累便积累, 我开始在google上搜索博客, 我又看到了很多有趣的内容, 什么隐空间啦, 什么KL散度啦, 我还找了CMU的关于VAE的变分下界推导的过程, 不过可能因为我的猪脑太笨了, 最终还是没能完全理解相当多的细节.

这个过程中尝试画的一张隐空间可视化图

这个过程在我进行到VQ-VAE的时候彻底崩溃了. 我发现我好像像是在按照课程大纲在做作业, 并且我好像没办法感受到这些理论和模型的美感. VQ-VAE无非是把一系列CNN和ResNet输出的特征向量强行离散化到codebook上, 并且使用直通估计器来暴力解决没办法求导的问题. 同时在训练过程中同时训练codebook, 再训练一个cnn来进行Generate.

我clone了一个Vector Quantized Variational Autoencoder 的简单实现, 翻来覆去地看啊看, 写啊写注释, 改啊改, 跑啊跑, 最终还是不想再进行下去了.

我不知道为什么, 反正我此时感觉到十分无力, 我看不懂很多底层的推导, 也没法从直觉上理解这些架构的美感. 或者说 , 我只是像我之前很多年一直在做的一样, 当一个做题区, 把模型搬到脑子里, 然后告诉自己, 这么做就是对的, 这是宇宙间的真理. 以前是搬化学方程式, 古诗词, 导数大题的解题技巧和英语作文模板,现在是在搬论文的Abstract和许许多多无穷的博客总结.

然而, 现在好像没有题给我做了.

这个阶段也持续了大约两周, 我做这些是大约七天前的事情.

我为什么感受不到美感, 为什么没有一种似火的激情支撑着我, 去找到那个不知道藏在哪里的taste? 到底是哪里出错了? 我不明白. 我开始疯狂地搜索how to do research之类的书籍和博客, 希望能帮到我. 然而, 其中的很多内容我依然无法理解, 它们让我define重要的问题, read extensively, 让我aim high, 我看到了依然不明所以, 不知道自己应当做什么. 这些方法论的内容好像也帮不了我. 它们没办法解释我现在的状况.

于是我打算休息几天, 我和同学约着出去玩, 去网吧打CS2, 去吃火锅, 躺在家里休息, 和女朋友看电影, 希望情况能稍微好起来.

昨天晚上我突发奇想, 和Gemini说了我的状况, 并且将万千思绪一吐为快, 再让它客观分析后, 实在被攻击到掉小珍珠了.

这个过程中尝试画的一张隐空间可视化图

马上就要开学了, 该做些什么呢? 不论如何, 我是说出来了. 现在是北京时间近凌晨四点, 明天我估计是会睡到中午了. 再过几天, 大二下学期的课业尤为繁重, 现在我的绩点尚可, 保研大概无虞, 然而逆水行舟不进则退, 只要有点失足, 说不定便会被后起之秀赶上.

我的寒假一个月零几天的科研之旅到这就告一段落了, 我可能过几天会和导师说说我的情况, 看看如何是好吧. 诸位如果也有类似的烦恼, 也欢迎在评论区分享.