Lab-Intern0

这部分也是很重要的一部分人生经历啦!

首先就是收到了三篇论文的阅读和复现任务:
https://github.com/carlosholivan/MusicBoundariesCNN
https://huggingface.co/JoshuaW1997/FUTGA
https://huggingface.co/lldacing/NATTEN-windows

海玄,这个是之前根据“爱情.mp3”这个音乐做个一个音乐可视化视频
技术路线是:用文生图得到关键帧,在用文字 prompt+首尾帧扩展成视频
可视化的元素是“水墨晕染”
但是之前有个问题,就是“卡点”是人听出来的,所以不准
你下一步的任务是,利用你模型识别的这几个卡点,来重置这个视频
还是做个 30s 的吧
推荐用的工具有:1. 星流 agent;2. 即梦 AI
视觉效果以“水墨晕染”、“大泼墨”为主,可以做的尽量色彩丰富、花里胡哨点,
重点是怎么能让视频跟音乐节奏变化相呼应

关于收获

虽然还有不足的地方,但是上个任务的工作经历还是让我感觉找到一些方法,从最开始的无从下手,到多次尝试与失败,有点崩溃,后来逐渐缕清思路,
找到合适的工具使用方式,形成自己的工作流,解决问题。
以上是收获之一,另一收获就是初步了解了AI视频生成领域,研究进展,工商业应用,主要使用方式……
印象很深刻的就是ComfyUI的搭建部署过程,经历了很多次遇到困难,解决困难的过程。最后还是用实验室的3090跑了WAN2.1 FLF2v视频首尾帧工作流,有点卡,但是还算OK。

关于ComfyUI:

有人说:Comfyui的“原罪”是把太多技术概念硬是推向了非技术人员,包括但不限于设计师,画师,初学者等。
我觉得确实有其操作上的困难,但是同时带来的时性能和可控性的大幅提升,而且这是一种更贴近模型底层工作原理的使用方式,从中可以看到视频生成大模型的工作细节,
而不是一个简单的WebUI的用户操作台。有时间再把这个好好学习一下。

另外就是在整个过程中见识了很多高科技,世界变得好快!

关于论文复现:

当时还在实训,经历上水平上有限~,最后只复现了一部分MusicBoundariesCNN
这篇论文有点老,首先的困难就是环境配置,用python3.9最后配置好了,下载安装的过程是痛苦的~
不过也练熟了我tmux的使用,conda的使用
另一个问题就是数据集部分没找到,也不知道该放哪,所以Training-example.ipynb和Training-test.ipynb没跑成
但是这种框架,用ipynb调用外边写好的项目的方法还是第一次见,会用的应该是能挺方便用的。
最大的问题就是在Evaluation.ipynb中尝试调用不同的模型进行分段时遇到的问题:

  • 不同的模型有不同的张量输入格式要求和参数规范,我不知道从哪查阅,最后靠Copilot试出了一个能用的输入规范。(或许得去读源码才能知道?)
  • 关于融合模型,一直没办法把这部分模型跑通。最后用的还是180轮的标准模型。好在这部分对接的老师是负责艺术效果的,说分段效果不错,我就一直用标准模型分段了😅
  • 关于复现结果,我只能说我对CNN的理解还是非常有限的,复现这19个模型还是需要耐心深入到代码中去看,还有就是这个项目代码应该是有其自己写好的很多接口去调用的,最后复现的时候只用了模型,数据预处理都是vibe coding 去做的,感觉不应该这样,可是调用模型给的又跑不通。虽然侥幸完成了任务,但这次复现结果还是比较草率了,没有真的去想明白其中原理。
  • 关于这方面的能力提升,我问了学长,学长给推了卡尔帕希和李沐,很经典的两位,需要抽时间去多动手做。开车大家都会,但是开赛车的人却不多。这次给我的启示是,人工智能领域的基础越后,后边在复现论文,甚至自己写代码时的灵活性就越大,不仅要掌握优秀的调参技巧,更要明白其中原理,改得了,也必须要改得好。

其它收获:

还遇到了好多有趣的问题!还积累了一些经验!

  • 什么是帧率?
  • 24帧的电影看起来很流畅但30帧的游戏就卡得没法玩,为什么?
  • 空latent,Vae(变分自编码器),潜在空间,K采样器,CLIP文本编码器,正向提示词,负向提示词……都是什么意思?
  • 如何将一个30G的权重文件通过网络上传到实验室的Linux服务器?(split!😉再次体验到了Linux系统一切皆文件和管道符连接不同命令行工具[Pipe and Filter) 模式]这种软件设计模式的便捷)
  • ssh的使用,积累了一项新用法——在配置文件中指定私钥路径!尝试了一个新工具——OnTheSSH
  • vscode ssh server的使用,解开了一个以前的迷惑,有的服务器因为glibc版本低无法连接,报错”does not meet the requirements”=>把vscode降级到2023年的1.8.2就好了!
  • github里的issue回答是真有用,之前的教训是使用一个库一定先看它issue!有的时候它外边写的支持某些功能,实际没有,issue里才说。另外就是有一些bug,在issue里说的真的管用,这次是在安装comfyUI中遇到了subprocess报错(莫名其妙的报错,甚至还提示跟pip无关)最后切换av=1.4.5就好了,issue里官方still believe this is not a bug~ “It’s a sanity check”

Lab-Intern0
https://43.242.201.154/2025/08/01/Lab-Intern0/
Author
Dong
Posted on
August 1, 2025
Licensed under