SpareNet运行、学习、debug(未完持续更新中)

2022-12-31 11:18:32

悲伤的毕业设计

这是一个关于“身为小白的我,要配置一堆环境,并且要和版本号斗智斗勇,努力跑个结果的故事”。

运行前

#bug0

遇到了can’t load pcd文件的问题,后来发现是我忘了解压文件。
遇到了python命令augment不对的问题,在代码中改了下模型和加载路径啥的,也就是没法用python train.py --gpu 0,1,2,3 --work_dir /path/to/logfiles --model sparenet --weights /path/to/cheakpoint——readme中的方法了。

#bug1

TypeError: load() missing 1 required positional argument: ‘Loader’
主要解决办法:https://blog.csdn.net/qq_34495095/article/details/120905179

# 找到错误原因是yaml版本号改变的问题
#1.查看本地pyyaml版本,发现是6.0版本
conda list
#2.采用文章中的用法,将代码中的load改为safe_load

#way1

在服务器上进行解压缩
https://blog.csdn.net/qq_35399846/article/details/70168002
https://www.runoob.com/linux/linux-comm-unzip.html

unzip -l name.zip #用来看压缩包里的文件,并不是真正解压
unzip name.zip #真正的解压方法(解压到当前目录下)

配置完环境,开始运行train.py了,结果爆显存了,接下来我要做的事情是读代码,抱着把代码读完学完的觉悟来debug。
这个必须啃下来。


#bug2

爆显存,发现六块板子可以跑,但是我不想占完所有服务器的板子……
另外,我还得学学保存模型啥的方法,还有fine-tune,还有加载模型的方法。

早起跑完了一轮,结尾的时候出错了在这里插入图片描述
和pfnet那个时候也有点类似,都是结尾有错误。
观测到最后那段时间GPU的使用情况:
在这里插入图片描述
前面那段时间的GPU是全都100%的(如下图),可能这就是将权重在所有集合上进行测试的过程吧。
在这里插入图片描述
……to be continued

  • 作者:zerolord
  • 原文链接:https://blog.csdn.net/zerolord/article/details/122805598
    更新时间:2022-12-31 11:18:32