Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于QKFormer在CIFAR10_DVS上T=10时的精度 #6

Open
nerver12 opened this issue Dec 5, 2024 · 6 comments
Open

关于QKFormer在CIFAR10_DVS上T=10时的精度 #6

nerver12 opened this issue Dec 5, 2024 · 6 comments

Comments

@nerver12
Copy link

nerver12 commented Dec 5, 2024

你好!根据你们的工作在T=16时是可以实现与论文相当的精度的,但是当T=10时训练精度时只有78%左右。请问是配置问题吗?那你们工作的配置是怎么样的呢?如果不是配置问题,请问是什么原因导致的呢,怎么解决?

@preesee
Copy link

preesee commented Dec 15, 2024

你好!我在重现ImageNet1K时训练精度时只有68%左右,论文中可以达到78%.请问是配置问题吗?最近看到你们的工作,一篇创新性的工作QKformer,很有启发。所以我们想重现一下论文的实验。
目前大多数实验都没有什么问题,只是在实验imagenet1k的时候,精度没有重现论文中的精度,根据您在github上提供的imagenet_origin_log.txt里面留下的信息,我发现我们运行的epoch0的精度没有到"test_acc1": 6.626500264320374, ",大约只有4点几。我们实验了 QKFormer_10_384,QKFormer_10_512,QKFormer_10_768,似乎都遇到了一些问题。我们的实验是按照论文中描述的设置batch_size(512,但这个数值是根据论文中的设置的算法,我们在bash中传入的batch size 传入的是32或默认的4,都没法重现论文中的数据。),learning rate(6e-4), 不知道是哪里出现了问题。
我们在cifar10/100的实验中似乎得到相应的数据。

@zhouchenlin2096
Copy link
Owner

zhouchenlin2096 commented Dec 20, 2024

你好!我在重现ImageNet1K时训练精度时只有68%左右,论文中可以达到78%.请问是配置问题吗?最近看到你们的工作,一篇创新性的工作QKformer,很有启发。所以我们想重现一下论文的实验。 目前大多数实验都没有什么问题,只是在实验imagenet1k的时候,精度没有重现论文中的精度,根据您在github上提供的imagenet_origin_log.txt里面留下的信息,我发现我们运行的epoch0的精度没有到"test_acc1": 6.626500264320374, ",大约只有4点几。我们实验了 QKFormer_10_384,QKFormer_10_512,QKFormer_10_768,似乎都遇到了一些问题。我们的实验是按照论文中描述的设置batch_size(512,但这个数值是根据论文中的设置的算法,我们在bash中传入的batch size 传入的是32或默认的4,都没法重现论文中的数据。),learning rate(6e-4), 不知道是哪里出现了问题。 我们在cifar10/100的实验中似乎得到相应的数据。

你好:

1、请问累计梯度的那个参数改了吗?
'--accum_iter', default=3, type=int,
如果输入8X32X3=768的batch size,这个可能会有影响。

2、还有请问imagenet模型推理能复现结果吗?

3、还有Imagenet上训练,我不清楚是不是计算卡的原因,我之前的结果是在V100卡上跑的。现在因为实验室项目原因,我没有V100计算卡了。但是最近我使用华为的昇腾910C,imagenet推理模型能完全复现,imagenet训练只会掉0.6个点(但是我咨询了其他人用910C训练ANN也经常会出现掉0.几个点现象,所以我认为这是正常的现象,所以基本上910C上也能复现)。或者再等等有没有其他人反馈imagenet上复现的结果?

@nerver12
Copy link
Author

你好!根据你们的工作在T=16时是可以实现与论文相当的精度的,但是当T=10时训练精度时只有78%左右。请问是配置问题吗?那你们工作的配置是怎么样的呢?如果不是配置问题,请问是什么原因导致的呢,怎么解决?

@preesee
Copy link

preesee commented Dec 23, 2024

你好!我在重现ImageNet1K时训练精度时只有68%左右,论文中可以达到78%.请问是配置问题吗?最近看到你们的工作,一篇创新性的工作QKformer,很有启发。所以我们想重现一下论文的实验。 目前大多数实验都没有什么问题,只是在实验imagenet1k的时候,精度没有重现论文中的精度,根据您在github上提供的imagenet_origin_log.txt里面留下的信息,我发现我们运行的epoch0的精度没有到"test_acc1": 6.626500264320374, ",大约只有4点几。我们实验了 QKFormer_10_384,QKFormer_10_512,QKFormer_10_768,似乎都遇到了一些问题。我们的实验是按照论文中描述的设置batch_size(512,但这个数值是根据论文中的设置的算法,我们在bash中传入的batch size 传入的是32或默认的4,都没法重现论文中的数据。),learning rate(6e-4), 不知道是哪里出现了问题。 我们在cifar10/100的实验中似乎得到相应的数据。

你好:

1、请问累计梯度的那个参数改了吗? '--accum_iter', default=3, type=int, 如果输入8X32X3=768的batch size,这个可能会有影响。

2、还有请问imagenet模型推理能复现结果吗?

3、还有Imagenet上训练,我不清楚是不是计算卡的原因,我之前的结果是在V100卡上跑的。现在因为实验室项目原因,我没有V100计算卡了。但是最近我使用华为的昇腾910C,imagenet推理模型能完全复现,imagenet训练只会掉0.6个点(但是我咨询了其他人用910C训练ANN也经常会出现掉0.几个点现象,所以我认为这是正常的现象,所以基本上910C上也能复现)。或者再等等有没有其他人反馈imagenet上复现的结果?

请问累计梯度的那个参数改了吗? '--accum_iter', default=3, type=int, 如果输入8X32X3=768的batch size,这个可能会有影响。

很高兴收到作者的回复。accum_iter我没有改动,但是代码中的配置默认是3,所以我为了达到论文中的数值,改动了batch size =32,所以effective batch size 是768(由于我用的是8卡A100)。所以要重现的配置是accum_iter是应该设置成多少?如果是8卡环境的情况下。batch size 应该设置成多少?盼复!谢谢!

@nerver12
Copy link
Author

你好!根据你们的工作在T=16时是可以实现与论文相当的精度的,但是当T=10时训练精度时只有78%左右。请问是配置问题吗?那你们工作的配置是怎么样的呢?如果不是配置问题,请问是什么原因导致的呢,怎么解决?

@preesee
Copy link

preesee commented Jan 14, 2025

I have successfully reproduced the experimental results on cifar10/cifar100/ and Image1K with some parts of the settings in this paper. The issue I encountered was that the data loader worked very slowly until I removed the random seed. Another issue is, the accuracy did not meet the value reported in this paper. I fixed it after the author told me about the training setting. I reproduced the result using 8*A100 GPUs. Thus, when set accum_iter=2, it works, whereas the code sets the value to 3 as default, which can not produce the experiment results as I know.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants