GithubHelp home page GithubHelp logo

Comments (3)

fxmeng avatar fxmeng commented on August 17, 2024

这部分我们在最终版本的论文中补充了这个实验,结果在GitHub上也进行了展示.
我们一开始实验的时候由于效果比较好也就没有仔细调超参数,后面reviwer也指出我们需要做超参数的ablation study,所以在论文的最终版本补充了这部分实验,结果也在GitHub上进行了展示.
通过这部分实验,我们发现,C=500并不是一个好的超参数,实际上C=1也就是更smooth效果会更好.而A对实验效果的影响是比较大的,他决定了熵值差距较大时,保留本模型的比例,如果完全丢弃(A=1),则效果会比较差,我们使用的0.4看起来还是比较合理的.

from filter-grafting.

huangdl007 avatar huangdl007 commented on August 17, 2024

这部分我们在最终版本的论文中补充了这个实验,结果在GitHub上也进行了展示.
我们一开始实验的时候由于效果比较好也就没有仔细调超参数,后面reviwer也指出我们需要做超参数的ablation study,所以在论文的最终版本补充了这部分实验,结果也在GitHub上进行了展示.
通过这部分实验,我们发现,C=500并不是一个好的超参数,实际上C=1也就是更smooth效果会更好.而A对实验效果的影响是比较大的,他决定了熵值差距较大时,保留本模型的比例,如果完全丢弃(A=1),则效果会比较差,我们使用的0.4看起来还是比较合理的.

谢谢回复~

from filter-grafting.

fxmeng avatar fxmeng commented on August 17, 2024

补充一些
A和C的作用分别相当于信号的振幅和频率。A代表当一个模型的信息量远大于另一个模型时,信息量小的模型保留的比例。C用来缩放两个模型信息量的大小。
这篇文章我们开始在超参数A和C这块并没有花时间来调,只采用了固定的值(0.4,500),后来发现也不是最好的选择。
后来在CIFAR数据集上补充了这个实验,imagenet由于训练比较慢,没有研究什么样的值比较好。
在这里根据做过的实验和理论来说一下我的想法:
首先A的取值对结果的影响比较大,因为涉及到两个模型极限情况的比例,我们不希望丢掉任意个模型的信息,所以A不能太大。但是如果A太小,起不到给信息量更大的模型更大比例的作用了。我们认为0.2-0.4是比较合理的范围。
C的作用是用来判断两个模型信息量的相对大小,这个参数比较复杂一些。
首先取决于衡量两个模型信息量的标准,比如使用信息熵或者L1norm,得到的信息量规模是不同的。
另外取决于模型每一层滤波器的参数量,比如卷积参数量为(64,64,3,3)的层和(16,16,3,3)计算出来的信息量规模也不同。
而C就是需要把这种信息量的规模缩放到一个合理的范围,这个需要根据你实际的情况来调,甚至每一层应该采用不一样的C。
关于C的建议是,尽量不要让C太大,否则两个模型的比例会集中到两个极值。

from filter-grafting.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.