资讯

与传统方法相比,DGMR的显著优势在于无需额外的梯度计算或迭代式剪枝-微调流程,从而大幅提升了算法效率。在剪枝完成后,方法采用知识蒸馏技术协助缩减后的模型恢复原始性能,其中原始模型作为教师模型,剪枝模型作为学生模型进行学习。