Attention Is All You Need But You Don’t Need All Of It For Inference of Large Language Models
LLaMA2在剪枝时,跳过ffn和跳过full layer的效果差不多。相比跳过ffn/full layer,跳过attention layer的影响会更小。
跳过attention layer:7B/13B从100%参数剪枝到66%,平均指标只下降1.7~1.8pp。
跳过ffn:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~15.1pp。
跳过full later:7B/13B从100%参数剪枝到66%,平均指标下降了12.2~13pp。
LLaMA2在剪枝时,是否跳过最后一层的ffn/attention layer,影响不大。
The Unreasonable Ineffectiveness of the Deeper Layers
剪枝崩溃临界点:不同模型的剪枝崩溃临界点不同,LLaMA2在45%,Mistral-7B在35%,Qwen在20%,Phi-2在25%。