模型量化对LLM性能和显存占用的影响

量化的大参数模型性能通常优于未量化的小参数模型。