Description and Requirements
岗位职责:
跟踪并研究模型量化(Quantization)、剪枝(Pruning)、知识蒸馏(Knowledge Distillation)、低秩分解(Low-Rank Factorization)等领域的最新技术进展。负责前沿压缩算法的复现、评估和创新,并将其应用于主流的大语言模型(如Llama系列、Qwen系列等)。负责大模型的训练后量化(PTQ)和量化感知训练(QAT)流程,开发高效的校准(Calibration)策略,在保证模型精度的前提下,实现INT8、INT4、FP8等低比特量化。针对不同硬件平台(如高通)的特性,进行深度定制的量化方案设计与优化。建立并完善模型压缩后的性能评测体系,从模型精度(如Perplexity、MMLU benchmarks)、推理速度(Latency/Throughput)、内存占用(Memory Footprint)和功耗等多个维度进行综合评估。岗位要求:
计算机科学、电子工程、自动化、数学等相关专业。具备扎实的数学基础,特别是线性代数、概率论和最优化理论。精通 Python 编程,熟悉 C++ 编程,有良好的代码风格和工程实践能力。熟练掌握至少一种主流深度学习框架(PyTorch优先,TensorFlow亦可),并对其底层实现有一定了解。深入理解深度学习基本原理,尤其熟悉 Transformer、Attention等模型结构。具备模型量化、剪枝、蒸馏等至少一种压缩技术的实际项目经验,熟悉相关主流算法。对模型部署流程有清晰的认识,了解模型在不同硬件上推理的性能瓶颈。具备优秀的分析问题和解决问题的能力,能够独立承担研究和开发任务。良好的沟通能力和团队协作精神,具备强烈的责任心和自我驱动力。 Additional Locations: * China - Hubei - 武汉(Wuhan) * China * ...