[세미나 안내] UIUC 김남승 교수 초청 세미나 (11/3 월 16:30, 화학관 330102호) "LIA: A Single-GPU LLM Inference Acceleration with Cooperative AMX-Enabled CPU-GPU Computation and CXL Offloading"
- ice
- 조회수363
- 2025-10-28
UIUC 김남승 교수님을 모시고 초청 세미나를 진행합니다.
김남승 교수님께서는 컴퓨터 구조 분야에서 세계적으로 인정받고 계시며, 주요 학술 대회인 HPCA, MICRO, ISCA의 명예의 전당에 이름을 올리신 바 있습니다. 뿐만 아니라 여러 수상 경력을 보유하고 계시며, 2018년부터 2020년까지 삼성전자에서 새로운 메모리 개발 부문의 전무로 활약하셨습니다.
이번 세미나에서는 CPU/GPU/CXL 을 활용한 LLM 추론 가속화에 대한 최신 연구 성과를 소개해주실 예정입니다.
관심있는 교수님과 학생 여러분의 많은 참여 바랍니다.
■일시: 2025년 11월 3일(월) 오후 4:30
■장소: 화학관 330102호
■주제: LIA: A Single-GPU LLM Inference Acceleration with Cooperative AMX-Enabled CPU-GPU Computation and CXL Offloading
■연사: 김낭승 교수 (UIUC)
■ABSTRACT
The limited memory capacity of single GPUs constrains large language model (LLM) inference, necessitating cost-prohibitive multi-GPU deployments or frequent performance-limiting CPU-GPU transfers over slow PCIe. In this work, we first benchmark recent Intel CPUs with Advanced Matrix Extensions (AMX), including 4th generation (Sapphire Rapids) and 6th generation (Granite Rapids) Xeon Scalable Processors, demonstrating matrix multiplication throughput of 20TFLOPS and 40TFLOPS, respectively—comparable to some recent GPUs. These findings unlock more extensive computation offloading to CPUs, reducing CPU-GPU transfers and alleviating throughput bottlenecks compared to prior-generation CPUs.
Building on these insights, we design LIA, a single-GPU LLM inference acceleration framework leveraging cooperative AMX-enabled CPU-GPU computation and CXL offloading. LIA systematically offloads computation to CPUs, optimizing both latency and throughput. The framework also introduces a memory-offloading policy that seamlessly integrates affordable CXL memory with DDR memory to enhance performance in throughput-driven tasks. On Sapphire Rapids (Granite Rapids) systems with a single H100 GPU, LIA achieves up to 5.1× (19×) lower latency and 3.7× (5.1×) higher throughput compared to the latest single-GPU offloading framework. Furthermore, LIA deploying CXL offloading yields an additional 1.5× throughput improvement over LIA using only DDR memory with a 1.8× increase in maximum batch size (900→1.6K).
■HOST: 김정래교수 (전자전기컴퓨터공학과)
발전기금


