Commit fee2cb5

authored

Add batched Llama model definition using vLLM paged attention (mlc-ai#1134)

* Add batched Llama model with vllm paged attention * update core.py * doc * minor * add e2e test * mv file * clean * Check if TVM has been built with USE_VLLM * update BuildArgs docstring

1 parent ba67835 commit fee2cb5Copy full SHA for fee2cb5

4 files changed

+1347

-165

lines changed

examples/python
- run_llama_batched_vllm.py
mlc_llm
- core.py
- relax_model
  - llama.py
  - llama_batched_vllm.py

4 files changed

+1347

-165

lines changed

Comments

(0)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Commit fee2cb5

4 files changed

4 files changed

File tree

4 files changed

4 files changed

0 commit comments