vllm-project · WoosukKwon · Apr 5, 2024 · Apr 4, 2024 · Apr 4, 2024 · Apr 4, 2024
diff --git a/.github/workflows/publish.yml b/.github/workflows/publish.yml
@@ -49,7 +49,7 @@ jobs:
       matrix:
           os: ['ubuntu-20.04']
           python-version: ['3.8', '3.9', '3.10', '3.11']
-          pytorch-version: ['2.1.2']  # Must be the most recent version that meets requirements.txt.
+          pytorch-version: ['2.1.2']  # Must be the most recent version that meets requirements-cuda.txt.
           cuda-version: ['11.8', '12.1']
 
     steps:

diff --git a/.github/workflows/scripts/build.sh b/.github/workflows/scripts/build.sh
@@ -9,7 +9,7 @@ LD_LIBRARY_PATH=${cuda_home}/lib64:$LD_LIBRARY_PATH
 
 # Install requirements
 $python_executable -m pip install wheel packaging
-$python_executable -m pip install -r requirements.txt
+$python_executable -m pip install -r requirements-cuda.txt
 
 # Limit the number of parallel jobs to avoid OOM
 export MAX_JOBS=1

diff --git a/CONTRIBUTING.md b/CONTRIBUTING.md
@@ -21,7 +21,6 @@ Express your support on Twitter if vLLM aids you, or simply offer your appreciat
 ### Build from source
 
 ```bash
-pip install -r requirements.txt
 pip install -e .  # This may take several minutes.
 ```
 

diff --git a/Dockerfile b/Dockerfile
@@ -16,9 +16,10 @@ RUN ldconfig /usr/local/cuda-12.1/compat/
 WORKDIR /workspace
 
 # install build and runtime dependencies
-COPY requirements.txt requirements.txt
+COPY requirements-common.txt requirements-common.txt
+COPY requirements-cuda.txt requirements-cuda.txt
 RUN --mount=type=cache,target=/root/.cache/pip \
-    pip install -r requirements.txt
+    pip install -r requirements-cuda.txt
 
 # install development dependencies
 COPY requirements-dev.txt requirements-dev.txt
@@ -43,7 +44,8 @@ COPY csrc csrc
 COPY setup.py setup.py
 COPY cmake cmake
 COPY CMakeLists.txt CMakeLists.txt
-COPY requirements.txt requirements.txt
+COPY requirements-common.txt requirements-common.txt
+COPY requirements-cuda.txt requirements-cuda.txt
 COPY pyproject.toml pyproject.toml
 COPY vllm/__init__.py vllm/__init__.py
 
@@ -111,9 +113,10 @@ RUN apt-get update -y \
     && apt-get install -y python3-pip
 
 WORKDIR /workspace
-COPY requirements.txt requirements.txt
+COPY requirements-common.txt requirements-common.txt
+COPY requirements-cuda.txt requirements-cuda.txt
 RUN --mount=type=cache,target=/root/.cache/pip \
-    pip install -r requirements.txt
+    pip install -r requirements-cuda.txt
 
 # Install flash attention (from pre-built wheel)
 RUN --mount=type=bind,from=flash-attn-builder,src=/usr/src/flash-attention-v2,target=/usr/src/flash-attention-v2 \

diff --git a/MANIFEST.in b/MANIFEST.in
@@ -1,5 +1,6 @@
 include LICENSE
-include requirements.txt
+include requirements-common.txt
+include requirements-cuda.txt
 include CMakeLists.txt
 
 recursive-include cmake *

diff --git a/requirements.txt → requirements-common.txt b/requirements.txt → requirements-common.txt
@@ -1,19 +1,13 @@
-cmake>=3.21
+cmake >= 3.21
 ninja  # For faster builds.
 psutil
-ray >= 2.9
 sentencepiece  # Required for LLaMA tokenizer.
 numpy
-torch == 2.1.2
 requests
 py-cpuinfo
 transformers >= 4.39.1  # Required for StarCoder2 & Llava.
-xformers == 0.0.23.post1  # Required for CUDA 12.1.
 fastapi
 uvicorn[standard]
 pydantic >= 2.0  # Required for OpenAI server.
 prometheus_client >= 0.18.0
-pynvml == 11.5.0
-triton >= 2.1.0
-outlines == 0.0.34
-tiktoken == 0.6.0 # Required for DBRX tokenizer
+tiktoken == 0.6.0  # Required for DBRX tokenizer
diff --git a/requirements-cpu.txt b/requirements-cpu.txt
@@ -1,15 +1,6 @@
-cmake>=3.21
-ninja  # For faster builds.
-psutil
-ray >= 2.9
-sentencepiece  # Required for LLaMA tokenizer.
-numpy
-transformers >= 4.38.0  # Required for Gemma.
-fastapi
-uvicorn[standard]
-pydantic >= 2.0  # Required for OpenAI server.
-prometheus_client >= 0.18.0
+# Common dependencies
+-r requirements-common.txt
+
+# Dependencies for x86_64 CPUs
 torch == 2.1.2+cpu 
-triton >= 2.1.0
-filelock == 3.13.3
-py-cpuinfo
+triton >= 2.1.0  # FIXME(woosuk): This is a hack to avoid import error.
diff --git a/requirements-cuda.txt b/requirements-cuda.txt
@@ -0,0 +1,10 @@
+# Common dependencies
+-r requirements-common.txt
+
+# Dependencies for NVIDIA GPUs
+ray >= 2.9
+torch == 2.1.2
+xformers == 0.0.23.post1  # Required for CUDA 12.1.
+pynvml == 11.5.0
+triton >= 2.1.0
+outlines == 0.0.34  # Requires torch >= 2.1.0
diff --git a/requirements-neuron.txt b/requirements-neuron.txt
@@ -1,12 +1,7 @@
-sentencepiece  # Required for LLaMA tokenizer.
-numpy
+# Common dependencies
+-r requirements-common.txt
+
+# Dependencies for Neuron devices
 transformers-neuronx >= 0.9.0
 torch-neuronx >= 2.1.0
 neuronx-cc
-fastapi
-uvicorn[standard]
-pydantic >= 2.0  # Required for OpenAI server.
-prometheus_client >= 0.18.0
-requests
-psutil
-py-cpuinfo
diff --git a/requirements-rocm.txt b/requirements-rocm.txt
@@ -1,18 +1,5 @@
-cmake>=3.21
-ninja  # For faster builds.
-typing-extensions>=4.8.0
-starlette
-requests
-py-cpuinfo
-psutil
+# Common dependencies
+-r requirements-common.txt
+
+# Dependencies for AMD GPUs
 ray == 2.9.3
-sentencepiece  # Required for LLaMA tokenizer.
-numpy
-tokenizers>=0.15.0
-transformers >= 4.39.1  # Required for StarCoder2 & Llava.
-fastapi
-uvicorn[standard]
-pydantic >= 2.0  # Required for OpenAI server.
-prometheus_client >= 0.18.0
-outlines == 0.0.34
-tiktoken == 0.6.0 # Required for DBRX tokenizer
diff --git a/setup.py b/setup.py
@@ -325,22 +325,27 @@ def read_readme() -> str:
 
 def get_requirements() -> List[str]:
     """Get Python package dependencies from requirements.txt."""
-    if _is_cuda():
-        with open(get_path("requirements.txt")) as f:
+
+    def _read_requirements(filename: str) -> List[str]:
+        with open(get_path(filename)) as f:
             requirements = f.read().strip().split("\n")
+        for line in requirements:
+            if line.startswith("-r "):
+                requirements.remove(line)
+                requirements += _read_requirements(line.split()[1])
+        return requirements
+
+    if _is_cuda():
+        requirements = _read_requirements("requirements-cuda.txt")
     elif _is_hip():
-        with open(get_path("requirements-rocm.txt")) as f:
-            requirements = f.read().strip().split("\n")
+        requirements = _read_requirements("requirements-rocm.txt")
     elif _is_neuron():
-        with open(get_path("requirements-neuron.txt")) as f:
-            requirements = f.read().strip().split("\n")
+        requirements = _read_requirements("requirements-neuron.txt")
     elif _is_cpu():
-        with open(get_path("requirements-cpu.txt")) as f:
-            requirements = f.read().strip().split("\n")
+        requirements = _read_requirements("requirements-cpu.txt")
     else:
         raise ValueError(
-            "Unsupported platform, please use CUDA, ROCM or Neuron.")
-
+            "Unsupported platform, please use CUDA, ROCm, Neuron, or CPU.")
     return requirements
-Original file line number
+Diff line change
@@ Expand Up @@
     ### Build from source
     ```bash
-    pip install -r requirements.txt
     pip install -e .  # This may take several minutes.
     ```
@@ Expand Down @@