code-offline/docker-compose.gpu.yml at main · opensecurity/code-offline · GitHub

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
services:
  llm:
    build:
      context: .
      dockerfile: Dockerfile.llama.gpu
    container_name: llama-gpu
    ports:
      - "127.0.0.1:${LLAMA_PORT:-8001}:8001"
    volumes:
      - ./models:/models
    environment:
      - LLAMA_CACHE=/models
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    command:
      - "-hf"
      - "${GPU_HF_MODEL:-unsloth/Qwen3.5-35B-A3B-GGUF:UD-Q4_K_XL}"
      - "--host"
      - "0.0.0.0"
      - "--port"
      - "8001"
      - "-c"
      - "${LLAMA_CTX_SIZE:-128000}"
      - "--temp"
      - "0.6"
      - "--top-p"
      - "0.95"
      - "--top-k"
      - "20"
      - "--min-p"
      - "0.00"
    restart: unless-stopped

  agent:
    build:
      context: .
      dockerfile: Dockerfile.agent
    profiles:
      - interactive
    volumes:
      - ./workspace:/workspace
      - ./agent_data:/home/node/.pi
    depends_on:
      - llm