BitNet-rs

Rust inference engine for 1-bit BitNet large language models — memory-safe, cross-validated against the C++ reference, with SIMD/CUDA acceleration.

CLI Quickstart

# 1. Download a model
cargo run -p xtask -- download-model --id microsoft/bitnet-b1.58-2B-4T-gguf

# 2. Run inference
RUST_LOG=warn cargo run -p bitnet-cli --no-default-features --features cpu,full-cli -- run \
  --model models/microsoft-bitnet-b1.58-2B-4T-gguf/ggml-model-i2_s.gguf \
  --tokenizer models/microsoft-bitnet-b1.58-2B-4T-gguf/tokenizer.json \
  --prompt "What is 2+2?" \
  --max-tokens 8

# 3. Deterministic benchmark + receipt verification
BITNET_DETERMINISTIC=1 BITNET_SEED=42 RAYON_NUM_THREADS=1 \
  cargo run -p xtask -- benchmark \
  --model models/microsoft-bitnet-b1.58-2B-4T-gguf/ggml-model-i2_s.gguf \
  --tokens 128
cargo run -p xtask -- verify-receipt

# 4. Interactive chat
RUST_LOG=warn cargo run -p bitnet-cli --no-default-features --features cpu,full-cli -- chat \
  --model models/microsoft-bitnet-b1.58-2B-4T-gguf/ggml-model-i2_s.gguf \
  --tokenizer models/microsoft-bitnet-b1.58-2B-4T-gguf/tokenizer.json

Always specify --no-default-features --features cpu|gpu — default features are empty by design.

Architecture

┌────────────────────────────────────────────────────────────┐
│                    bitnet-cli / bitnet-server               │
└────────────────────┬───────────────────────────────────────┘
                     │
          ┌──────────▼──────────┐
          │   bitnet-inference  │  autoregressive engine
          │  ┌────────────────┐ │
          │  │ bitnet-sampling│ │  temperature / top-k / top-p
          │  │ bitnet-prompt- │ │  chat templates (raw/instruct/llama3)
          │  │   templates    │ │
          │  │ bitnet-receipts│ │  honest-compute receipts
          │  │ bitnet-logits  │ │  logit transforms / penalties
          │  │ bitnet-        │ │  decode loop / stop criteria
          │  │   generation   │ │
          │  └────────────────┘ │
          └──────────┬──────────┘
                     │
     ┌───────────────▼─────────────────┐
     │          bitnet-models           │  GGUF loading, transformer
     │  ┌──────────────────────────┐   │
     │  │   bitnet-quantization    │   │  I2_S / TL1 / TL2 / IQ2_S
     │  │   bitnet-kernels (SIMD)  │   │  AVX2 / AVX-512 / NEON / CUDA
     │  │   bitnet-gguf            │   │  GGUF parser (fuzz-tested)
     │  └──────────────────────────┘   │
     └──────────────────────────────────┘
                     │
     ┌───────────────▼──────────────────┐
     │  bitnet-tokenizers               │  universal tokenizer + auto-discovery
     │  bitnet-device-probe             │  OS/GPU probing + capability snapshot
     │  bitnet-engine-core              │  session / orchestration contracts
     └──────────────────────────────────┘

Status (v0.1.0-qna-mvp)

Feature	Status	Notes
CPU inference — I2_S QK256	✅	Scalar kernels (~0.1 tok/s on 2B); AVX2 foundation merged
CPU inference — I2_S BitNet32	✅	Production path, 10-20× faster than QK256 scalar
GPU inference — CUDA	⚠️	Implemented; receipt validation pending
Interactive chat (REPL)	✅	`/help`, `/clear`, `/metrics`, auto-template detection
Cross-validation vs C++	✅	Cosine similarity > 0.99, per-token comparison
Receipt / honest-compute	✅	Schema v1.0.0, 8 validation gates
Strict mode	✅	Runtime guards prevent mock fallback
SafeTensors → GGUF export	✅	`bitnet-st2gguf` with F16 LayerNorm preservation
Backend selection + reporting	✅	`requested=X detected=[…] selected=Y` at startup
CPU golden path E2E tests	✅	5 deterministic tests, always-on in PR CI
Server / HTTP API	🚧	Health endpoints wired; serving endpoints have TODOs

Build

# CPU (recommended for development)
cargo build --no-default-features --features cpu

# CPU — release + native SIMD
RUSTFLAGS="-C target-cpu=native -C opt-level=3 -C lto=thin" \
  cargo build --release --no-default-features --features cpu,full-cli

# GPU (requires CUDA 12.x)
cargo build --no-default-features --features gpu

# Nix (reproducible, identical to CI)
nix develop
nix build .#bitnet-cli
nix flake check

Test

# All tests (nextest recommended — 5 min timeout)
cargo nextest run --workspace --no-default-features --features cpu

# CI profile (4 threads, no retries)
cargo nextest run --profile ci

# GGUF fixture tests
cargo test -p bitnet-models --test qk256_dual_flavor_tests --no-default-features --features fixtures

# Skip slow QK256 scalar tests
BITNET_SKIP_SLOW_TESTS=1 cargo nextest run \
  --workspace --no-default-features --features cpu

Documentation

Organised by Diátaxis:

Section	Contents
Tutorials	Getting started, first inference, tokenizer discovery
How-to	Install, run inference, export GGUF, cross-validate, validate models
Explanation	Architecture, quantization formats, dual-backend, features
Reference	CLI flags, environment variables, API, quantization support

Key guides

Quickstart
Environment variables
GPU setup
C++ cross-validation setup
Quantization support
Validation gates
QK256 Usage Guide — GGML I2_S QK256 Format with 256-element blocks and --strict-loader validation
Dual I2_S Flavor Architecture — how bitnet-rs differentiates between I2_S format variants

Receipt Verification

bitnet-rs uses "honest-compute" receipts to verify real inference (no mock fallback).

# Run benchmark and write receipt
cargo run -p xtask -- benchmark \
  --model models/model.gguf --tokens 128

# Verify receipt against quality gates
cargo run -p xtask -- verify-receipt

# Strict mode — fail on suspicious LN weights (exit code 8)
BITNET_STRICT_MODE=1 cargo run -p xtask -- verify-receipt

Receipt JSON schema (v1.0.0):

{
  "version": "1.0.0",
  "compute_path": "real",
  "kernels": ["i2s_cpu_avx2"],
  "tokens_per_sec": 0.1,
  "success": true
}

Key environment variables:

Variable	Purpose
`BITNET_DETERMINISTIC`	Enable deterministic inference
`BITNET_SEED`	Random seed for reproducibility
`RAYON_NUM_THREADS`	Worker thread count (1 = single-threaded)
`BITNET_STRICT_MODE`	Fail on validation warnings

Kernel ID hygiene: all kernel IDs must be non-empty strings ≤ 128 chars. See baselines/ for reference receipts.

See CONTRIBUTING.md. Issues and pull requests welcome.

# Format + lint
cargo fmt --all && cargo clippy --all-targets --all-features -- -D warnings

# Run tests before pushing
cargo nextest run --workspace --no-default-features --features cpu

License

Dual-licensed under MIT and Apache 2.0.

Name		Name	Last commit message	Last commit date
Latest commit History 1,659 Commits
.agent/receipts		.agent/receipts
.cargo		.cargo
.claude		.claude
.config		.config
.githooks		.githooks
.github		.github
.jules		.jules
.kiro/specs		.kiro/specs
archive		archive
assets		assets
baselines		baselines
benches		benches
benchmarks/baselines/pr-448		benchmarks/baselines/pr-448
bin		bin
ci		ci
config		config
crates		crates
crossval		crossval
docs		docs
examples		examples
fuzz		fuzz
include		include
infra		infra
media		media
models		models
patches		patches
scripts		scripts
src		src
tests-new/integration		tests-new/integration
tests		tests
tools		tools
xtask-build-helper		xtask-build-helper
xtask		xtask
.coderabbit.yaml		.coderabbit.yaml
.crates.toml		.crates.toml
.crates2.json		.crates2.json
.dockerignore		.dockerignore
.editorconfig		.editorconfig
.env.example		.env.example
.gitattributes		.gitattributes
.gitignore		.gitignore
.gitmodules		.gitmodules
.lychee.toml		.lychee.toml
.markdownlint.jsonc		.markdownlint.jsonc
.pre-commit-config.yaml		.pre-commit-config.yaml
.tokeignore		.tokeignore
AC10_ERROR_HANDLERS_COMPLETE.rs		AC10_ERROR_HANDLERS_COMPLETE.rs
BITNET_CPP_EXPLORATION_SUMMARY.txt		BITNET_CPP_EXPLORATION_SUMMARY.txt
CHANGELOG.md		CHANGELOG.md
CLAUDE.md		CLAUDE.md
CODEOWNERS		CODEOWNERS
CODE_OF_CONDUCT.md		CODE_OF_CONDUCT.md
COMPATIBILITY.md		COMPATIBILITY.md
CONTRIBUTING.md		CONTRIBUTING.md
CROSSVAL_FFI_MANIFEST.txt		CROSSVAL_FFI_MANIFEST.txt
CROSSVAL_FFI_SUMMARY.txt		CROSSVAL_FFI_SUMMARY.txt
CROSSVAL_SUMMARY.txt		CROSSVAL_SUMMARY.txt
Cargo.lock		Cargo.lock
Cargo.toml		Cargo.toml
Dockerfile		Dockerfile
EXPLORATION_SUMMARY.txt		EXPLORATION_SUMMARY.txt
IMPLEMENTATION_ROADMAP_SUMMARY.txt		IMPLEMENTATION_ROADMAP_SUMMARY.txt
Justfile		Justfile
KEY_FINDINGS.txt		KEY_FINDINGS.txt
LICENSE		LICENSE
Makefile		Makefile
Makefile.ci		Makefile.ci
Makefile.minimal		Makefile.minimal
README.md		README.md
REPORT_SUMMARY.txt		REPORT_SUMMARY.txt
SECURITY.md		SECURITY.md
TEST_FILTERING_SUMMARY.txt		TEST_FILTERING_SUMMARY.txt
THIRD_PARTY.md		THIRD_PARTY.md
VERIFICATION_SUMMARY.txt		VERIFICATION_SUMMARY.txt
build		build
build.rs		build.rs
bulk_close_commands.sh		bulk_close_commands.sh
clippy.toml		clippy.toml
deny.toml		deny.toml
docker-compose.test.yml		docker-compose.test.yml
docker-compose.yml		docker-compose.yml
execute_phase1_actions.sh		execute_phase1_actions.sh
file-lock-network-retry.patch		file-lock-network-retry.patch
fix_tl2_test.py		fix_tl2_test.py
flake.lock		flake.lock
flake.nix		flake.nix
libplatform_utils.rlib		libplatform_utils.rlib
mutants.toml		mutants.toml
new_create_quantized_model.rs		new_create_quantized_model.rs
new_tl2_test_body.rs		new_tl2_test_body.rs
replace_tl2_test.py		replace_tl2_test.py
rust-toolchain.toml		rust-toolchain.toml
rustfmt.toml		rustfmt.toml
taplo.toml		taplo.toml
tl2_test.patch		tl2_test.patch
tl2_test_impl.patch		tl2_test_impl.patch
tl2_test_replacement.txt		tl2_test_replacement.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BitNet-rs

CLI Quickstart

Architecture

Status (v0.1.0-qna-mvp)

Build

Test

Documentation

Key guides

Receipt Verification

License

About

Uh oh!

Releases 1

Packages

Contributors 2

Uh oh!

Languages

License

EffortlessMetrics/BitNet-rs

Folders and files

Latest commit

History

Repository files navigation

BitNet-rs

CLI Quickstart

Architecture

Status (v0.1.0-qna-mvp)

Build

Test

Documentation

Key guides

Receipt Verification

License

About

Resources

License

Code of conduct

Contributing

Security policy

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 2

Uh oh!

Languages

Packages