🧠 NLP Pipeline for Full-Text Screening Using LLMs and Embeddings

This repository implements a comprehensive pipeline to automate the full-text screening of scientific literature (PDF format). It integrates OpenAI embeddings, LLM-based validation (GPT-5.1-mini), optional BioBERT fine-tuning, and contrastive inclusion/exclusion scoring. The pipeline outputs annotated PDFs with highlights, tooltips, and compliance reports for systematic review support.

Check out the paper here: An Auditable Pipeline for Fuzzy Full-Text Screening in Systematic Reviews: Integrating Contrastive Semantic Highlighting and LLM Judgment

📂 Repository Structure

.
├── main.py                       # Entry point for running the full pipeline
├── config.py                     # Inclusion/exclusion criteria, thresholds, colors, API keys
├── models/
│   └── biobert_trainer.py        # Optional: fine-tune BioBERT with labeled data
├── utils/
│   ├── check_chunk_llm.py        # Batch/single LLM verification of candidate chunks
│   ├── cost_tracker.py           # Tracks OpenAI API usage and cost with plots
│   ├── embedding.py              # Embedding functions with caching
│   ├── get_pdfs_from_zotero.py   # Utility to fetch papers from Zotero libraries
│   ├── pdf_highlighter.py        # Annotates PDFs with highlights and comments
│   ├── pdf_parser.py             # Extracts sentence-based text chunks from PDFs
│   ├── plotting.py               # Helper for compliance and result visualizations
│   └── similarity.py             # Cosine similarity + contrastive scoring (incl. exclusion)
├── notebooks/
│   └── compliant_files.ipynb     # Example analysis: compliance stats and evaluation
├── data/
│   ├── papers/                   # Input: drop PDFs here (or sync from Zotero)
│   ├── output/                   # Output: annotated PDFs and reports
│   └── excels/                   # Tabular compliance summaries
├── requirements.txt
├── LICENSE
└── .gitignore

🧠 What This Pipeline Does

Problem

Systematic review full-text screening is manual, slow, and subjective. This project automates the semantic triage of PDFs using embeddings and LLM reasoning.

Solution Workflow

📄 Parse PDFs into overlapping sentence chunks.
🔢 Embed each chunk with OpenAI text-embedding-3-large.
⚖️ Score similarity against both inclusion and exclusion criteria.
✅ Verify borderline/high-scoring chunks with GPT-4.1-mini (YES/NO/MAYBE + explanation).
🖍️ Annotate PDFs with criterion-colored highlights and reasoning tooltips.
📊 Generate compliance reports (Excel, plots, token/cost tracking).

🏗️ Pipeline Architecture

Overview

PDFs → data/papers/
Sentence-based chunking (sliding windows)
Embedding generation + caching
Contrastive similarity scoring (inclusion vs. exclusion)
LLM batch verification (check_chunk_llm.py)
PDF annotation (pdf_highlighter.py)
Compliance stats & plots (plotting.py)
Annotated outputs → data/output/

Diagram

🔍 Inclusion & Exclusion Criteria

Defined in config.py:

Inclusion Criteria: e.g., Population, Intervention, Outcome, Study Design.
Exclusion Criteria: e.g., overly clinical cohorts, observational-only studies, non-NCD focus, regression-only methods.
Each criterion has:
- Descriptive text
- Label
- Highlight color

🧪 How Matching Works

Chunking: pdf_parser.py uses PyMuPDF to create overlapping sentence windows.
Embedding: Chunks and criteria embedded via OpenAI API (embedding.py).
Contrastive Scoring: similarity.py compares chunk embeddings to both inclusion and exclusion vectors.
LLM Verification:
- check_chunk_llm.py uses GPT-4.1-mini (via LangChain).
- Assigns YES/NO/MAYBE with score + justification.
- Supports batch mode with concurrency control.
Annotation: pdf_highlighter.py highlights matched text in criterion colors and adds LLM explanations as tooltips.
Reporting: plotting.py + notebooks produce Excel compliance tables, summary plots, and cost tracking (cost_tracker.py).

⚙️ Configuration

Adjust in config.py:

INCLUSION_CRITERIA / EXCLUSION_CRITERIA
SIMILARITY_THRESHOLD
SENTENCES_PER_CHUNK
CRITERIA_COLORS
LLM_MODEL, EMBED_MODEL
Cost plot output folder

🚀 Getting Started

Install

pip install -r requirements.txt

API Key

Create .env:

OPENAI_API_KEY=your-key-here

Run

python main.py

Review Outputs

Annotated PDFs → data/output/
Compliance tables → data/excels/
Cost plots → plots/

🔬 Optional: BioBERT Training

Fine-tune BioBERT with labeled inclusion/exclusion data:

from models.biobert_trainer import train_biobert
train_biobert([
    {"text": "NCD simulation model using burden-of-disease", "label": 1},
    {"text": "Descriptive regression only", "label": 0},
])

📊 Additional Features

Zotero integration (get_pdfs_from_zotero.py) for syncing papers.
API cost tracking (cost_tracker.py) with usage plots.
Compliance exploration notebooks (notebooks/compliant_files.ipynb).

💡 Use Cases

Systematic reviews
Automated triage of scientific PDFs
Transparent inclusion/exclusion filtering
NLP pipelines for health modeling and evidence synthesis

📜 License

MIT License.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🧠 NLP Pipeline for Full-Text Screening Using LLMs and Embeddings

📂 Repository Structure

🧠 What This Pipeline Does

Problem

Solution Workflow

🏗️ Pipeline Architecture

Overview

Diagram

🔍 Inclusion & Exclusion Criteria

🧪 How Matching Works

⚙️ Configuration

🚀 Getting Started

Install

API Key

Run

Review Outputs

🔬 Optional: BioBERT Training

📊 Additional Features

💡 Use Cases

📜 License

🙏 Acknowledgments

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
assets		assets
models		models
notebooks		notebooks
utils		utils
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.py		config.py
main.py		main.py
requirements.txt		requirements.txt

License

pouriamrt/FullTextScreener

Folders and files

Latest commit

History

Repository files navigation

🧠 NLP Pipeline for Full-Text Screening Using LLMs and Embeddings

📂 Repository Structure

🧠 What This Pipeline Does

Problem

Solution Workflow

🏗️ Pipeline Architecture

Overview

Diagram

🔍 Inclusion & Exclusion Criteria

🧪 How Matching Works

⚙️ Configuration

🚀 Getting Started

Install

API Key

Run

Review Outputs

🔬 Optional: BioBERT Training

📊 Additional Features

💡 Use Cases

📜 License

🙏 Acknowledgments

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages