From 4b290349849b8026c2691f0c12559e63d64cd274 Mon Sep 17 00:00:00 2001
From: charlieroth <mail@charlieroth.me>
Date: Fri, 29 Aug 2025 08:22:42 +0200
Subject: [PATCH] feat: implement content persistence with checksum-based
 deduplication

- Add database migration to extend contents table with clean_html/clean_text columns
- Rename existing html/text columns to raw_html/raw_text for clarity
- Create ContentRepository with efficient upsert functionality
- Add composite unique index on (item_id, checksum) for deduplication
- Add GIN index on clean_text for future full-text search capabilities
- Implement MD5 checksum-based duplicate detection to avoid unnecessary writes
- Add comprehensive unit tests for insert, update, and no-op scenarios
- Update existing code to use new column names
- Handle large content payloads efficiently without excessive memory usage

Closes #23

Co-authored-by: Amp <amp@ampcode.com>
Amp-Thread-ID: https://ampcode.com/threads/T-68ad5589-7b94-4be5-a8a4-306a28f44efb
---
 ...769fd1aeb69119a51fa95b328d0618e9402c3.json |  22 ++
 ...00e9c31f7adfc29dd34c420b71e7986469753.json |  14 +
 ...515c10c19dc1ce8159dc3b085a958d33bea01.json |  64 ++++
 ...028114900c24ad51ceecee9ee252ea58d5e5b.json |  16 +
 ...08f9848e00da22002f923aa74e021c6d60361.json |  19 +
 ...82b3dc77d653da543824011f8e5ad9a23c2db.json |  16 -
 ...50829081421_extend_contents_table.down.sql |  16 +
 ...0250829081421_extend_contents_table.up.sql |  16 +
 src/entities/mod.rs                           |   6 +-
 src/jobs/handlers/fetch_page.rs               |   4 +-
 src/repositories/content.rs                   | 339 ++++++++++++++++++
 src/repositories/mod.rs                       |   2 +
 12 files changed, 514 insertions(+), 20 deletions(-)
 create mode 100644 .sqlx/query-122cfd654fa7fad49c02d104be1769fd1aeb69119a51fa95b328d0618e9402c3.json
 create mode 100644 .sqlx/query-1c569471caa1894d261162974bc00e9c31f7adfc29dd34c420b71e7986469753.json
 create mode 100644 .sqlx/query-478137677790770abacbcb6bf29515c10c19dc1ce8159dc3b085a958d33bea01.json
 create mode 100644 .sqlx/query-539f78138e8f32fc487a5814bbe028114900c24ad51ceecee9ee252ea58d5e5b.json
 create mode 100644 .sqlx/query-bd06bbdb54b71e6325a55ac793d08f9848e00da22002f923aa74e021c6d60361.json
 delete mode 100644 .sqlx/query-bf8c6f90d1f48123ebb78fdad9482b3dc77d653da543824011f8e5ad9a23c2db.json
 create mode 100644 migrations/20250829081421_extend_contents_table.down.sql
 create mode 100644 migrations/20250829081421_extend_contents_table.up.sql
 create mode 100644 src/repositories/content.rs

diff --git a/.sqlx/query-122cfd654fa7fad49c02d104be1769fd1aeb69119a51fa95b328d0618e9402c3.json b/.sqlx/query-122cfd654fa7fad49c02d104be1769fd1aeb69119a51fa95b328d0618e9402c3.json
new file mode 100644
index 0000000..f6524dd
--- /dev/null
+++ b/.sqlx/query-122cfd654fa7fad49c02d104be1769fd1aeb69119a51fa95b328d0618e9402c3.json
@@ -0,0 +1,22 @@
+{
+  "db_name": "PostgreSQL",
+  "query": "SELECT checksum FROM contents WHERE item_id = $1",
+  "describe": {
+    "columns": [
+      {
+        "ordinal": 0,
+        "name": "checksum",
+        "type_info": "Text"
+      }
+    ],
+    "parameters": {
+      "Left": [
+        "Uuid"
+      ]
+    },
+    "nullable": [
+      true
+    ]
+  },
+  "hash": "122cfd654fa7fad49c02d104be1769fd1aeb69119a51fa95b328d0618e9402c3"
+}
diff --git a/.sqlx/query-1c569471caa1894d261162974bc00e9c31f7adfc29dd34c420b71e7986469753.json b/.sqlx/query-1c569471caa1894d261162974bc00e9c31f7adfc29dd34c420b71e7986469753.json
new file mode 100644
index 0000000..2cd09b5
--- /dev/null
+++ b/.sqlx/query-1c569471caa1894d261162974bc00e9c31f7adfc29dd34c420b71e7986469753.json
@@ -0,0 +1,14 @@
+{
+  "db_name": "PostgreSQL",
+  "query": "DELETE FROM contents WHERE item_id = $1",
+  "describe": {
+    "columns": [],
+    "parameters": {
+      "Left": [
+        "Uuid"
+      ]
+    },
+    "nullable": []
+  },
+  "hash": "1c569471caa1894d261162974bc00e9c31f7adfc29dd34c420b71e7986469753"
+}
diff --git a/.sqlx/query-478137677790770abacbcb6bf29515c10c19dc1ce8159dc3b085a958d33bea01.json b/.sqlx/query-478137677790770abacbcb6bf29515c10c19dc1ce8159dc3b085a958d33bea01.json
new file mode 100644
index 0000000..13184b9
--- /dev/null
+++ b/.sqlx/query-478137677790770abacbcb6bf29515c10c19dc1ce8159dc3b085a958d33bea01.json
@@ -0,0 +1,64 @@
+{
+  "db_name": "PostgreSQL",
+  "query": "SELECT item_id, raw_html, raw_text, clean_html, clean_text, lang, extracted_at, checksum\n             FROM contents WHERE item_id = $1",
+  "describe": {
+    "columns": [
+      {
+        "ordinal": 0,
+        "name": "item_id",
+        "type_info": "Uuid"
+      },
+      {
+        "ordinal": 1,
+        "name": "raw_html",
+        "type_info": "Text"
+      },
+      {
+        "ordinal": 2,
+        "name": "raw_text",
+        "type_info": "Text"
+      },
+      {
+        "ordinal": 3,
+        "name": "clean_html",
+        "type_info": "Text"
+      },
+      {
+        "ordinal": 4,
+        "name": "clean_text",
+        "type_info": "Text"
+      },
+      {
+        "ordinal": 5,
+        "name": "lang",
+        "type_info": "Varchar"
+      },
+      {
+        "ordinal": 6,
+        "name": "extracted_at",
+        "type_info": "Timestamptz"
+      },
+      {
+        "ordinal": 7,
+        "name": "checksum",
+        "type_info": "Text"
+      }
+    ],
+    "parameters": {
+      "Left": [
+        "Uuid"
+      ]
+    },
+    "nullable": [
+      false,
+      true,
+      true,
+      true,
+      true,
+      true,
+      true,
+      true
+    ]
+  },
+  "hash": "478137677790770abacbcb6bf29515c10c19dc1ce8159dc3b085a958d33bea01"
+}
diff --git a/.sqlx/query-539f78138e8f32fc487a5814bbe028114900c24ad51ceecee9ee252ea58d5e5b.json b/.sqlx/query-539f78138e8f32fc487a5814bbe028114900c24ad51ceecee9ee252ea58d5e5b.json
new file mode 100644
index 0000000..d991fe3
--- /dev/null
+++ b/.sqlx/query-539f78138e8f32fc487a5814bbe028114900c24ad51ceecee9ee252ea58d5e5b.json
@@ -0,0 +1,16 @@
+{
+  "db_name": "PostgreSQL",
+  "query": "\n                    INSERT INTO contents (item_id, raw_html, raw_text, lang, extracted_at, checksum)\n                    VALUES ($1, $2, NULL, NULL, NOW(), $3)\n                    ON CONFLICT (item_id) \n                    DO UPDATE SET \n                        raw_html = EXCLUDED.raw_html,\n                        extracted_at = EXCLUDED.extracted_at,\n                        checksum = EXCLUDED.checksum\n                    ",
+  "describe": {
+    "columns": [],
+    "parameters": {
+      "Left": [
+        "Uuid",
+        "Text",
+        "Text"
+      ]
+    },
+    "nullable": []
+  },
+  "hash": "539f78138e8f32fc487a5814bbe028114900c24ad51ceecee9ee252ea58d5e5b"
+}
diff --git a/.sqlx/query-bd06bbdb54b71e6325a55ac793d08f9848e00da22002f923aa74e021c6d60361.json b/.sqlx/query-bd06bbdb54b71e6325a55ac793d08f9848e00da22002f923aa74e021c6d60361.json
new file mode 100644
index 0000000..230a1c5
--- /dev/null
+++ b/.sqlx/query-bd06bbdb54b71e6325a55ac793d08f9848e00da22002f923aa74e021c6d60361.json
@@ -0,0 +1,19 @@
+{
+  "db_name": "PostgreSQL",
+  "query": "\n            INSERT INTO contents\n                  (item_id, clean_html, clean_text, lang, extracted_at, checksum)\n            VALUES ($1,       $2,         $3,         $4,   $5,          $6)\n            ON CONFLICT (item_id) DO UPDATE\n              SET clean_html   = EXCLUDED.clean_html,\n                  clean_text   = EXCLUDED.clean_text,\n                  lang         = EXCLUDED.lang,\n                  extracted_at = EXCLUDED.extracted_at,\n                  checksum     = EXCLUDED.checksum\n            ",
+  "describe": {
+    "columns": [],
+    "parameters": {
+      "Left": [
+        "Uuid",
+        "Text",
+        "Text",
+        "Varchar",
+        "Timestamptz",
+        "Text"
+      ]
+    },
+    "nullable": []
+  },
+  "hash": "bd06bbdb54b71e6325a55ac793d08f9848e00da22002f923aa74e021c6d60361"
+}
diff --git a/.sqlx/query-bf8c6f90d1f48123ebb78fdad9482b3dc77d653da543824011f8e5ad9a23c2db.json b/.sqlx/query-bf8c6f90d1f48123ebb78fdad9482b3dc77d653da543824011f8e5ad9a23c2db.json
deleted file mode 100644
index 113800d..0000000
--- a/.sqlx/query-bf8c6f90d1f48123ebb78fdad9482b3dc77d653da543824011f8e5ad9a23c2db.json
+++ /dev/null
@@ -1,16 +0,0 @@
-{
-  "db_name": "PostgreSQL",
-  "query": "\n                    INSERT INTO contents (item_id, html, text, lang, extracted_at, checksum)\n                    VALUES ($1, $2, NULL, NULL, NOW(), $3)\n                    ON CONFLICT (item_id) \n                    DO UPDATE SET \n                        html = EXCLUDED.html,\n                        extracted_at = EXCLUDED.extracted_at,\n                        checksum = EXCLUDED.checksum\n                    ",
-  "describe": {
-    "columns": [],
-    "parameters": {
-      "Left": [
-        "Uuid",
-        "Text",
-        "Text"
-      ]
-    },
-    "nullable": []
-  },
-  "hash": "bf8c6f90d1f48123ebb78fdad9482b3dc77d653da543824011f8e5ad9a23c2db"
-}
diff --git a/migrations/20250829081421_extend_contents_table.down.sql b/migrations/20250829081421_extend_contents_table.down.sql
new file mode 100644
index 0000000..7e9d353
--- /dev/null
+++ b/migrations/20250829081421_extend_contents_table.down.sql
@@ -0,0 +1,16 @@
+-- Add down migration script here
+-- Reverse the contents table extension
+
+-- Drop the indexes we created
+DROP INDEX IF EXISTS contents_clean_text_gin;
+DROP INDEX IF EXISTS contents_item_id_checksum_uq;
+
+-- Remove the new columns
+ALTER TABLE contents
+  DROP COLUMN clean_html,
+  DROP COLUMN clean_text;
+
+-- Restore original column names
+ALTER TABLE contents
+  RENAME COLUMN raw_html TO html,
+  RENAME COLUMN raw_text TO text;
diff --git a/migrations/20250829081421_extend_contents_table.up.sql b/migrations/20250829081421_extend_contents_table.up.sql
new file mode 100644
index 0000000..60126f0
--- /dev/null
+++ b/migrations/20250829081421_extend_contents_table.up.sql
@@ -0,0 +1,16 @@
+-- Add up migration script here
+-- Extend contents table to support cleaned content persistence
+
+-- Add columns for cleaned versions while preserving original data
+ALTER TABLE contents RENAME COLUMN html TO raw_html;
+ALTER TABLE contents RENAME COLUMN text TO raw_text;
+
+ALTER TABLE contents ADD COLUMN clean_html TEXT;
+ALTER TABLE contents ADD COLUMN clean_text TEXT;
+
+-- Create composite unique index to prevent duplicate writes when content hasn't changed
+-- Note: checksum column already exists from original schema
+CREATE UNIQUE INDEX contents_item_id_checksum_uq ON contents(item_id, checksum) WHERE checksum IS NOT NULL;
+
+-- Optional: Add GIN index on clean_text for future full-text search capabilities
+CREATE INDEX contents_clean_text_gin ON contents USING GIN (to_tsvector('simple', clean_text)) WHERE clean_text IS NOT NULL;
diff --git a/src/entities/mod.rs b/src/entities/mod.rs
index ecdb15f..11560f0 100644
--- a/src/entities/mod.rs
+++ b/src/entities/mod.rs
@@ -49,8 +49,10 @@ pub struct Item {
 #[derive(Debug, Clone, FromRow)]
 pub struct Content {
     pub item_id: Uuid, // PK and FK -> items.id
-    pub html: Option<String>,
-    pub text: Option<String>,
+    pub raw_html: Option<String>,
+    pub raw_text: Option<String>,
+    pub clean_html: Option<String>,
+    pub clean_text: Option<String>,
     pub lang: Option<String>,
     pub extracted_at: Option<DateTime<Utc>>,
     pub checksum: Option<String>,
diff --git a/src/jobs/handlers/fetch_page.rs b/src/jobs/handlers/fetch_page.rs
index 09ffd2d..cf1cda0 100644
--- a/src/jobs/handlers/fetch_page.rs
+++ b/src/jobs/handlers/fetch_page.rs
@@ -61,11 +61,11 @@ impl JobHandler for FetchPageJobHandler {
                 // Insert the content
                 sqlx::query!(
                     r#"
-                    INSERT INTO contents (item_id, html, text, lang, extracted_at, checksum)
+                    INSERT INTO contents (item_id, raw_html, raw_text, lang, extracted_at, checksum)
                     VALUES ($1, $2, NULL, NULL, NOW(), $3)
                     ON CONFLICT (item_id) 
                     DO UPDATE SET 
-                        html = EXCLUDED.html,
+                        raw_html = EXCLUDED.raw_html,
                         extracted_at = EXCLUDED.extracted_at,
                         checksum = EXCLUDED.checksum
                     "#,
diff --git a/src/repositories/content.rs b/src/repositories/content.rs
new file mode 100644
index 0000000..ba9b9d4
--- /dev/null
+++ b/src/repositories/content.rs
@@ -0,0 +1,339 @@
+use crate::entities::Content;
+use anyhow::Result;
+use chrono::{DateTime, Utc};
+use md5::Context;
+use sqlx::PgPool;
+use uuid::Uuid;
+
+/// Repository for managing content persistence with checksum-based deduplication
+pub struct ContentRepository<'a> {
+    pool: &'a PgPool,
+}
+
+impl<'a> ContentRepository<'a> {
+    pub fn new(pool: &'a PgPool) -> Self {
+        Self { pool }
+    }
+
+    /// Upsert content using checksum to avoid unnecessary writes when content hasn't changed.
+    /// Large payloads are handled efficiently by streaming to the database.
+    pub async fn upsert_content(
+        &self,
+        item_id: Uuid,
+        clean_html: &str,
+        clean_text: &str,
+        lang: Option<&str>,
+        extracted_at: DateTime<Utc>,
+    ) -> Result<()> {
+        // Compute checksum from normalized content
+        let checksum = self.compute_checksum(clean_html, clean_text);
+
+        // Early return if content hasn't changed (checksum match)
+        if let Some(existing_checksum) = self.get_existing_checksum(item_id).await?
+            && existing_checksum == checksum
+        {
+            return Ok(()); // No-op when content is identical
+        }
+
+        // Upsert content with new data
+        sqlx::query!(
+            r#"
+            INSERT INTO contents
+                  (item_id, clean_html, clean_text, lang, extracted_at, checksum)
+            VALUES ($1,       $2,         $3,         $4,   $5,          $6)
+            ON CONFLICT (item_id) DO UPDATE
+              SET clean_html   = EXCLUDED.clean_html,
+                  clean_text   = EXCLUDED.clean_text,
+                  lang         = EXCLUDED.lang,
+                  extracted_at = EXCLUDED.extracted_at,
+                  checksum     = EXCLUDED.checksum
+            "#,
+            item_id,
+            clean_html,
+            clean_text,
+            lang,
+            extracted_at,
+            checksum,
+        )
+        .execute(self.pool)
+        .await?;
+
+        Ok(())
+    }
+
+    /// Get content by item ID
+    pub async fn get_content(&self, item_id: Uuid) -> Result<Option<Content>> {
+        let content = sqlx::query_as!(
+            Content,
+            "SELECT item_id, raw_html, raw_text, clean_html, clean_text, lang, extracted_at, checksum
+             FROM contents WHERE item_id = $1",
+            item_id
+        )
+        .fetch_optional(self.pool)
+        .await?;
+
+        Ok(content)
+    }
+
+    /// Delete content by item ID
+    pub async fn delete_content(&self, item_id: Uuid) -> Result<bool> {
+        let result = sqlx::query!("DELETE FROM contents WHERE item_id = $1", item_id)
+            .execute(self.pool)
+            .await?;
+
+        Ok(result.rows_affected() > 0)
+    }
+
+    /// Compute MD5 checksum from normalized content
+    fn compute_checksum(&self, clean_html: &str, clean_text: &str) -> String {
+        let mut hasher = Context::new();
+        hasher.consume(clean_html.as_bytes());
+        hasher.consume(clean_text.as_bytes());
+        format!("{:x}", hasher.compute())
+    }
+
+    /// Get existing checksum for content deduplication check
+    async fn get_existing_checksum(&self, item_id: Uuid) -> Result<Option<String>> {
+        let checksum =
+            sqlx::query_scalar!("SELECT checksum FROM contents WHERE item_id = $1", item_id)
+                .fetch_optional(self.pool)
+                .await?;
+
+        Ok(checksum.flatten())
+    }
+}
+
+#[cfg(test)]
+mod tests {
+    use super::*;
+    use chrono::Utc;
+    use sqlx::PgPool;
+    use uuid::Uuid;
+
+    async fn setup_test_db() -> Option<PgPool> {
+        // Skip tests if TEST_DATABASE_URL is not set
+        let database_url = match std::env::var("TEST_DATABASE_URL") {
+            Ok(url) => url,
+            Err(_) => {
+                eprintln!("Skipping database tests: TEST_DATABASE_URL not set");
+                return None;
+            }
+        };
+
+        let pool = PgPool::connect(&database_url)
+            .await
+            .expect("Failed to connect to test database");
+
+        // Run migrations
+        sqlx::migrate!("./migrations")
+            .run(&pool)
+            .await
+            .expect("Failed to run migrations");
+
+        Some(pool)
+    }
+
+    async fn insert_test_user(pool: &PgPool) -> Uuid {
+        let user_id = Uuid::new_v4();
+        sqlx::query!(
+            "INSERT INTO users (id, email, pw_hash) VALUES ($1, $2, $3)",
+            user_id,
+            "test@example.com",
+            "dummy_hash"
+        )
+        .execute(pool)
+        .await
+        .expect("Failed to insert test user");
+        user_id
+    }
+
+    async fn insert_test_item(pool: &PgPool, user_id: Uuid) -> Uuid {
+        let item_id = Uuid::new_v4();
+        sqlx::query!(
+            "INSERT INTO items (id, user_id, url) VALUES ($1, $2, $3)",
+            item_id,
+            user_id,
+            "https://example.com"
+        )
+        .execute(pool)
+        .await
+        .expect("Failed to insert test item");
+        item_id
+    }
+
+    #[tokio::test]
+    async fn test_upsert_content_insert() {
+        let Some(pool) = setup_test_db().await else {
+            return; // Skip test if database not available
+        };
+        let repo = ContentRepository::new(&pool);
+        let user_id = insert_test_user(&pool).await;
+        let item_id = insert_test_item(&pool, user_id).await;
+
+        let clean_html = "<p>Test content</p>";
+        let clean_text = "Test content";
+        let lang = Some("en");
+        let extracted_at = Utc::now();
+
+        repo.upsert_content(item_id, clean_html, clean_text, lang, extracted_at)
+            .await
+            .expect("Failed to upsert content");
+
+        let content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(content.is_some());
+        let content = content.unwrap();
+        assert_eq!(content.clean_html.as_deref(), Some(clean_html));
+        assert_eq!(content.clean_text.as_deref(), Some(clean_text));
+        assert_eq!(content.lang.as_deref(), lang);
+        assert!(content.checksum.is_some());
+    }
+
+    #[tokio::test]
+    async fn test_upsert_content_update() {
+        let Some(pool) = setup_test_db().await else {
+            return; // Skip test if database not available
+        };
+        let repo = ContentRepository::new(&pool);
+        let user_id = insert_test_user(&pool).await;
+        let item_id = insert_test_item(&pool, user_id).await;
+
+        // First insert
+        let clean_html1 = "<p>Original content</p>";
+        let clean_text1 = "Original content";
+        repo.upsert_content(item_id, clean_html1, clean_text1, Some("en"), Utc::now())
+            .await
+            .expect("Failed to insert content");
+
+        let original_checksum = repo
+            .get_existing_checksum(item_id)
+            .await
+            .expect("Failed to get checksum")
+            .expect("Checksum should exist");
+
+        // Update with different content
+        let clean_html2 = "<p>Updated content</p>";
+        let clean_text2 = "Updated content";
+        repo.upsert_content(item_id, clean_html2, clean_text2, Some("en"), Utc::now())
+            .await
+            .expect("Failed to update content");
+
+        let content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(content.is_some());
+        let content = content.unwrap();
+        assert_eq!(content.clean_html.as_deref(), Some(clean_html2));
+        assert_eq!(content.clean_text.as_deref(), Some(clean_text2));
+
+        // Checksum should be different
+        let new_checksum = content.checksum.expect("Checksum should exist");
+        assert_ne!(original_checksum, new_checksum);
+    }
+
+    #[tokio::test]
+    async fn test_upsert_content_noop_when_same_checksum() {
+        let Some(pool) = setup_test_db().await else {
+            return; // Skip test if database not available
+        };
+        let repo = ContentRepository::new(&pool);
+        let user_id = insert_test_user(&pool).await;
+        let item_id = insert_test_item(&pool, user_id).await;
+
+        let clean_html = "<p>Same content</p>";
+        let clean_text = "Same content";
+        let first_extracted_at = Utc::now();
+
+        // First insert
+        repo.upsert_content(
+            item_id,
+            clean_html,
+            clean_text,
+            Some("en"),
+            first_extracted_at,
+        )
+        .await
+        .expect("Failed to insert content");
+
+        let first_content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(first_content.is_some());
+        let first_checksum = first_content.as_ref().unwrap().checksum.clone();
+
+        // Second insert with same content but different timestamp
+        let second_extracted_at = Utc::now();
+        repo.upsert_content(
+            item_id,
+            clean_html,
+            clean_text,
+            Some("en"),
+            second_extracted_at,
+        )
+        .await
+        .expect("Failed to upsert content");
+
+        let second_content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(second_content.is_some());
+
+        // Content should remain unchanged (no-op due to same checksum)
+        let second_checksum = second_content.as_ref().unwrap().checksum.clone();
+        assert_eq!(first_checksum, second_checksum);
+
+        // extracted_at should remain the original value (proving no-op occurred)
+        assert_eq!(
+            first_content.unwrap().extracted_at,
+            second_content.unwrap().extracted_at
+        );
+    }
+
+    #[tokio::test]
+    async fn test_delete_content() {
+        let Some(pool) = setup_test_db().await else {
+            return; // Skip test if database not available
+        };
+        let repo = ContentRepository::new(&pool);
+        let user_id = insert_test_user(&pool).await;
+        let item_id = insert_test_item(&pool, user_id).await;
+
+        // Insert content first
+        repo.upsert_content(item_id, "<p>Test</p>", "Test", Some("en"), Utc::now())
+            .await
+            .expect("Failed to insert content");
+
+        // Verify it exists
+        let content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(content.is_some());
+
+        // Delete it
+        let deleted = repo
+            .delete_content(item_id)
+            .await
+            .expect("Failed to delete content");
+        assert!(deleted);
+
+        // Verify it's gone
+        let content = repo
+            .get_content(item_id)
+            .await
+            .expect("Failed to get content");
+        assert!(content.is_none());
+
+        // Delete non-existent content should return false
+        let deleted = repo
+            .delete_content(item_id)
+            .await
+            .expect("Failed to delete content");
+        assert!(!deleted);
+    }
+}
diff --git a/src/repositories/mod.rs b/src/repositories/mod.rs
index ca3129a..644d21f 100644
--- a/src/repositories/mod.rs
+++ b/src/repositories/mod.rs
@@ -1,3 +1,5 @@
+pub mod content;
 pub mod user;
 
+pub use content::ContentRepository;
 pub use user::{UserRepository, UserRepositoryTrait};