Code-You-Contributors
diff --git a/‎.github/workflows/lint.yml‎
Lines changed: 16 additions & 0 deletions b/‎.github/workflows/lint.yml‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎.github/workflows/tests.yml‎
Lines changed: 16 additions & 0 deletions b/‎.github/workflows/tests.yml‎
Lines changed: 16 additions & 0 deletions
diff --git a/‎.github/workflows/validate_notebooks.yml‎
Lines changed: 41 additions & 0 deletions b/‎.github/workflows/validate_notebooks.yml‎
Lines changed: 41 additions & 0 deletions
diff --git a/‎.gitignore‎
Lines changed: 8 additions & 5 deletions b/‎.gitignore‎
Lines changed: 8 additions & 5 deletions
diff --git a/‎data/ARC_Application.xlsx‎
276 KB b/‎data/ARC_Application.xlsx‎
276 KB
diff --git a/‎data/ARC_Enrollments.xlsx‎
118 KB b/‎data/ARC_Enrollments.xlsx‎
118 KB
diff --git a/‎data/All_demographics_and_programs.xlsx‎
903 KB b/‎data/All_demographics_and_programs.xlsx‎
903 KB
diff --git a/‎requirements.txt‎
2.13 KB b/‎requirements.txt‎
2.13 KB
diff --git a/‎src/Carmen_WORCEmployment.py‎
Lines changed: 33 additions & 0 deletions b/‎src/Carmen_WORCEmployment.py‎
Lines changed: 33 additions & 0 deletions
diff --git a/‎src/Carmen_WORCEmployment_Plots.py‎
Lines changed: 66 additions & 0 deletions b/‎src/Carmen_WORCEmployment_Plots.py‎
Lines changed: 66 additions & 0 deletions
@@ -0,0 +1,16 @@
+name: Lint
+on: [push, pull_request]
+jobs:
+  lint:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+      - uses: actions/setup-python@v5
+        with:
+          python-version: '3.10'
+      - name: Install dependencies
+        run: pip install ruff
+      - name: Run ruff
+        run: ruff check .
+
+        
@@ -0,0 +1,16 @@
+name: Test
+
+on: [push, pull_request]
+
+jobs:
+  test:
+    runs-on: ubuntu-latest
+    steps:
+      - uses: actions/checkout@v4
+      - uses: actions/setup-python@v5
+        with:
+          python-version: '3.10'
+      - name: Install dependencies
+        run: pip install -r requirements.txt
+      - name: Run tests with pytest
+        run: pytest
@@ -0,0 +1,41 @@
+name: Validate Notebooks
+
+on:
+  push:
+    paths:
+      - '**.ipynb'
+
+jobs:
+  validate:
+    runs-on: ubuntu-latest
+    steps:
+      - name: Checkout Code
+        uses: actions/checkout@v4
+        with:
+          # Required to fetch the history for 'tj-actions/changed-files'
+          fetch-depth: 0 
+
+      - name: Get changed notebooks
+        id: changed-notebooks
+        uses: tj-actions/changed-files@v44
+        with:
+          files: |
+            **.ipynb
+
+      - name: Setup Python and Dependencies
+        if: steps.changed-notebooks.outputs.any_changed == 'true'
+        uses: actions/setup-python@v5
+        with:
+          python-version: '3.10'
+
+      - name: Install dependencies
+        if: steps.changed-notebooks.outputs.any_changed == 'true'
+        run: pip install -r requirements.txt
+
+      - name: Run changed notebooks
+        if: steps.changed-notebooks.outputs.any_changed == 'true'
+        run: |
+          for notebook in ${{ steps.changed-notebooks.outputs.all_changed_files }}; do
+            echo "--- Validating ${notebook} ---"
+            jupyter nbconvert --to script --execute "${notebook}"
+          done
@@ -1,8 +1,3 @@
-# Personal
-Data/
-Tests/
-tester_2.ipynb
-
 # Byte-compiled / optimized / DLL files
 __pycache__/
 *.py[codz]
@@ -210,3 +205,11 @@ cython_debug/
 marimo/_static/
 marimo/_lsp/
 __marimo__/
+
+.DS_Store
+
+data/WORC Employment.xlsx
+data/ARC Enrollments.xlsx
+data/ARC Application.xlsx
+data/All demographics and programs.xlsx
+data/WORC_Employment.xlsx
@@ -0,0 +1,33 @@
+import pandas as pd
+
+
+def load_and_clean(file_path="data/WORC_Employment.xlsx"):
+    """
+    Loads and cleans the WORC Employment dataset.
+    
+    Parameter:
+        file_path (str): Relative path to the Excel file.
+
+    Returns:
+        pd.DataFrame: Cleaned DataFrame.
+    """
+    # Load data
+    worc = pd.read_excel(file_path)
+
+    # Drop columns we don't need
+    cols_to_drop = ['Employment History Name']
+    worc_cols_dropped = worc.drop(columns=cols_to_drop, axis=1)
+
+    # Clean up data types
+    worc_cols_dropped['Start Date'] = pd.to_datetime(worc_cols_dropped['Start Date']) # noqa
+    worc_cols_dropped['Salary'] = pd.to_numeric(worc_cols_dropped['Salary'],
+                                                errors='coerce')
+
+    # Adjust salary that is listed as 60,000 to 28.84 for
+    # consistency with other salaries
+    # Took 60,000 / 2080hrs - 28.84
+    worc_cols_dropped['Salary'] = worc_cols_dropped['Salary'].replace(60000, 28.84) # noqa
+
+    worc_clean = worc_cols_dropped
+    
+    return worc_clean
@@ -0,0 +1,66 @@
+import pandas as pd
+from Carmen_WORCEmployment import load_and_clean
+import matplotlib.pyplot as plt
+import seaborn as sns
+
+
+def plot_salary_by_gender(data):
+    plt.figure(figsize=(8, 5))
+    sns.boxplot(data=data,
+                x='Gender',
+                y='Salary')
+    plt.title("Salary Distribution by Gender")
+    plt.show()
+
+
+def plot_avg_salary_by_city(data):
+    region_salary = data.groupby('Mailing City')['Salary'].mean().sort_values()
+    region_salary.plot(kind='barh',
+                       figsize=(8, 5),
+                       title="Average Salary by KY Region")
+    plt.xlabel("Average Salary")
+    plt.show()
+
+
+def plot_placements_over_time(data):
+    data.set_index('Start Date').resample('M').size().plot(kind='line',
+                                                           marker='o',
+                                                           figsize=(10, 4))
+    plt.title("Number of Placements Over Time")
+    plt.ylabel("Placements")
+    plt.show()
+
+
+def plot_placement_type_by_program(data):
+    plt.figure(figsize=(10, 6))
+    sns.countplot(data=data,
+                  x='ATP Placement Type',
+                  hue='Program: Program Name')
+    plt.xticks(rotation=45)
+    plt.title("Placement Type by Program")
+    plt.show()
+
+
+def plot_top_cities(data):
+    city_counts = data['Mailing City'].value_counts().head(10)
+    city_counts.plot(kind='bar',
+                     title='Top Cities by Participant Count',
+                     figsize=(8, 4))
+    plt.ylabel("Count")
+    plt.show()
+
+
+def main():
+    worc_clean = load_and_clean()
+
+    plot_salary_by_gender(worc_clean)
+    plot_avg_salary_by_city(worc_clean)
+    plot_placements_over_time(worc_clean)
+    plot_placement_type_by_program(worc_clean)
+    plot_top_cities(worc_clean)
+
+
+if __name__ == "__main__":
+    data = pd.read_excel('data/WORC_Employment.xlsx')
+    worc_clean = load_and_clean()
+    main()