📊 Comprehensive Dataset Collection

A curated collection of diverse datasets for data science, machine learning, and analytics projects

🎯 Overview

This repository contains a comprehensive collection of 15+ datasets spanning various domains including healthcare, entertainment, transportation, demographics, and more. Each dataset is carefully organized and ready for analysis, making it perfect for:

🔬 Data Science Projects
🤖 Machine Learning Experiments
📈 Statistical Analysis
🎓 Educational Purposes
💼 Business Analytics

📊 Dataset Categories

Category	Count	Description
🏥 Healthcare	4	Medical data, diabetes, health camps
🚗 Transportation	3	Cars, traffic, police data
🏠 Real Estate	1	Housing market data
🌍 Demographics	2	Census, population data
📚 Education	3	Udemy courses, student performance
🎬 Entertainment	2	Netflix content, trending data
🦠 Pandemic	1	COVID-19 statistics
🌸 Science	1	Iris flower classification
⚓ Historical	1	Titanic passenger data
💼 Business	1	Employee attrition data

🔥 Featured Datasets

🏥 Healthcare Analytics

Diabetes Dataset - Comprehensive health metrics for diabetes prediction
Health Camp Data - Multi-camp attendance and patient profiles

🚗 Transportation Intelligence

Car Dataset - Vehicle specifications and market analysis
Police Data - Traffic incidents and law enforcement statistics

🎬 Entertainment Insights

Netflix Dataset - Content analysis and viewing patterns
Trending Data - Social media and content trends

📁 Dataset Details

🩺 Health & Medical Datasets

1. Diabetes Dataset (`diabetes.csv`)

Size: 100,000+ records
Features: Gender, Age, Hypertension, Heart Disease, BMI, HbA1c Level, Blood Glucose
Target: Diabetes prediction (Binary classification)
Use Cases: Predictive modeling, health risk assessment

2. Health Camp Dataset (`Health_Care_Dataset/`)

Components: Patient profiles, camp details, attendance records
Size: Multiple files with 10,000+ records
Features: Demographics, health metrics, camp participation
Use Cases: Healthcare analytics, patient behavior analysis

🚗 Transportation & Mobility

3. Cars Dataset (`Project_2_Cars_Dataset.csv`)

Features: Make, model, year, price, specifications
Use Cases: Price prediction, market analysis, feature comparison

4. Police Data (`Project_3_Police Data.csv`)

Content: Incident reports, traffic violations, enforcement data
Use Cases: Crime analysis, traffic pattern studies

🏠 Real Estate & Demographics

5. Housing Data (`Project_5_Housing_Data.csv`)

Features: Property details, prices, location metrics
Use Cases: Price prediction, market trends, investment analysis

6. Census 2011 (`Project_6_Census_2011.csv`)

Content: Demographic statistics, population distribution
Use Cases: Demographic analysis, policy planning

🎓 Education & Learning

7. Udemy Dataset (`Project_7_Udemy_Dataset.csv`)

Features: Course details, ratings, pricing, enrollment
Use Cases: Course recommendation, pricing strategy

8. Student Performance (`student-pass-fail-data.csv`)

Content: Academic performance metrics
Use Cases: Educational analytics, performance prediction

🎬 Entertainment & Media

9. Netflix Dataset (`Project_8_Netflix_Dataset.csv`)

Features: Content type, ratings, release dates, genres
Use Cases: Content analysis, recommendation systems

10. Trending Data (`Trending/trending.csv`)

Content: Social media trends, viral content metrics
Use Cases: Trend analysis, social media insights

🔬 Classic ML Datasets

11. Iris Dataset (`IRIS.csv`)

Size: 150 records
Features: Sepal/Petal dimensions
Target: Species classification (3 classes)
Use Cases: Classification tutorials, algorithm comparison

12. Titanic Dataset (`Titanic_dataset.csv`)

Size: 400+ records
Features: Passenger details, ticket info, survival status
Use Cases: Survival prediction, feature engineering

🚀 Quick Start

Prerequisites

pip install pandas numpy matplotlib seaborn scikit-learn

Basic Usage

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Load any dataset
df = pd.read_csv('diabetes.csv')

# Quick overview
print(df.info())
print(df.describe())
print(df.head())

💡 Usage Examples

🔍 Exploratory Data Analysis

# Diabetes Dataset Analysis
diabetes_df = pd.read_csv('diabetes.csv')

# Distribution of diabetes cases
plt.figure(figsize=(10, 6))
sns.countplot(data=diabetes_df, x='diabetes')
plt.title('Distribution of Diabetes Cases')
plt.show()

# Correlation heatmap
plt.figure(figsize=(12, 8))
sns.heatmap(diabetes_df.corr(), annot=True, cmap='coolwarm')
plt.title('Feature Correlation Matrix')
plt.show()

🤖 Machine Learning Pipeline

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

# Prepare data
X = diabetes_df.drop(['diabetes'], axis=1)
y = diabetes_df['diabetes']

# Handle categorical variables
X_encoded = pd.get_dummies(X, drop_first=True)

# Split data
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, test_size=0.2, random_state=42
)

# Train model
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Evaluate
y_pred = rf_model.predict(X_test)
print(classification_report(y_test, y_pred))

📊 Data Visualization

# Netflix content analysis
netflix_df = pd.read_csv('Project_8_Netflix_Dataset.csv')

# Content type distribution
plt.figure(figsize=(10, 6))
netflix_df['type'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title('Netflix Content Distribution')
plt.show()

# Release year trends
plt.figure(figsize=(12, 6))
netflix_df['release_year'].hist(bins=30, edgecolor='black')
plt.title('Netflix Content Release Year Distribution')
plt.xlabel('Release Year')
plt.ylabel('Number of Titles')
plt.show()

📈 Data Insights

🎯 Key Statistics

Dataset	Records	Features	Missing Values	Target Variable
Diabetes	100,000+	9	Minimal	Binary
Iris	150	5	None	Multi-class
Titanic	400+	12	Moderate	Binary
Netflix	Varies	10+	Low	None

📊 Data Quality Overview

# Data quality assessment function
def assess_data_quality(df, dataset_name):
    print(f"\n=== {dataset_name} Quality Assessment ===")
    print(f"Shape: {df.shape}")
    print(f"Missing values: {df.isnull().sum().sum()}")
    print(f"Duplicate rows: {df.duplicated().sum()}")
    print(f"Data types: {df.dtypes.nunique()} unique types")
    return df.info()

🛠️ Tools & Libraries

Recommended Stack

Data Manipulation: pandas, numpy
Visualization: matplotlib, seaborn, plotly
Machine Learning: scikit-learn, tensorflow, pytorch
Statistical Analysis: scipy, statsmodels
Jupyter Environment: jupyter notebook, jupyter lab

Installation Guide

# Essential packages
pip install pandas numpy matplotlib seaborn

# Machine Learning
pip install scikit-learn tensorflow

# Advanced visualization
pip install plotly dash

# Statistical analysis
pip install scipy statsmodels

# Jupyter environment
pip install jupyter jupyterlab

📊 Project Structure

📁 Datasets/
├── 📄 README.md                    # This comprehensive guide
├── 🩺 diabetes.csv                 # Primary diabetes dataset
├── 🩺 diabetes1.csv                # Secondary diabetes data
├── 🌸 IRIS.csv                     # Classic iris classification
├── ⚓ Titanic_dataset.csv          # Historical passenger data
├── 🧪 testdata.csv                 # Testing dataset
├── 📊 CleaneD_testdata_File.csv    # Cleaned test data
├── 🎓 student-pass-fail-data.csv   # Academic performance
├── 📁 Health_Care_Dataset/         # Comprehensive health data
│   ├── 👥 Patient_Profile.csv
│   ├── 🏥 Health_Camp_Detail.csv
│   ├── 📊 *_Health_Camp_Attended.csv
│   └── 📁 Cleaned_Data/
├── 📁 Trending/                    # Social media trends
├── 📁 Udmey Data/                  # Educational platform data
└── 📊 Project_*_*.csv              # Thematic project datasets

🎯 Use Case Examples

🏥 Healthcare Analytics

# Diabetes risk assessment model
def diabetes_risk_model():
    df = pd.read_csv('diabetes.csv')
    # Feature engineering and model training
    return trained_model

# Health camp effectiveness analysis
def analyze_health_camps():
    camp_data = pd.read_csv('Health_Care_Dataset/Health_Camp_Detail.csv')
    attendance = pd.read_csv('Health_Care_Dataset/First_Health_Camp_Attended.csv')
    # Analysis code here

🚗 Transportation Intelligence

# Car price prediction
def predict_car_price():
    cars_df = pd.read_csv('Project_2_Cars_Dataset.csv')
    # Price prediction model

# Traffic pattern analysis
def analyze_police_data():
    police_df = pd.read_csv('Project_3_Police Data.csv')
    # Traffic and crime pattern analysis

🎬 Entertainment Insights

# Netflix content recommendation
def netflix_recommender():
    netflix_df = pd.read_csv('Project_8_Netflix_Dataset.csv')
    # Recommendation algorithm

# Trending content predictor
def predict_trending():
    trends_df = pd.read_csv('Trending/trending.csv')
    # Trend prediction model

🔄 Data Processing Workflows

Standard Pipeline

class DataProcessor:
    def __init__(self, dataset_path):
        self.df = pd.read_csv(dataset_path)

    def clean_data(self):
        # Remove duplicates
        self.df = self.df.drop_duplicates()

        # Handle missing values
        self.df = self.df.fillna(self.df.mean(numeric_only=True))

        return self

    def feature_engineering(self):
        # Create new features
        # Encode categorical variables
        return self

    def split_data(self, target_column):
        # Train-test split logic
        return X_train, X_test, y_train, y_test

📝 Contributing

We welcome contributions! Here's how you can help:

🤝 How to Contribute

Fork the repository
Create a feature branch: git checkout -b feature/new-dataset
Add your dataset with proper documentation
Commit changes: git commit -am 'Add new healthcare dataset'
Push to branch: git push origin feature/new-dataset
Submit a Pull Request

📋 Contribution Guidelines

Include dataset description and source
Provide data dictionary/schema
Add usage examples
Ensure data quality and cleanliness
Follow naming conventions

📜 Dataset Sources & Credits

Diabetes Dataset: Healthcare research compilation
Iris Dataset: R.A. Fisher's classic botanical study
Titanic Dataset: Historical maritime records
Netflix Dataset: Public streaming platform data
Health Camp Dataset: Medical outreach program data

⚖️ License & Usage

This dataset collection is available under Open Source License.

Usage Terms:

✅ Free for educational and research purposes
✅ Free for commercial use with attribution
✅ Modification and redistribution allowed
❌ No warranty provided

Attribution:

When using these datasets, please cite:

Dataset Collection by itsluckysharma01
GitHub: https://github.com/itsluckysharma01/Datasets

🎉 Getting Started Today!

Quick Start Checklist

Need Help?

📧 Email: [Your Contact]
💬 Issues: Open a GitHub issue
📖 Wiki: Check our documentation

🌟 Star this repository if you find it useful!

Happy Data Science! 🚀📊

Last updated: September 2025

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
Health_Care_Dataset		Health_Care_Dataset
Trending		Trending
Udmey Data		Udmey Data
Amazone_credits.csv		Amazone_credits.csv
Amazone_titles.csv		Amazone_titles.csv
CleaneD_testdata_File.csv		CleaneD_testdata_File.csv
HBO_credits.csv		HBO_credits.csv
HBO_titles.csv		HBO_titles.csv
House_Price_India.csv		House_Price_India.csv
IRIS.csv		IRIS.csv
LICENSE		LICENSE
MFG10YearTerminationData(EMPLOYEE-ATTRITION).csv		MFG10YearTerminationData(EMPLOYEE-ATTRITION).csv
Netflix_credits.csv		Netflix_credits.csv
Netflix_titles.csv		Netflix_titles.csv
Project_1_Weather_Dataset.csv		Project_1_Weather_Dataset.csv
Project_2_Cars_Dataset.csv		Project_2_Cars_Dataset.csv
Project_3_Police Data.csv		Project_3_Police Data.csv
Project_4_Covid_19_data.csv		Project_4_Covid_19_data.csv
Project_5_Housing_Data.csv		Project_5_Housing_Data.csv
Project_6_Census_2011.csv		Project_6_Census_2011.csv
Project_7_Udemy_Dataset.csv		Project_7_Udemy_Dataset.csv
Project_8_Netflix_Dataset.csv		Project_8_Netflix_Dataset.csv
Project_9_Sales-Data-Analysis.xlsx		Project_9_Sales-Data-Analysis.xlsx
README.md		README.md
Titanic_Dataset_SmartED.csv		Titanic_Dataset_SmartED.csv
Titanic_dataset.csv		Titanic_dataset.csv
customer_purchase_behavior.csv		customer_purchase_behavior.csv
diabetes.csv		diabetes.csv
diabetes1.csv		diabetes1.csv
heart_disease_uci.csv		heart_disease_uci.csv
loan_approval_dataset.csv		loan_approval_dataset.csv
sales_forecasting_dataset_SmartEd_Project.csv		sales_forecasting_dataset_SmartEd_Project.csv
stores_sales_forecasting_SmartED.csv		stores_sales_forecasting_SmartED.csv
student-pass-fail-data.csv		student-pass-fail-data.csv
testdata.csv		testdata.csv
vehicle_failure.csv		vehicle_failure.csv

License

itsluckysharma01/Datasets

Folders and files

Latest commit

History

Repository files navigation

📊 Comprehensive Dataset Collection

🎯 Overview

📋 Table of Contents

📊 Dataset Categories

🔥 Featured Datasets

🏥 Healthcare Analytics

🚗 Transportation Intelligence

🎬 Entertainment Insights

📁 Dataset Details

1. Diabetes Dataset (diabetes.csv)

2. Health Camp Dataset (Health_Care_Dataset/)

3. Cars Dataset (Project_2_Cars_Dataset.csv)

4. Police Data (Project_3_Police Data.csv)

5. Housing Data (Project_5_Housing_Data.csv)

6. Census 2011 (Project_6_Census_2011.csv)

7. Udemy Dataset (Project_7_Udemy_Dataset.csv)

8. Student Performance (student-pass-fail-data.csv)

9. Netflix Dataset (Project_8_Netflix_Dataset.csv)

10. Trending Data (Trending/trending.csv)

11. Iris Dataset (IRIS.csv)

12. Titanic Dataset (Titanic_dataset.csv)

🚀 Quick Start

Prerequisites

Basic Usage

💡 Usage Examples

🔍 Exploratory Data Analysis

🤖 Machine Learning Pipeline

📊 Data Visualization

📈 Data Insights

🎯 Key Statistics

📊 Data Quality Overview

🛠️ Tools & Libraries

Recommended Stack

Installation Guide

📊 Project Structure

🎯 Use Case Examples

🏥 Healthcare Analytics

🚗 Transportation Intelligence

🎬 Entertainment Insights

🔄 Data Processing Workflows

Standard Pipeline

📝 Contributing

🤝 How to Contribute

📋 Contribution Guidelines

📜 Dataset Sources & Credits

⚖️ License & Usage

Usage Terms:

Attribution:

🎉 Getting Started Today!

Quick Start Checklist

Need Help?

🌟 Star this repository if you find it useful!

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

1. Diabetes Dataset (`diabetes.csv`)

2. Health Camp Dataset (`Health_Care_Dataset/`)

3. Cars Dataset (`Project_2_Cars_Dataset.csv`)

4. Police Data (`Project_3_Police Data.csv`)

5. Housing Data (`Project_5_Housing_Data.csv`)

6. Census 2011 (`Project_6_Census_2011.csv`)

7. Udemy Dataset (`Project_7_Udemy_Dataset.csv`)

8. Student Performance (`student-pass-fail-data.csv`)

9. Netflix Dataset (`Project_8_Netflix_Dataset.csv`)

10. Trending Data (`Trending/trending.csv`)

11. Iris Dataset (`IRIS.csv`)

12. Titanic Dataset (`Titanic_dataset.csv`)

Packages