Wikipedia Web Crawler

Это мощный веб-краулер на Java Spring Boot, который умеет искать информацию в Википедии (En) и РуВики (Ru). Приложение автоматически определяет язык запроса, парсит страницы используя алгоритм BFS (поиск в ширину) и кэширует результаты в Redis для мгновенной выдачи при повторных запросах.

Функциональность

Умный поиск: Автоматически определяет язык запроса.
- Кириллица -> ищет на ru.ruwiki.ru
- Латиница -> ищет на en.wikipedia.org
Высокая производительность: Использует Redis для кэширования результатов. Повторный поиск занимает <20 мс.
Алгоритм BFS: Обходит связанные статьи с ограничением глубины и количества результатов.
Статистика: Отображает время выполнения запроса и источник данных (Интернет или Кэш).
Полная Докеризация: Легкий запуск одной командой через Docker Compose.

Стек технологий

Backend: Java 21, Spring Boot, Spring Data Redis, Spring Security
Parsing: Jsoup (HTML парсинг)
Database: PostgreSQL (пользователи/логи), Redis (кэш)
Frontend: Thymeleaf, JavaScript (Fetch API), CSS
DevOps: Docker, Docker Compose

Запуск проекта

Вариант 1: Через Docker (Рекомендуется)

Убедитесь, что у вас установлен Docker Desktop.

Клонируйте репозиторий: git clone https://github.com/ArtVlk/WebCrawler.git cd crawler
Запустите приложение: docker-compose up --build
Откройте в браузере: http://localhost:8080

Вариант 2: Локальный запуск (IntelliJ IDEA)

Если вы хотите разрабатывать код локально:

Запустите инфраструктуру (Redis + DB) через Docker: docker-compose up -d redis db
Запустите класс CrawlerApplication.

Конфигурация

Основные настройки находятся в src/main/resources/application.properties и docker-compose.yml.

DB_HOST: Адрес базы данных
SPRING_DATA_REDIS_HOST: Адрес Redis
MAX_DEPTH: Глубина поиска BFS (в коде)
MAX_RESULTS: Лимит статей (в коде)

API Endpoints

Приложение работает через Web-интерфейс, но имеет открытый JSON API.

POST /api/search Тело запроса (JSON): { "query": "Java Spring" }

Ответ (JSON): [ { "url": "https://en.wikipedia.org/wiki/Spring_Framework", "title": "Spring Framework", "snippet": "Описание статьи..." } ]

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.mvn/wrapper		.mvn/wrapper
src		src
.gitattributes		.gitattributes
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
docker-compose.yml		docker-compose.yml
er_scheme.jpg		er_scheme.jpg
mvnw		mvnw
mvnw.cmd		mvnw.cmd
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Wikipedia Web Crawler

Функциональность

Стек технологий

Запуск проекта

Вариант 1: Через Docker (Рекомендуется)

Вариант 2: Локальный запуск (IntelliJ IDEA)

Конфигурация

API Endpoints

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Wikipedia Web Crawler

Функциональность

Стек технологий

Запуск проекта

Вариант 1: Через Docker (Рекомендуется)

Вариант 2: Локальный запуск (IntelliJ IDEA)

Конфигурация

API Endpoints

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages