Автор: Горбатюк Олег
Группа: БПМИ 225
Проект "Tree of Knowledge" разработан в рамках курсовой работы и направлен на использование передовых технологий в области машинного обучения и обработки естественных языков (NLP). Цель проекта — сбор, обработка и анализ научных текстов, с последующим построением семантических и n-грамм графов для выявления и интерпретации взаимосвязей и структур данных.
- Обработка коптского языка с использованием стандартных методов
- Фильтрация данных из различных открытых источников научной литературы.
- Конвертация документов из PDF в текстовый формат для последующей обработки.
- Очистка и нормализация текстовых данных для улучшения качества анализа.
- Построение графов знаний, используя методы n-грамм и семантические сети.
- Визуализация данных для лучшего понимания и представления результатов.
Все материалы, включая корпус, а также полученные в результате модели и графики выложены на Яндекс.Диске:
Ссылка: https://disk.yandex.ru/d/L5ppGtroEHKCAg
Пароль: treeofknowledge
Убедитесь, что на вашем компьютере установлен Python версии 3.11.8 или выше, а также доступ к интернету для скачивания необходимых библиотек.
Клонируйте репозиторий и установите зависимости следующим образом:
git clone https://github.com/o1eg0/tree_of_knowledge.git
cd tree_of_knowledge
pip install -r requirements.txt
Для запуска проекта используйте следующую команду:
python main.py
Ввиду большого объема данных, все текстовые файлы хранятся на Яндекс.Диске:
- Бесплатное хранилище: Используется доступное место на Яндекс.Диске.
- Доступность: Файлы легко доступны для скачивания или просмотра другими участниками проекта.
- Библиотека yadisk: Интеграция с Яндекс.Диском осуществляется через REST API с использованием OAuth-токена.
- coptic — самостоятельный модуль для обработки коптского языка
- data_collection — модуль для организации хранения данных.
- data_conversion — конвертация PDF-документов в текст.
- text_processing — очистка текстов от шумов и нежелательных элементов.
- graphs_construction — построение графов n-грамм и сематических сетей
Проект выполнен Горбатюком Олегом в рамках курсовой работы:
Древо знания: выделение концепций из текстов естественного языка с помощью сложных сетей.
Для вопросов и поддержки, пожалуйста, обращайтесь по oleg36531@gmail.com.