Skip to content

o1eg0/tree_of_knowledge

Repository files navigation

Tree of Knowledge

Автор: Горбатюк Олег
Группа: БПМИ 225

Введение

Проект "Tree of Knowledge" разработан в рамках курсовой работы и направлен на использование передовых технологий в области машинного обучения и обработки естественных языков (NLP). Цель проекта — сбор, обработка и анализ научных текстов, с последующим построением семантических и n-грамм графов для выявления и интерпретации взаимосвязей и структур данных.

Основные возможности

  • Обработка коптского языка с использованием стандартных методов
  • Фильтрация данных из различных открытых источников научной литературы.
  • Конвертация документов из PDF в текстовый формат для последующей обработки.
  • Очистка и нормализация текстовых данных для улучшения качества анализа.
  • Построение графов знаний, используя методы n-грамм и семантические сети.
  • Визуализация данных для лучшего понимания и представления результатов.

Начало работы

Материалы

Все материалы, включая корпус, а также полученные в результате модели и графики выложены на Яндекс.Диске:

Ссылка: https://disk.yandex.ru/d/L5ppGtroEHKCAg
Пароль: treeofknowledge

Требования

Убедитесь, что на вашем компьютере установлен Python версии 3.11.8 или выше, а также доступ к интернету для скачивания необходимых библиотек.

Установка

Клонируйте репозиторий и установите зависимости следующим образом:

git clone https://github.com/o1eg0/tree_of_knowledge.git
cd tree_of_knowledge
pip install -r requirements.txt

Использование

Для запуска проекта используйте следующую команду:

python main.py

Способ хранения данных

Ввиду большого объема данных, все текстовые файлы хранятся на Яндекс.Диске:

  • Бесплатное хранилище: Используется доступное место на Яндекс.Диске.
  • Доступность: Файлы легко доступны для скачивания или просмотра другими участниками проекта.
  • Библиотека yadisk: Интеграция с Яндекс.Диском осуществляется через REST API с использованием OAuth-токена.

Модульная структура проекта

  1. coptic — самостоятельный модуль для обработки коптского языка
  2. data_collection — модуль для организации хранения данных.
  3. data_conversion — конвертация PDF-документов в текст.
  4. text_processing — очистка текстов от шумов и нежелательных элементов.
  5. graphs_construction — построение графов n-грамм и сематических сетей

Авторы

Проект выполнен Горбатюком Олегом в рамках курсовой работы:

Древо знания: выделение концепций из текстов естественного языка с помощью сложных сетей.

Для вопросов и поддержки, пожалуйста, обращайтесь по oleg36531@gmail.com.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages