Tree of Knowledge

Автор: Горбатюк Олег
Группа: БПМИ 225

Введение

Проект "Tree of Knowledge" разработан в рамках курсовой работы и направлен на использование передовых технологий в области машинного обучения и обработки естественных языков (NLP). Цель проекта — сбор, обработка и анализ научных текстов, с последующим построением семантических и n-грамм графов для выявления и интерпретации взаимосвязей и структур данных.

Основные возможности

Обработка коптского языка с использованием стандартных методов
Фильтрация данных из различных открытых источников научной литературы.
Конвертация документов из PDF в текстовый формат для последующей обработки.
Очистка и нормализация текстовых данных для улучшения качества анализа.
Построение графов знаний, используя методы n-грамм и семантические сети.
Визуализация данных для лучшего понимания и представления результатов.

Начало работы

Материалы

Все материалы, включая корпус, а также полученные в результате модели и графики выложены на Яндекс.Диске:

Ссылка: https://disk.yandex.ru/d/L5ppGtroEHKCAg
Пароль: treeofknowledge

Требования

Убедитесь, что на вашем компьютере установлен Python версии 3.11.8 или выше, а также доступ к интернету для скачивания необходимых библиотек.

Установка

Клонируйте репозиторий и установите зависимости следующим образом:

git clone https://github.com/o1eg0/tree_of_knowledge.git
cd tree_of_knowledge
pip install -r requirements.txt

Использование

Для запуска проекта используйте следующую команду:

python main.py

Способ хранения данных

Ввиду большого объема данных, все текстовые файлы хранятся на Яндекс.Диске:

Бесплатное хранилище: Используется доступное место на Яндекс.Диске.
Доступность: Файлы легко доступны для скачивания или просмотра другими участниками проекта.
Библиотека yadisk: Интеграция с Яндекс.Диском осуществляется через REST API с использованием OAuth-токена.

Модульная структура проекта

coptic — самостоятельный модуль для обработки коптского языка
data_collection — модуль для организации хранения данных.
data_conversion — конвертация PDF-документов в текст.
text_processing — очистка текстов от шумов и нежелательных элементов.
graphs_construction — построение графов n-грамм и сематических сетей

Авторы

Проект выполнен Горбатюком Олегом в рамках курсовой работы:

Древо знания: выделение концепций из текстов естественного языка с помощью сложных сетей.

Для вопросов и поддержки, пожалуйста, обращайтесь по oleg36531@gmail.com.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
coptic		coptic
data_collection		data_collection
data_conversion		data_conversion
graphs_construction		graphs_construction
text_processing		text_processing
utils		utils
.gitignore		.gitignore
README.md		README.md
comparison_vectorisation.png		comparison_vectorisation.png
custom_word2vec.model		custom_word2vec.model
example_corpus.txt		example_corpus.txt
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tree of Knowledge

Введение

Основные возможности

Начало работы

Материалы

Требования

Установка

Использование

Способ хранения данных

Модульная структура проекта

Авторы

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

o1eg0/tree_of_knowledge

Folders and files

Latest commit

History

Repository files navigation

Tree of Knowledge

Введение

Основные возможности

Начало работы

Материалы

Требования

Установка

Использование

Способ хранения данных

Модульная структура проекта

Авторы

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages