R:
- Verifique a versão do Python (
python --versiondeve ser 3.9+) - Atualize o pip:
pip install --upgrade pip - Instale dependências manualmente:
pip install pdfminer.six python-docx pytesseract pillowR:
- Verifique se o extrator está habilitado no
config.yaml - Para PDFs, instale o pdfminer:
pip install pdfminer.six - Para DOCX, instale:
pip install python-docx
R: Ajuste os parâmetros no config.yaml:
chunking:
max_tokens: 768 # Aumente para chunks maiores
min_lines: 8 # Aumente o mínimo de linhas
strategy: semantic # Ou 'fixed' para tamanho fixoR:
- Verifique instalação do Tesseract:
- Windows: Baixe do site oficial
- Linux:
sudo apt install tesseract-ocr - MacOS:
brew install tesseract
- Instale pacotes de idioma:
sudo apt install tesseract-ocr-por
R:
- Ative o cache no
config.yaml:
caching:
enabled: true
path: .processing_cache- Use processamento paralelo:
from concurrent.futures import ThreadPoolExecutor
with ThreadPoolExecutor() as executor:
executor.map(pipeline.process_file, file_list)R: Use o sistema de cache integrado:
from src.utils.caching import FileCache
cache = FileCache()
if not cache.is_cached(file_path):
process_file(file_path)R:
- Verifique permissões de escrita no diretório de saída
- Confira o caminho no
config.yaml:
output:
directory: /caminho/valido- Verifique logs em
processing.log
R: Ative a opção no config:
output:
include_metadata: trueSolução: Instale o módulo faltante com pip install nome_do_modulo
Solução:
- Verifique a extensão do arquivo
- Implemente um extrator customizado (veja EXEMPLOS.md)
Solução: Especifique a codificação no config:
extractors:
text:
encoding: 'latin-1' # Ou 'utf-8'R:
- Crie um novo extrator herdando de
BaseExtractor - Implemente o método
extract() - Registre no pipeline:
pipeline.register_extractor('.minhaext', MeuExtrator())(Exemplo completo em EXEMPLOS.md)
R:
- Escolha um modelo do Hugging Face
- Atualize o config:
summarization:
model: nome_do_modeloR:
- Faça fork do repositório
- Siga as diretrizes de código
- Envie pull requests com:
- Testes unitários para novas funcionalidades
- Documentação atualizada
- Exemplos de uso
R: Abra issues no repositório do projeto incluindo:
- Passos para reproduzir o erro
- Mensagem de erro completa
- Ambiente (SO, versão do Python)
- Arquivo de configuração relevante