Perguntas Frequentes e Solução de Problemas

1. Instalação e Configuração

P: Como resolver erros de dependência durante a instalação?

Verifique a versão do Python (python --version deve ser 3.9+)
Atualize o pip: pip install --upgrade pip
Instale dependências manualmente:

pip install pdfminer.six python-docx pytesseract pillow

P: O sistema não reconhece meu arquivo PDF/DOCX

Verifique se o extrator está habilitado no config.yaml
Para PDFs, instale o pdfminer: pip install pdfminer.six
Para DOCX, instale: pip install python-docx

2. Processamento de Arquivos

P: Meus chunks estão muito pequenos ou muito grandes

R: Ajuste os parâmetros no config.yaml:

chunking:
  max_tokens: 768  # Aumente para chunks maiores
  min_lines: 8     # Aumente o mínimo de linhas
  strategy: semantic # Ou 'fixed' para tamanho fixo

P: O OCR para imagens não está funcionando

Verifique instalação do Tesseract:
- Windows: Baixe do site oficial
- Linux: sudo apt install tesseract-ocr
- MacOS: brew install tesseract
Instale pacotes de idioma: sudo apt install tesseract-ocr-por

3. Desempenho

P: O processamento está muito lento para muitos arquivos

Ative o cache no config.yaml:

caching:
  enabled: true
  path: .processing_cache

Use processamento paralelo:

from concurrent.futures import ThreadPoolExecutor

with ThreadPoolExecutor() as executor:
    executor.map(pipeline.process_file, file_list)

P: Como processar apenas arquivos modificados?

R: Use o sistema de cache integrado:

from src.utils.caching import FileCache

cache = FileCache()
if not cache.is_cached(file_path):
    process_file(file_path)

4. Saída e Resultados

P: Os arquivos de saída não estão sendo gerados

Verifique permissões de escrita no diretório de saída
Confira o caminho no config.yaml:

output:
  directory: /caminho/valido

Verifique logs em processing.log

P: Metadados estão faltando na saída

R: Ative a opção no config:

output:
  include_metadata: true

5. Erros Comuns

Erro: `ModuleNotFoundError: No module named '...'`

Solução: Instale o módulo faltante com pip install nome_do_modulo

Erro: `UnsupportedFileFormatError`

Solução:

Verifique a extensão do arquivo
Implemente um extrator customizado (veja EXEMPLOS.md)

Erro: `EncodingError` em arquivos de texto

Solução: Especifique a codificação no config:

extractors:
  text:
    encoding: 'latin-1' # Ou 'utf-8'

6. Personalização

P: Como adicionar suporte a um novo formato de arquivo?

Crie um novo extrator herdando de BaseExtractor
Implemente o método extract()
Registre no pipeline:

pipeline.register_extractor('.minhaext', MeuExtrator())

(Exemplo completo em EXEMPLOS.md)

P: Como alterar o modelo de sumarização?

Escolha um modelo do Hugging Face
Atualize o config:

summarization:
  model: nome_do_modelo

7. Contribuição

P: Como contribuir para o projeto?

Faça fork do repositório
Siga as diretrizes de código
Envie pull requests com:
- Testes unitários para novas funcionalidades
- Documentação atualizada
- Exemplos de uso

P: Onde reportar bugs?

R: Abra issues no repositório do projeto incluindo:

Passos para reproduzir o erro
Mensagem de erro completa
Ambiente (SO, versão do Python)
Arquivo de configuração relevante

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Perguntas Frequentes e Solução de Problemas

1. Instalação e Configuração

P: Como resolver erros de dependência durante a instalação?

P: O sistema não reconhece meu arquivo PDF/DOCX

2. Processamento de Arquivos

P: Meus chunks estão muito pequenos ou muito grandes

P: O OCR para imagens não está funcionando

3. Desempenho

P: O processamento está muito lento para muitos arquivos

P: Como processar apenas arquivos modificados?

4. Saída e Resultados

P: Os arquivos de saída não estão sendo gerados

P: Metadados estão faltando na saída

5. Erros Comuns

Erro: `ModuleNotFoundError: No module named '...'`

Erro: `UnsupportedFileFormatError`

Erro: `EncodingError` em arquivos de texto

6. Personalização

P: Como adicionar suporte a um novo formato de arquivo?

P: Como alterar o modelo de sumarização?

7. Contribuição

P: Como contribuir para o projeto?

P: Onde reportar bugs?

FilesExpand file tree

FAQ.md

Latest commit

History

FAQ.md

File metadata and controls

Perguntas Frequentes e Solução de Problemas

1. Instalação e Configuração

P: Como resolver erros de dependência durante a instalação?

P: O sistema não reconhece meu arquivo PDF/DOCX

2. Processamento de Arquivos

P: Meus chunks estão muito pequenos ou muito grandes

P: O OCR para imagens não está funcionando

3. Desempenho

P: O processamento está muito lento para muitos arquivos

P: Como processar apenas arquivos modificados?

4. Saída e Resultados

P: Os arquivos de saída não estão sendo gerados

P: Metadados estão faltando na saída

5. Erros Comuns

Erro: ModuleNotFoundError: No module named '...'

Erro: UnsupportedFileFormatError

Erro: EncodingError em arquivos de texto

6. Personalização

P: Como adicionar suporte a um novo formato de arquivo?

P: Como alterar o modelo de sumarização?

7. Contribuição

P: Como contribuir para o projeto?

P: Onde reportar bugs?

Erro: `ModuleNotFoundError: No module named '...'`

Erro: `UnsupportedFileFormatError`

Erro: `EncodingError` em arquivos de texto