small input image dimensions fail

CUDA: 11.8
windows: 10
card: GA102
cudNN: 8.9.7 (latest)
'''
python test_ccsr_tile.py ^
--image_path X:\input-CCSR2 ^
--pretrained_model_path ..\..\SD21-base\stable-diffusion-2-1-base ^
--controlnet_model_path ..\..\CCSR-CCSR-v2.0\preset\models\controlnet ^
--vae_model_path ..\..\CCSR-CCSR-v2.0\preset\models\vae ^
--sample_method ddpm --num_inference_steps 15 --t_min 0.0 --start_point lr --start_steps 0 --guidance_scale 1.0 --sample_times 1 --use_vae_encode_condition --upscale 4 ^
--output_dir X:\CCSR2-i15-g1.0-s0 --conditioning_scale 1.0 --tile_vae --tile_diffusion
'''

'''    parser.add_argument("--tile_diffusion", action="store_true", help="Optionally! Enable tile-based diffusion")
    parser.add_argument("--tile_diffusion_size", type=int, default=4096, help="Tile size for diffusion")
    parser.add_argument("--tile_diffusion_stride", type=int, default=2048, help="Stride size for diffusion tiles")
    parser.add_argument("--tile_vae", action="store_true", help="Optionally! Enable tiling for VAE")
    parser.add_argument("--vae_decoder_tile_size", type=int, default=224, help="Tile size for VAE decoder")
    parser.add_argument("--vae_encoder_tile_size", type=int, default=2496, help="Tile size for VAE encoder")
'''

'''[Tiled VAE]: the input size is tiny and unnecessary to tile.
Traceback (most recent call last):
  File "X:\CCSR-CCSR-v2.0\test_ccsr_tile.py", line 297, in <module>
    main(args)
  File "X:\CCSR-CCSR-v2.0\test_ccsr_tile.py", line 202, in main
    inference_time, image = pipeline(
  File "X:\WPy64-31090\python-3.10.9.amd64\lib\site-packages\torch\utils\_contextlib.py", line 115, in decorate_context
    return func(*args, **kwargs)
  File "X:\CCSR-CCSR-v2.0\pipelines\pipeline_ccsr.py", line 1031, in __call__
    latents, x0_T = self._initial_step(do_classifier_free_guidance, latent_model_input, t, t_tao, prompt_embeds, image, vae_encode_condition_hidden_states, tile_diffusion, tile_size, tile_stride)
  File "X:\CCSR-CCSR-v2.0\pipelines\pipeline_ccsr.py", line 887, in _initial_step
    noise_pred = self._predict_noise(latents, t, image, prompt_embeds, None, vae_conditions, tile_diffusion, tile_size, tile_stride, 1.0, False)
  File "X:\CCSR-CCSR-v2.0\pipelines\pipeline_ccsr.py", line 833, in _predict_noise
    noise_pred = self._tile_predict(latent_model_input, t, image, prompt_embeds, cross_attention_kwargs, vae_conditions, tile_size, tile_stride, conditioning_scale, guess_mode)
  File "X:\CCSR-CCSR-v2.0\pipelines\pipeline_ccsr.py", line 876, in _tile_predict
    noise_pred[:, :, hi:hi_end, wi:wi_end] += tile_noise * tile_weight
RuntimeError: The size of tensor a (64) must match the size of tensor b (512) at non-singleton dimension 3'''

input image size: 128x256

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

small input image dimensions fail #50

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

small input image dimensions fail #50

Description

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions