Seeing maskrcnn_resnet50_fpn + FP32 performance drop by 15% after #5443

### 🐛 Describe the bug

Seeing maskrcnn_resnet50_fpn + FP32 performance drop by 15% after #5443

We're running benchmarks for torchvision maskrcnn_resnet50_fpn + FP32 model with `pretrained = False, pretrained_backbone = False`. After the PR, we saw training throughput drops by ~15% on various GPU models (A100, V100, 3090). 

### Versions

commit: after #5443

GPU: Nvidia A100, V100, 3090
Library: cuda 11.6 + cudnn 8.3.2

cc @ptrblck @ngimel


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Seeing maskrcnn_resnet50_fpn + FP32 performance drop by 15% after #5443 #5580

🐛 Describe the bug

Versions

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Seeing maskrcnn_resnet50_fpn + FP32 performance drop by 15% after #5443 #5580

Description

🐛 Describe the bug

Versions

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions