[fbsync] Remove to_tensor() and ToTensor() usages (#5553)

datumbox · facebook-github-bot · commit 1de9f174794c · 2022-03-15T12:25:54.000-07:00
Summary:
* Remove from models and references.

* Adding most tests and docs.

* Adding transforms tests.

* Remove unnecesary ipython notebook.

* Simplify tests.

* Addressing comments.

Reviewed By: vmoens

Differential Revision: D34878980

fbshipit-source-id: 870b09c50697cbbdf8956b446712dcc4bbd5ed96
diff --git a/docs/source/models.rst b/docs/source/models.rst
@@ -179,7 +179,7 @@ to::
     import torch
     from torchvision import datasets, transforms as T
 
-    transform = T.Compose([T.Resize(256), T.CenterCrop(224), T.ToTensor()])
+    transform = T.Compose([T.Resize(256), T.CenterCrop(224), T.PILToTensor(), T.ConvertImageDtype(torch.float)])
     dataset = datasets.ImageNet(".", split="train", transform=transform)
 
     means = []
diff --git a/references/detection/presets.py b/references/detection/presets.py
@@ -41,7 +41,12 @@ def __call__(self, img, target):
 
 class DetectionPresetEval:
     def __init__(self):
-        self.transforms = T.ToTensor()
+        self.transforms = T.Compose(
+            [
+                T.PILToTensor(),
+                T.ConvertImageDtype(torch.float),
+            ]
+        )
 
     def __call__(self, img, target):
         return self.transforms(img, target)
diff --git a/references/detection/transforms.py b/references/detection/transforms.py
@@ -45,15 +45,6 @@ def forward(
         return image, target
 
 
-class ToTensor(nn.Module):
-    def forward(
-        self, image: Tensor, target: Optional[Dict[str, Tensor]] = None
-    ) -> Tuple[Tensor, Optional[Dict[str, Tensor]]]:
-        image = F.pil_to_tensor(image)
-        image = F.convert_image_dtype(image)
-        return image, target
-
-
 class PILToTensor(nn.Module):
     def forward(
         self, image: Tensor, target: Optional[Dict[str, Tensor]] = None
diff --git a/references/similarity/test.py b/references/similarity/test.py
@@ -1,6 +1,7 @@
 import unittest
 from collections import defaultdict
 
+import torch
 import torchvision.transforms as transforms
 from sampler import PKSampler
 from torch.utils.data import DataLoader
@@ -17,7 +18,13 @@ def test_pksampler(self):
         self.assertRaises(AssertionError, PKSampler, targets, p, k)
 
         # Ensure p, k constraints on batch
-        dataset = FakeData(size=1000, num_classes=100, image_size=(3, 1, 1), transform=transforms.ToTensor())
+        trans = transforms.Compose(
+            [
+                transforms.PILToTensor(),
+                transforms.ConvertImageDtype(torch.float),
+            ]
+        )
+        dataset = FakeData(size=1000, num_classes=100, image_size=(3, 1, 1), transform=trans)
         targets = [target.item() for _, target in dataset]
         sampler = PKSampler(targets, p, k)
         loader = DataLoader(dataset, batch_size=p * k, sampler=sampler)
diff --git a/references/similarity/train.py b/references/similarity/train.py
@@ -102,7 +102,12 @@ def main(args):
     optimizer = Adam(model.parameters(), lr=args.lr)
 
     transform = transforms.Compose(
-        [transforms.Lambda(lambda image: image.convert("RGB")), transforms.Resize((224, 224)), transforms.ToTensor()]
+        [
+            transforms.Lambda(lambda image: image.convert("RGB")),
+            transforms.Resize((224, 224)),
+            transforms.PILToTensor(),
+            transforms.ConvertImageDtype(torch.float),
+        ]
     )
 
     # Using FMNIST to demonstrate embedding learning using triplet loss. This dataset can
diff --git a/test/preprocess-bench.py b/test/preprocess-bench.py
@@ -33,7 +33,8 @@
         [
             transforms.RandomSizedCrop(224),
             transforms.RandomHorizontalFlip(),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
+            transforms.ConvertImageDtype(torch.float),
             transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
         ]
     )
diff --git a/test/sanity_checks.ipynb b/test/sanity_checks.ipynb
diff --git a/test/test_cpp_models.py b/test/test_cpp_models.py
@@ -30,7 +30,8 @@ def read_image1():
     )
     image = Image.open(image_path)
     image = image.resize((224, 224))
-    x = F.to_tensor(image)
+    x = F.pil_to_tensor(image)
+    x = F.convert_image_dtype(x)
     return x.view(1, 3, 224, 224)
 
 
@@ -40,7 +41,8 @@ def read_image2():
     )
     image = Image.open(image_path)
     image = image.resize((299, 299))
-    x = F.to_tensor(image)
+    x = F.pil_to_tensor(image)
+    x = F.convert_image_dtype(x)
     x = x.view(1, 3, 299, 299)
     return torch.cat([x, x], 0)
 
diff --git a/test/test_onnx.py b/test/test_onnx.py
@@ -413,13 +413,13 @@ def get_image(self, rel_path: str, size: Tuple[int, int]) -> torch.Tensor:
         import os
 
         from PIL import Image
-        from torchvision import transforms
+        from torchvision.transforms import functional as F
 
         data_dir = os.path.join(os.path.dirname(__file__), "assets")
         path = os.path.join(data_dir, *rel_path.split("/"))
         image = Image.open(path).convert("RGB").resize(size, Image.BILINEAR)
 
-        return transforms.ToTensor()(image)
+        return F.convert_image_dtype(F.pil_to_tensor(image))
 
     def get_test_images(self) -> Tuple[List[torch.Tensor], List[torch.Tensor]]:
         return (
diff --git a/test/test_transforms.py b/test/test_transforms.py
@@ -154,7 +154,7 @@ def test_int_to_int_consistency(self, input_dtype, output_dtype):
 @pytest.mark.skipif(accimage is None, reason="accimage not available")
 class TestAccImage:
     def test_accimage_to_tensor(self):
-        trans = transforms.ToTensor()
+        trans = transforms.PILToTensor()
 
         expected_output = trans(Image.open(GRACE_HOPPER).convert("RGB"))
         output = trans(accimage.Image(GRACE_HOPPER))
@@ -174,7 +174,8 @@ def test_accimage_resize(self):
         trans = transforms.Compose(
             [
                 transforms.Resize(256, interpolation=Image.LINEAR),
-                transforms.ToTensor(),
+                transforms.PILToTensor(),
+                transforms.ConvertImageDtype(dtype=torch.float),
             ]
         )
 
@@ -192,10 +193,7 @@ def test_accimage_resize(self):
 
     def test_accimage_crop(self):
         trans = transforms.Compose(
-            [
-                transforms.CenterCrop(256),
-                transforms.ToTensor(),
-            ]
+            [transforms.CenterCrop(256), transforms.PILToTensor(), transforms.ConvertImageDtype(dtype=torch.float)]
         )
 
         # Checking if Compose, CenterCrop and ToTensor can be printed as string
@@ -457,26 +455,24 @@ class TestPad:
     def test_pad(self):
         height = random.randint(10, 32) * 2
         width = random.randint(10, 32) * 2
-        img = torch.ones(3, height, width)
+        img = torch.ones(3, height, width, dtype=torch.uint8)
         padding = random.randint(1, 20)
         fill = random.randint(1, 50)
         result = transforms.Compose(
             [
                 transforms.ToPILImage(),
                 transforms.Pad(padding, fill=fill),
-                transforms.ToTensor(),
+                transforms.PILToTensor(),
             ]
         )(img)
         assert result.size(1) == height + 2 * padding
         assert result.size(2) == width + 2 * padding
         # check that all elements in the padded region correspond
         # to the pad value
-        fill_v = fill / 255
-        eps = 1e-5
         h_padded = result[:, :padding, :]
         w_padded = result[:, :, :padding]
-        torch.testing.assert_close(h_padded, torch.full_like(h_padded, fill_value=fill_v), rtol=0.0, atol=eps)
-        torch.testing.assert_close(w_padded, torch.full_like(w_padded, fill_value=fill_v), rtol=0.0, atol=eps)
+        torch.testing.assert_close(h_padded, torch.full_like(h_padded, fill_value=fill), rtol=0.0, atol=0.0)
+        torch.testing.assert_close(w_padded, torch.full_like(w_padded, fill_value=fill), rtol=0.0, atol=0.0)
         pytest.raises(ValueError, transforms.Pad(padding, fill=(1, 2)), transforms.ToPILImage()(img))
 
     def test_pad_with_tuple_of_pad_values(self):
@@ -509,23 +505,23 @@ def test_pad_with_non_constant_padding_modes(self):
         # edge_pad, edge_pad, edge_pad, constant_pad, constant value added to leftmost edge, 0
         edge_middle_slice = np.asarray(edge_padded_img).transpose(2, 0, 1)[0][17][:6]
         assert_equal(edge_middle_slice, np.asarray([200, 200, 200, 200, 1, 0], dtype=np.uint8))
-        assert transforms.ToTensor()(edge_padded_img).size() == (3, 35, 35)
+        assert transforms.PILToTensor()(edge_padded_img).size() == (3, 35, 35)
 
         # Pad 3 to left/right, 2 to top/bottom
         reflect_padded_img = F.pad(img, (3, 2), padding_mode="reflect")
         # First 6 elements of leftmost edge in the middle of the image, values are in order:
         # reflect_pad, reflect_pad, reflect_pad, constant_pad, constant value added to leftmost edge, 0
         reflect_middle_slice = np.asarray(reflect_padded_img).transpose(2, 0, 1)[0][17][:6]
         assert_equal(reflect_middle_slice, np.asarray([0, 0, 1, 200, 1, 0], dtype=np.uint8))
-        assert transforms.ToTensor()(reflect_padded_img).size() == (3, 33, 35)
+        assert transforms.PILToTensor()(reflect_padded_img).size() == (3, 33, 35)
 
         # Pad 3 to left, 2 to top, 2 to right, 1 to bottom
         symmetric_padded_img = F.pad(img, (3, 2, 2, 1), padding_mode="symmetric")
         # First 6 elements of leftmost edge in the middle of the image, values are in order:
         # sym_pad, sym_pad, sym_pad, constant_pad, constant value added to leftmost edge, 0
         symmetric_middle_slice = np.asarray(symmetric_padded_img).transpose(2, 0, 1)[0][17][:6]
         assert_equal(symmetric_middle_slice, np.asarray([0, 1, 200, 200, 1, 0], dtype=np.uint8))
-        assert transforms.ToTensor()(symmetric_padded_img).size() == (3, 32, 34)
+        assert transforms.PILToTensor()(symmetric_padded_img).size() == (3, 32, 34)
 
         # Check negative padding explicitly for symmetric case, since it is not
         # implemented for tensor case to compare to
@@ -535,7 +531,7 @@ def test_pad_with_non_constant_padding_modes(self):
         symmetric_neg_middle_right = np.asarray(symmetric_padded_img_neg).transpose(2, 0, 1)[0][17][-4:]
         assert_equal(symmetric_neg_middle_left, np.asarray([1, 0, 0], dtype=np.uint8))
         assert_equal(symmetric_neg_middle_right, np.asarray([200, 200, 0, 0], dtype=np.uint8))
-        assert transforms.ToTensor()(symmetric_padded_img_neg).size() == (3, 28, 31)
+        assert transforms.PILToTensor()(symmetric_padded_img_neg).size() == (3, 28, 31)
 
     def test_pad_raises_with_invalid_pad_sequence_len(self):
         with pytest.raises(ValueError):
@@ -1625,12 +1621,12 @@ def test_random_crop():
     width = random.randint(10, 32) * 2
     oheight = random.randint(5, (height - 2) / 2) * 2
     owidth = random.randint(5, (width - 2) / 2) * 2
-    img = torch.ones(3, height, width)
+    img = torch.ones(3, height, width, dtype=torch.uint8)
     result = transforms.Compose(
         [
             transforms.ToPILImage(),
             transforms.RandomCrop((oheight, owidth)),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     assert result.size(1) == oheight
@@ -1641,14 +1637,14 @@ def test_random_crop():
         [
             transforms.ToPILImage(),
             transforms.RandomCrop((oheight, owidth), padding=padding),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     assert result.size(1) == oheight
     assert result.size(2) == owidth
 
     result = transforms.Compose(
-        [transforms.ToPILImage(), transforms.RandomCrop((height, width)), transforms.ToTensor()]
+        [transforms.ToPILImage(), transforms.RandomCrop((height, width)), transforms.PILToTensor()]
     )(img)
     assert result.size(1) == height
     assert result.size(2) == width
@@ -1658,7 +1654,7 @@ def test_random_crop():
         [
             transforms.ToPILImage(),
             transforms.RandomCrop((height + 1, width + 1), pad_if_needed=True),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     assert result.size(1) == height + 1
@@ -1676,7 +1672,7 @@ def test_center_crop():
     oheight = random.randint(5, (height - 2) / 2) * 2
     owidth = random.randint(5, (width - 2) / 2) * 2
 
-    img = torch.ones(3, height, width)
+    img = torch.ones(3, height, width, dtype=torch.uint8)
     oh1 = (height - oheight) // 2
     ow1 = (width - owidth) // 2
     imgnarrow = img[:, oh1 : oh1 + oheight, ow1 : ow1 + owidth]
@@ -1685,7 +1681,7 @@ def test_center_crop():
         [
             transforms.ToPILImage(),
             transforms.CenterCrop((oheight, owidth)),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     assert result.sum() == 0
@@ -1695,7 +1691,7 @@ def test_center_crop():
         [
             transforms.ToPILImage(),
             transforms.CenterCrop((oheight, owidth)),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     sum1 = result.sum()
@@ -1706,7 +1702,7 @@ def test_center_crop():
         [
             transforms.ToPILImage(),
             transforms.CenterCrop((oheight, owidth)),
-            transforms.ToTensor(),
+            transforms.PILToTensor(),
         ]
     )(img)
     sum2 = result.sum()
@@ -1729,12 +1725,12 @@ def test_center_crop_2(odd_image_size, delta, delta_width, delta_height):
     delta_height *= delta
     delta_width *= delta
 
-    img = torch.ones(3, *input_image_size)
+    img = torch.ones(3, *input_image_size, dtype=torch.uint8)
     crop_size = (input_image_size[0] + delta_height, input_image_size[1] + delta_width)
 
     # Test both transforms, one with PIL input and one with tensor
     output_pil = transforms.Compose(
-        [transforms.ToPILImage(), transforms.CenterCrop(crop_size), transforms.ToTensor()],
+        [transforms.ToPILImage(), transforms.CenterCrop(crop_size), transforms.PILToTensor()],
     )(img)
     assert output_pil.size()[1:3] == crop_size
 
@@ -1893,13 +1889,13 @@ def test_randomperspective():
         perp = transforms.RandomPerspective()
         startpoints, endpoints = perp.get_params(width, height, 0.5)
         tr_img = F.perspective(img, startpoints, endpoints)
-        tr_img2 = F.to_tensor(F.perspective(tr_img, endpoints, startpoints))
-        tr_img = F.to_tensor(tr_img)
+        tr_img2 = F.convert_image_dtype(F.pil_to_tensor(F.perspective(tr_img, endpoints, startpoints)))
+        tr_img = F.convert_image_dtype(F.pil_to_tensor(tr_img))
         assert img.size[0] == width
         assert img.size[1] == height
-        assert torch.nn.functional.mse_loss(tr_img, F.to_tensor(img)) + 0.3 > torch.nn.functional.mse_loss(
-            tr_img2, F.to_tensor(img)
-        )
+        assert torch.nn.functional.mse_loss(
+            tr_img, F.convert_image_dtype(F.pil_to_tensor(img))
+        ) + 0.3 > torch.nn.functional.mse_loss(tr_img2, F.convert_image_dtype(F.pil_to_tensor(img)))
 
 
 @pytest.mark.parametrize("seed", range(10))
diff --git a/test/test_utils.py b/test/test_utils.py
@@ -76,7 +76,7 @@ def test_save_image_file_object():
         fp = BytesIO()
         utils.save_image(t, fp, format="png")
         img_bytes = Image.open(fp)
-        assert_equal(F.to_tensor(img_orig), F.to_tensor(img_bytes), msg="Image not stored in file object")
+        assert_equal(F.pil_to_tensor(img_orig), F.pil_to_tensor(img_bytes), msg="Image not stored in file object")
 
 
 @pytest.mark.skipif(sys.platform in ("win32", "cygwin"), reason="temporarily disabled on Windows")
@@ -88,7 +88,7 @@ def test_save_image_single_pixel_file_object():
         fp = BytesIO()
         utils.save_image(t, fp, format="png")
         img_bytes = Image.open(fp)
-        assert_equal(F.to_tensor(img_orig), F.to_tensor(img_bytes), msg="Image not stored in file object")
+        assert_equal(F.pil_to_tensor(img_orig), F.pil_to_tensor(img_bytes), msg="Image not stored in file object")
 
 
 def test_draw_boxes():
diff --git a/torchvision/datasets/celeba.py b/torchvision/datasets/celeba.py
@@ -32,7 +32,7 @@ class CelebA(VisionDataset):
             Defaults to ``attr``. If empty, ``None`` will be returned as target.
 
         transform (callable, optional): A function/transform that  takes in an PIL image
-            and returns a transformed version. E.g, ``transforms.ToTensor``
+            and returns a transformed version. E.g, ``transforms.PILToTensor``
         target_transform (callable, optional): A function/transform that takes in the
             target and transforms it.
         download (bool, optional): If true, downloads the dataset from the internet and
diff --git a/torchvision/datasets/coco.py b/torchvision/datasets/coco.py
@@ -15,7 +15,7 @@ class CocoDetection(VisionDataset):
         root (string): Root directory where images are downloaded to.
         annFile (string): Path to json annotation file.
         transform (callable, optional): A function/transform that  takes in an PIL image
-            and returns a transformed version. E.g, ``transforms.ToTensor``
+            and returns a transformed version. E.g, ``transforms.PILToTensor``
         target_transform (callable, optional): A function/transform that takes in the
             target and transforms it.
         transforms (callable, optional): A function/transform that takes input sample and its target as entry
@@ -66,7 +66,7 @@ class CocoCaptions(CocoDetection):
         root (string): Root directory where images are downloaded to.
         annFile (string): Path to json annotation file.
         transform (callable, optional): A function/transform that  takes in an PIL image
-            and returns a transformed version. E.g, ``transforms.ToTensor``
+            and returns a transformed version. E.g, ``transforms.PILToTensor``
         target_transform (callable, optional): A function/transform that takes in the
             target and transforms it.
         transforms (callable, optional): A function/transform that takes input sample and its target as entry
@@ -80,7 +80,7 @@ class CocoCaptions(CocoDetection):
             import torchvision.transforms as transforms
             cap = dset.CocoCaptions(root = 'dir where images are',
                                     annFile = 'json annotation file',
-                                    transform=transforms.ToTensor())
+                                    transform=transforms.PILToTensor())
 
             print('Number of samples: ', len(cap))
             img, target = cap[3] # load 4th sample
diff --git a/torchvision/datasets/flickr.py b/torchvision/datasets/flickr.py
diff --git a/torchvision/datasets/kitti.py b/torchvision/datasets/kitti.py
diff --git a/torchvision/transforms/transforms.py b/torchvision/transforms/transforms.py

Original file line number	Diff line number	Diff line change
`@@ -33,7 +33,8 @@`
`33`	`33`	`[`
`34`	`34`	`transforms.RandomSizedCrop(224),`
`35`	`35`	`transforms.RandomHorizontalFlip(),`
`36`		`- transforms.ToTensor(),`
	`36`	`+ transforms.PILToTensor(),`
	`37`	`+ transforms.ConvertImageDtype(torch.float),`
`37`	`38`	`transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),`
`38`	`39`	`]`
`39`	`40`	`)`