pytorch
diff --git a/‎.ci/docker/ci_commit_pins/optimum-executorch.txt‎
Lines changed: 1 addition & 1 deletion b/‎.ci/docker/ci_commit_pins/optimum-executorch.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎.ci/docker/ci_commit_pins/pytorch.txt‎
Lines changed: 1 addition & 1 deletion b/‎.ci/docker/ci_commit_pins/pytorch.txt‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎backends/arm/CMakeLists.txt‎
Lines changed: 34 additions & 7 deletions b/‎backends/arm/CMakeLists.txt‎
Lines changed: 34 additions & 7 deletions
diff --git a/‎backends/arm/_passes/arm_pass_manager.py‎
Lines changed: 42 additions & 16 deletions b/‎backends/arm/_passes/arm_pass_manager.py‎
Lines changed: 42 additions & 16 deletions
diff --git a/‎backends/arm/_passes/arm_pass_utils.py‎
Lines changed: 16 additions & 2 deletions b/‎backends/arm/_passes/arm_pass_utils.py‎
Lines changed: 16 additions & 2 deletions
diff --git a/‎backends/arm/_passes/cast_int64_pass.py‎
Lines changed: 2 additions & 0 deletions b/‎backends/arm/_passes/cast_int64_pass.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎backends/arm/_passes/decompose_linear_pass.py‎
Lines changed: 2 additions & 1 deletion b/‎backends/arm/_passes/decompose_linear_pass.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎backends/arm/_passes/match_arg_ranks_pass.py‎
Lines changed: 1 addition & 0 deletions b/‎backends/arm/_passes/match_arg_ranks_pass.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎backends/arm/_passes/rewrite_upsample.py‎
Lines changed: 9 additions & 1 deletion b/‎backends/arm/_passes/rewrite_upsample.py‎
Lines changed: 9 additions & 1 deletion
diff --git a/‎backends/arm/_passes/to_tosa_memory_format_pass.py‎
Lines changed: 2 additions & 0 deletions b/‎backends/arm/_passes/to_tosa_memory_format_pass.py‎
Lines changed: 2 additions & 0 deletions
@@ -1 +1 @@
-4361747abfc55e40e929396ed986efe775d745f9
+d03e90c2cd9048e6d9a75285c0355f033cd016fc
@@ -1 +1 @@
-556fc09a9f67f24ca5591ec049c5d0c347c5f62a
+b31bad1b8f1331bf43d47f46602cf6141db56844
@@ -48,17 +48,44 @@ endif()
 
 # VGF backend builds
 if(EXECUTORCH_BUILD_VGF)
-
-  # include libvgf
-  set(LIBVGF_PATH
-      "${EXECUTORCH_ROOT}/examples/arm/ethos-u-scratch/ml-sdk-for-vulkan-manifest/sw/vgf-lib/"
-  )
-
   set(VULKAN_THIRD_PARTY_PATH ${EXECUTORCH_ROOT}/backends/vulkan/third-party)
   set(VULKAN_HEADERS_PATH ${VULKAN_THIRD_PARTY_PATH}/Vulkan-Headers/include)
   set(VOLK_HEADERS_PATH ${VULKAN_THIRD_PARTY_PATH}/volk)
 
-  set(LIBVGF_STATIC "${LIBVGF_PATH}/build/src/libvgf.a")
+  if(APPLE
+     OR CMAKE_SYSTEM_PROCESSOR MATCHES "^(arm64|aarch64)$"
+     OR EXISTS
+        "${EXECUTORCH_ROOT}/examples/arm/ethos-u-scratch/ml-sdk-for-vulkan-manifest/"
+  )
+    message(STATUS "libvgf sourced from local scratch tree")
+
+    # Legacy layout: libvgf sourced from local scratch tree
+    set(LIBVGF_PATH
+        "${EXECUTORCH_ROOT}/examples/arm/ethos-u-scratch/ml-sdk-for-vulkan-manifest/sw/vgf-lib/"
+    )
+    set(LIBVGF_STATIC "${LIBVGF_PATH}/build/src/libvgf.a")
+  else()
+    message(STATUS "libvgf installed from pip package")
+
+    set(Python3_FIND_VIRTUALENV FIRST)
+    if(EXECUTORCH_ROOT AND EXISTS "${EXECUTORCH_ROOT}/env")
+      set(Python3_EXECUTABLE "${EXECUTORCH_ROOT}/env/bin/python3")
+    endif()
+
+    find_package(Python3 REQUIRED COMPONENTS Interpreter)
+
+    # Prefer arch-specific site-packages if present, else pure
+    set(_vgf_site_arch "${Python3_SITEARCH}/vgf_lib/binaries")
+    set(_vgf_site_pure "${Python3_SITELIB}/vgf_lib/binaries")
+    if(EXISTS "${_vgf_site_arch}")
+      set(LIBVGF_PATH "${_vgf_site_arch}")
+    else()
+      set(LIBVGF_PATH "${_vgf_site_pure}")
+    endif()
+
+    set(LIBVGF_STATIC "${LIBVGF_PATH}/lib/libvgf.a")
+  endif()
+
   set(LIBVGF_INCLUDE "${LIBVGF_PATH}/include/")
 
   add_library(vgf STATIC IMPORTED)
 
@@ -159,7 +159,12 @@ def _transform(self, graph_module: GraphModule):
     def _tosa_pipeline(
         self, exported_program: ExportedProgram, graph_module: GraphModule
     ) -> GraphModule:
+        # Preprocessing passes
+
         self.add_pass(AnnotateOutputDimOrderPass())
+
+        # Node transformation passes (pre q/dq folding)
+
         self.add_pass(FuseQuantizedActivationPass())
         self.add_pass(RemoveGetItemPass())
         self.add_pass(ConvertToClampPass())
@@ -174,8 +179,19 @@ def _tosa_pipeline(
         self.add_pass(ConvertELUParamsPass())
         self.add_pass(ConvertSplitToSlicePass())
         self.add_pass(QuantizeOperatorArguments())
+
+        # Fold Q/DQ nodes, insert INT8/INT32 rescales.
+
         self.add_pass(FoldAndAnnotateQParamsPass(exported_program))  # type: ignore[call-arg]
         self.add_pass(FuseDuplicateUsersPass())
+        # TODO: DecomposeLinearPass should run after InsertRescaleInt32Pass or
+        # before FoldAndAnnotateQParamsPass but is unable to at the moment.
+        # Ticket: MLETORCH-1539
+        self.add_pass(DecomposeLinearPass())
+        self.add_pass(InsertRescaleInt32Pass())
+
+        # Node transformation passes (post q/dq folding)
+
         self.add_pass(DecomposeExpm1Pass())
         self.add_pass(DecomposeLogitPass())
         self.add_pass(DecomposeMaskedFill())
@@ -196,57 +212,67 @@ def _tosa_pipeline(
         self.add_pass(DecomposeSignPass())
         self.add_pass(DecomposeFloorDividePass())
         self.add_pass(DecomposeDivTensorModePass())
+        self.add_pass(DecomposeGeluPass())
+        self.add_pass(DecomposeAddSubAlphaPass())
+        self.add_pass(DecomposeGroupedConv())
+        self.add_pass(Conv1dUnsqueezePass())
+
+        # Scalars -> tensors, match tensor dtypes and ranks.
+
         self.add_pass(ReplaceScalarWithTensorByProfilePass())
+        self.add_pass(ConvertFullLikeToFullPass())
+        self.add_pass(MatchArgDtypePass())
+        self.add_pass(UnsqueezeScalarPlaceholdersPass(exported_program))
+        # TODO: Move DecomposeNotEqualPass to before or after this block of
+        # passes. Ticket: MLETORCH-1540
+        self.add_pass(DecomposeNotEqualPass())
+        self.add_pass(MatchArgRanksPass(exported_program))
+        self.add_pass(FuseConstantArgsPass(exported_program))
+
+        # Node transformation passes (post scalar-removal)
+
         self.add_pass(DecomposeRemainderPass())
         self.add_pass(DecomposeDivTensorModePass())
         self.add_pass(DecomposeEmbeddingPass())
         self.add_pass(FuseBatchnorm2DPass(exported_program))
         self.add_pass(ConvertMmToBmmPass())
         self.add_pass(DecomposeGluPass())
-        self.add_pass(DecomposeLinearPass())
         self.add_pass(DecomposeLeakyReLUPass())
-        self.add_pass(DecomposeNotEqualPass())
         self.add_pass(DecomposeDivPass())
-        self.add_pass(DecomposeAddSubAlphaPass())
         self.add_pass(DecomposeSoftmaxPass())
-        self.add_pass(DecomposeGeluPass())
-        self.add_pass(ConvertFullLikeToFullPass())
         self.add_pass(ConvertMinMaxPass())
         self.add_pass(ConvertAnyDefaultDimDimsPass())
-        self.add_pass(MatchArgDtypePass())
-        self.add_pass(UnsqueezeScalarPlaceholdersPass(exported_program))
-        self.add_pass(MatchArgRanksPass(exported_program))
         self.add_pass(DecomposeAdaptiveAvgPool2dPass())
         self.add_pass(DecomposeAvgPool2d())
         self.add_pass(
             DecorateFp32toInt32CastingPass()
         )  # Require that no new fp32->int32 is introduced after this pass
         self.add_pass(ComputeConstantOpsAOT(exported_program))
-
-        self.add_pass(DecomposeGroupedConv())
         self.add_pass(ConvertExpandCopyToRepeatPass())
         self.add_pass(UnsqueezeBeforeRepeatPass())
         self.add_pass(DecomposeCumsumPass(exported_program))
-        self.add_pass(Conv1dUnsqueezePass())
         self.add_pass(DecomposeMaxPool2DPass())
         self.add_pass(SizeAdjustInputPass())
         self.add_pass(DecomposeSelectPass())
         self.add_pass(ConvertSqueezesToViewPass())
         self.add_pass(CastToInt32Pass())
         self.add_pass(BroadcastArgsPass())
-
         self.add_pass(ConvertPermuteSingletonToViewPass())
         self.add_pass(FuseViewCopyTransform())
-        self.add_pass(FuseConstantArgsPass(exported_program))
         self.add_pass(DecomposeConv2dWithInt16ActivationPass())
-        self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
+        self.add_pass(DecomposeSumPass())
         self.add_pass(InsertTableOpsPass(exported_program))
+
+        # Aten -> TOSA transformation passes
+
         self.add_pass(RewriteUpsamplePass())
         self.add_pass(RewriteConv2dPass(exported_program))
         self.add_pass(RewriteMatmulPass())
+
+        # Postprocessing/cleanup passes
+
+        self.add_pass(CastInt64BuffersToInt32Pass(exported_program))
         self.add_pass(FuseEqualPlaceholdersPass(exported_program))
-        self.add_pass(InsertRescaleInt32Pass())
-        self.add_pass(DecomposeSumPass())
         self.add_pass(ToTosaMemoryFormatPass(exported_program))
         self.add_pass(RemoveNoopPass())
         self.add_pass(InsertRescalePass())
 
@@ -31,11 +31,25 @@
 from torch.export.graph_signature import InputKind
 
 
+def is_submodule_node(node: torch.fx.Node):
+    if node.op not in ("get_attr", "placeholder"):
+        return False
+    try:
+        node.graph.owning_module.get_submodule(node.target)
+    except AttributeError:
+        return False
+    return True
+
+
 def is_get_attr_node(node: torch.fx.Node) -> bool:
     """
-    Returns true if the given node is a get attr node for a tensor of the model
+    Returns true if the given node is a get attr node for a tensor of the model.
     """
-    return isinstance(node, torch.fx.Node) and node.op == "get_attr"
+    return (
+        isinstance(node, torch.fx.Node)
+        and node.op == "get_attr"
+        and not is_submodule_node(node)
+    )
 
 
 def is_param_node(exp_prog: ExportedProgram, node: torch.fx.Node) -> bool:
 
@@ -41,6 +41,8 @@ def _to_int32(self, graph_module: torch.fx.GraphModule):
         for node in graph_module.graph.nodes:
             if len(node.users) == 0:
                 continue
+            if "val" not in node.meta:
+                continue
             fake_tensor = node.meta["val"]
             if not isinstance(fake_tensor, torch._subclasses.fake_tensor.FakeTensor):
                 continue
 
@@ -12,6 +12,7 @@
     create_node,
     get_first_fake_tensor,
 )
+from executorch.backends.arm._passes.insert_rescales_pass import InsertRescaleInt32Pass
 from executorch.exir.dialects._ops import ops as exir_ops
 from executorch.exir.pass_base import ExportPass, PassResult
 
@@ -26,7 +27,7 @@ class DecomposeLinearPass(ArmPass):
         output           = view(conv2d)
     """
 
-    _passes_required_after: Set[Type[ExportPass]] = set()
+    _passes_required_after: Set[Type[ExportPass]] = {InsertRescaleInt32Pass}
 
     def call(self, graph_module):
         for node in graph_module.graph.nodes:
 
@@ -57,6 +57,7 @@ def __init__(self, exported_program: ExportedProgram) -> None:
         exir_ops.edge.aten.lt.Tensor,
         exir_ops.edge.aten.le.Tensor,
         exir_ops.edge.aten.pow.Tensor_Tensor,
+        exir_ops.edge.aten.remainder.Tensor,
         exir_ops.edge.aten.where.self,
         exir_ops.edge.aten.bitwise_and.Tensor,
         exir_ops.edge.aten.bitwise_xor.Tensor,
 
@@ -11,6 +11,7 @@
     create_node,
     get_first_fake_tensor,
 )
+from executorch.backends.arm.tosa.mapping import TosaSpecialDtype
 from executorch.backends.arm.tosa.utils import get_resize_parameters
 from executorch.exir.dialects._ops import ops as exir_ops
 from executorch.exir.pass_base import ExportPass, PassResult
@@ -52,7 +53,9 @@ def call(self, graph_module):
                 node.replace_all_uses_with(tosa_resize_node)
                 graph_module.graph.erase_node(node)
             input_dtype = get_first_fake_tensor(x).dtype
-            if input_dtype == torch.int8 and resize_mode == "bilinear":
+            if (
+                input_dtype == torch.int8 or input_dtype == torch.int16
+            ) and resize_mode == "bilinear":
                 input_size = get_first_fake_tensor(x).shape
                 input_size_xy = input_size[2:]
                 output_size = get_first_fake_tensor(node).shape
@@ -71,6 +74,11 @@ def call(self, graph_module):
                         exir_ops.backend.tosa.RESCALE.default,
                     )
                     tosa_resize_node.replace_all_uses_with(rescale_node)
+                    if input_dtype == torch.int16:
+                        tosa_resize_node.meta[TosaSpecialDtype.meta_key()] = (
+                            TosaSpecialDtype.INT48
+                        )
+
                     rescale_node.args = (
                         tosa_resize_node,
                         output_dtype,
 
@@ -299,6 +299,8 @@ def remove_dim_order_kwargs(
 
     def call(self, graph_module: torch.fx.GraphModule):
         for node in graph_module.graph.nodes:
+            if "val" not in node.meta:
+                continue
             node_data = get_first_fake_tensor(node).data
 
             self.remove_dim_order_kwargs(graph_module, node)
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-4361747abfc55e40e929396ed986efe775d745f9`
	`1`	`+d03e90c2cd9048e6d9a75285c0355f033cd016fc`
Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-556fc09a9f67f24ca5591ec049c5d0c347c5f62a`
	`1`	`+b31bad1b8f1331bf43d47f46602cf6141db56844`